SlideShare una empresa de Scribd logo
 




                                  CAPÍTULO 


                                           8 
                            ANÁLISIS ESTADÍSTICO:  
                              SEGUNDA PARTE 




 


INTRODUCCIÓN 

Con este capítulo se complementa el 10 de Metodología de la investigación, 5ª edición, 
además  de  que  se  actualizó  su  contenido.  Se  presentan  primero  las  hipótesis 
estadísticas,  las  puntuaciones  z,  cálculos  inferenciales  o  estimaciones  de  parámetros  y 
luego  el  cálculo  del  coeficiente  alfa‐Cronbach  y  el  sustento  del  análisis  de  varianza 
unidireccional. Finalmente los análisis multivariados y algunas fórmulas, así como una 
secuencia  de  análisis  en  Minitab  y  otra  en  SPSS.  Los  autores  asumimos  que  se  revisó 
previamente el capítulo en cuestión. 



HIPÓTESIS ESTADÍSTICAS 

En el capítulo 10 se señaló que cada prueba estadística obedece a un tipo de hipótesis 
de  investigación  e  hipótesis  estadística  distinta.  Las  hipótesis  estadísticas  son  la 




 
transformación  de  las  hipótesis  de  investigación,  nulas  y  alternativas  en  símbolos 
estadísticos.  Algunas  revistas  académicas  solicitan  que  se  incluyan  estas  hipótesis  y 
ayudan a conceptualizar ciertas pruebas revisadas en el capítulo 10 del texto impreso. 
    En ocasiones, el investigador traduce su hipótesis de investigación y nula (y cuando 
se  formulan  hipótesis  alternativas,  también  éstas)  en  términos  estadísticos. 
Básicamente hay tres tipos de hipótesis estadísticas, que corresponden a clasificaciones 
de  las  hipótesis  de  investigación  y  nula:  1)  de  estimación,  2)  de  correlación  y  3)  de 
diferencias de medias. A continuación mencionaremos y daremos ejemplos de cada una 
de ellas. 


Hipótesis estadísticas de estimación 
Corresponden  a  las  que,  al  hablar  de  hipótesis  de  investigación,  se  les  denomina 
hipótesis descriptivas de un dato que se pronostica. Sirven para evaluar la suposición de 
un  investigador  respecto  del  valor  de  alguna  característica  en  una  muestra  de 
individuos, otros seres vivos, sucesos u objetos, y en una población. Se fundamentan en 
información  previa.  Supongamos  que,  basándose  en  ciertos  datos,  un  investigador 
plantea  la  siguiente  hipótesis:  “el  promedio  mensual  de  casos  de  trastorno 
psiconeurótico  caracterizados  por  reacción  asténica,  que  serán  atendidos  en  los 
hospitales  de  la  ciudad  de  Linderbuck,  resultará  mayor  a  20”.  Además,  desea 
transformar esta hipótesis de investigación en una hipótesis estadística. Lo primero que 
debe  hacer  es  analizar  cuál  es  la  estadística  a  que  su  hipótesis  hace  referencia  (en  el 
ejemplo se trata de un promedio o media mensual de casos atendidos). El segundo paso 
consiste  en  encontrar  cómo  se  simboliza  esa  estadística  (promedio  se  simboliza  como 

    ).  El  tercer  paso  consiste  en  traducir  la  hipótesis  de  investigación  a  una  forma 
estadística: 

         Hi:     > 20    (“el promedio mensual de casos atendidos será mayor a 20”.) 

La hipótesis estadística nula sería la negación de la hipótesis anterior: 
         Ho:     < 20 (“el promedio mensual de casos atendidos será menor a 20”.) 
y la hipótesis alternativa podría ser: 
         Ha:     = 20 (“el promedio mensual de casos… es igual a 20”.) 




 
Después,  el  investigador  comparará  el  promedio  estimado  por  la  hipótesis  con  el 
promedio actual de la muestra que seleccionó. La exactitud de su estimación se evalúa 
con  esta  comparación.  Y  como  señalan  Black  y  Champion  (1976),  algunos 
investigadores  consideran  las  hipótesis  estadísticas  de  estimación  como  hipótesis  de 
diferencia,  pues  en  última  instancia  lo  que  se  evalúa  es  la  diferencia  entre  un  valor 
planteado en la hipótesis y un valor observado en una muestra. 
        La  estimación  de  estas  hipótesis  no  se  limita  a  promedios,  ya  que  puede  incluirse 
cualquier estadística: porcentajes, medianas, modas, etc. (Crosby et al., 2006). 

Hipótesis estadísticas de correlación 
Estas  hipótesis  tienen  por  objetivo  traducir  en  términos  estadísticos  una  correlación 
entre  dos  o  más  variables.  El  símbolo  de  una  correlación  entre  dos  variables  es  “r” 
(minúscula),  y  entre  más  de  dos  variables  “R”  (mayúscula).  La  siguiente  hipótesis:  “a 
mayor  cohesión  en  un  grupo,  mayor  eficacia  en  el  logro  de  sus  metas  primarias”,  se 
traduciría  tal como se muestra en el esquema. 
Hi:                r                              x         y              ≠   0 (no es igual a cero o, lo que es lo mismo,  ambas 
                                                                                      variables están correlacionadas) 
                
       La correlación 
                                  entre dos variables (cohesión y eficacia) 
 
        La hipótesis nula se traduciría: 

                Ho: rxy = 0 (Las dos variables no están correlacionadas; su correlación es cero.) 
 
Otro ejemplo: 
 
        Hi: Rxyz ≠ 0 (La correlación entre las variables autonomía, variedad y motivación 
                intrínseca  no  es  igual  a  cero.  Es  decir,  las  tres  variables  “x”,  “y”,  “z”  están 
                asociadas). 
                Ho: Rxyz = 0                     (No hay correlación) 



Hipótesis estadísticas de la diferencia de medias u otros valores 
En estas hipótesis se compara una estadística entre dos o más grupos. Supongamos que 
un investigador plantea la siguiente pregunta de estudio: ¿difieren los periódicos Télex y 
Noticias  en  cuanto  al  promedio  de  editoriales  mensuales  que  dedicaron,  durante  el 




 
último año, al tema del terrorismo internacional?1 Su hipótesis de investigación podría 
ser:  “existe  una  diferencia  entre  el  promedio  de  editoriales  mensuales  que  dedicó, 
durante  el  último  año,  al  tema  del  terrorismo  internacional  el  diario  Télex,  y  el  que 
dedicó el diario Noticias”. La estadística que se compara entre los grupos (editoriales de 

Télex, un grupo, y editoriales de Noticias, otro grupo) es el promedio mensual (                                                 ). La 
hipótesis estadística se formularía así: 
                                     
                                                  es diferente 
          
          
                                    Hi:             1  ≠               2 (promedio del grupo 2: editoriales de Noticias) 
          
          
             (promedio  del  grupo  uno:  editoriales  de 
        
    Télex) 
         La hipótesis nula: 

                  Ho:               1  =             2  (“No  hay  diferencia  entre  los  promedios  de  los  dos  grupos  de 

                  editoriales”.) 

         Con otra estadística (porcentaje) y tres grupos, se obtendrían hipótesis estadísticas 
como las siguientes: 
          
         Hi: %1 ≠ %2 ≠ %3 (“Los porcentajes de los tres grupos son distintos”.) 
         Ho: %1 = %2 = %3 (“No hay diferencias”.) 




PUNTUACIONES z 
                                                                                                             Puntuación z Medida 
Las  puntuaciones  z  son  transformaciones  que  se  pueden                                                 que indica la dirección y 
hacer  a  los  valores  o  las  puntuaciones  obtenidas,  con  el                                            el grado en que un valor 
                                                                                                             individual se aleja de la 
propósito  de  analizar  su  distancia  respecto  a  la  media,  en                                          media, en una escala de 
unidades de desviación estándar. Una puntuación z nos indica                                                 unidades de desviación 
                                                                                                             estándar. 
la  dirección  y  el  grado  en  que  un  valor  individual  obtenido  se 
                                                                                                              
                                                                            
1  Nombres completamente ficticios 




 
aleja de la media, en una escala de unidades de desviación estándar. Como mencionan 
Nie  et  al.  (1975),  las  puntuaciones  z  son  el  método  más  comúnmente  utilizado  para 
estandarizar la escala de una variable medida en un nivel por intervalos. 
     
    Su fórmula es: 




donde X es la puntuación o el valor a transformar,         es la media de la distribución y s la 
desviación  estándar  de  ésta.  El  resultado  z  es  la  puntuación  transformada  en  unidades 
de desviación estándar. 
    Supongamos que en una distribución de frecuencias obtuvimos una media de 60 y 
una  desviación  estándar  de  10,  y  deseamos  comparar  una  puntuación  de  “50”  con  el 
resto  de  la  distribución.  Entonces,  transformamos  esta  puntuación  o  tal  valor  en  una 
puntuación z. Tenemos que: 
                                           X = 50

                                               = 60 

                                           s = 10



    La puntuación z correspondiente a un valor de “50” es: 
     


                                                             




    Podemos decir que el valor “50” se localiza a una desviación estándar por debajo de 
la media de la distribución (el valor “30” está a tres desviaciones estándar por debajo de 
la media). 
    Estandarizar  los  valores  permite  comparar  puntuaciones  de  dos  distribuciones 
diferentes  (la  forma  de  medición  es  la  misma,  aunque  se  trata  de  distribuciones 
distintas).  Por  ejemplo,  podemos  contrastar  una  distribución  obtenida  en  una 




 
preprueba  con  otra  obtenida  en  una  posprueba  (en  un  contexto  experimental). 
Supongamos  que  se  trata  de  un  estímulo  que  incrementa  la  productividad.  Un 
trabajador obtuvo en la preprueba una productividad de 130 (la media del grupo fue de 
122.5 y la desviación estándar de 10). Y en la posprueba obtuvo 135 (la media del grupo 
fue de 140 y la desviación estándar de 9.8). ¿Mejoró la productividad del trabajador? En 
apariencia,  la  mejoría  no  es  considerable.  Sin  transformar  las  dos  calificaciones  en 
puntuaciones z, no es posible asegurarlo porque los valores no pertenecen a la misma 
distribución.  Entonces  transformamos  ambos  valores  a  puntuaciones  z,  los  pasamos  a 
una escala común donde la comparación es válida. El valor de 130 en productividad en 
términos de unidades de desviación estándar es igual a: 
     

                                         130 − 122.5
                                   z=                = 0.75
                                            10.0



    Y el valor de 135 corresponde a una puntuación z de: 
     

                                         135 − 140
                                    z=             = −0.51
                                            9.8



    Como  observamos,  en  términos  absolutos  135  es  una  mejor  puntuación  que  130, 
pero no en términos relativos (en relación con sus respectivas distribuciones). 
    La  distribución  de  puntuaciones  z  no  cambia  la  forma  de  la  distribución  original, 
pero  sí  modifica  las  unidades  originales  a  “unidades  de  desviación  estándar”  (Wright, 
1979). La distribución de puntuaciones z tiene una media de 0 (cero) y una desviación 
estándar de 1 (uno). La figura 8.1 muestra la distribución de puntuaciones z. 




 
 
 
 
 
 
Figura 8.1 Distribución de puntuaciones z 



    Las puntuaciones z también sirven para comparar mediciones de distintas pruebas 
o escalas aplicadas a los mismos participantes (los valores obtenidos en cada escala se 
transforman  en  puntuaciones  z  y  se  comparan)  (Delbaere  et  al.,  2007).  No  debe 
olvidarse que los elementos de la fórmula específicamente son la media y la desviación 
estándar que corresponden al valor a transformar (de su misma distribución). También, 
las  puntuaciones  z  sirven  para  analizar  distancias  entre  puntuaciones  de  una  misma 
distribución  y  áreas  de  la  curva  que  abarcan  tales  distancias,  o  para  sopesar  el 
desempeño de un grupo de participantes en varias pruebas. Las puntuaciones z son un 
elemento descriptivo adicional que se agrega para analizar nuestros datos. 




ESTIMACIÓN DE PARÁMETROS:  
UN EJEMPLO CON LA MEDIA POBLACIONAL 
 
En  el  capítulo  10  del  texto  impreso  se  mencionó  que  una  de  las  funciones  de  la 
estadística inferencial es la estimación de parámetros, pues bien, al calcular la media de 
nuestra muestra y si no estamos muy seguros de su representatividad podemos seguir 
un  procedimiento  para  ver  si  nuestra  hipótesis  respecto  a  la  media  poblacional  es 




 
aceptada  o  rechazada.2  Lo  anterior  es  para  responder  a  la  siguiente  pregunta:  ¿qué 
hacemos  para  ver  si  nuestra  hipótesis  sobre  la  media  poblacional  es  aceptada  o 
rechazada?  Pero  antes  de  estudiar  el  procedimiento,  es  necesario  hacer  las  siguientes 
consideraciones: 

          a)   La  distribución  muestral  es  una  distribución  normal  de  puntuaciones  z,  es 
              decir, la base de la curva son unidades de desviación estándar. 
          b)   Las  puntuaciones  z  son  distancias  que  indican  áreas  bajo  la  distribución 
              normal. En este caso, áreas de probabilidad. 
          c)   El  área  de  riesgo  es  tomada  como  el  área  de  rechazo  de  la  hipótesis;  por  el 
              contrario, el área de confianza, como el área de aceptación de la hipótesis. 
          d)   Se habla de una hipótesis acerca del parámetro (en este caso, media 
              poblacional). 

Si partimos de estas consideraciones, el procedimiento es: 


          1.   Sobre  bases  firmes  (revisión  de  la  literatura  e  información  disponible), 
              establecer  una  hipótesis  acerca  del  parámetro  poblacional.  Por  ejemplo:  el 
              promedio de horas diarias que se exponen los niños de la ciudad de Valladolid 
              a la televisión en fin de semana es de 3.0 horas. 
      2.   Definir el nivel de significancia. Por ejemplo, .05. 
      3.   Recolectar  los  datos  en  una  muestra  representativa.  Vamos  a  suponer  que 
              obtuvimos una media de 2.9 horas y una desviación estándar de 1.2 horas; la 
              muestra incluyó 312 niños. 
      4.   Estimar  la  desviación  estándar  de  la  distribución  muestral  de  la  media 
              utilizando la siguiente fórmula: 
       


                                                              




                                                                            
2  En este ejemplo se utiliza la media, tal vez el caso más conocido, pero puede ser cualquier otro parámetro 

poblacional. 




 
Donde        es  la  desviación  estándar  de  la  distribución  muestral  de  la  media,  s 
        representa la desviación estándar de la muestra y n es el tamaño de la muestra. 
           En el ejemplo: 


                                                         



                                                             


5.   Transformar  la  media  de  la  muestra  en  una  puntuación  z,  en  el  contexto  de  la 
    distribución  muestral,  con  una  variación  de  la  fórmula  ya  conocida  para  obtener 
    puntuaciones z: 


                                                         



    donde X es la media de la muestra (recordemos que la distribución muestral es de 

    medias y no de puntuaciones),   es la media hipotética de la distribución muestral 

    (parámetro  poblacional),               es  la  desviación  estándar  de  la  distribución 
    muestral de medias. Así, tenemos: 
     

                                          2.9 − 3.0
                                     z=             = −1.47
                                           0.0679            

 
6.    En la tabla de áreas  bajo la curva normal (ver apéndice, 4 tabla 1 de este CD), buscar 
    aquella puntuación z que deje a 25% por encima de ella, que es 1.96. En la tabla del 
    apéndice  4  se  presenta  la  distribución  de  puntuaciones  z,  sólo  la  mitad,  pues 
    debemos  recordar  que  es  una    distribución  simétrica  y  se  aplica  igual  para  ambos 
    lados de la media. Así se incluye en los  textos de estadística. Se busca 2.5%, porque 
    la tabla sólo abarca la mitad de la distribución y el riesgo que estamos afrontando es 
    de  5%  (2.5%  del  extremo  de  cada  lado).  La  tabla  mencionada  contiene  cuatro 
    columnas:  la  primera  indica  puntuaciones  z,  la  segunda  expresa  la  distancia  de    la 
    puntuación z a la media. La tercera, el área que está por de bajo de esa puntuación 




 
desde el comienzo de la distribución, como se muestra en la gráfica: 
 
 
                                                             z 

 
        Y la cuarta, del área que está por encima de esa puntuación: 
     
     
                                                               z     
     
     
            Las  áreas  se  expresan  en  proporciones.  Lo  que  buscamos  es  una  puntuación z 
        que deje por encima un área de 0.0250 o 2.5% (la encontramos en la cuarta columna 
        de la tabla); esta puntuación z es de 1.96. Siempre que  nuestro nivel de significancia 
        sea 0.05, tomamos la puntuación z de 1.96. 
             
7. Comparar la media de la  muestra transformada a puntuación z con el valor 1.96; si 
        es menor, aceptar la hipótesis; si es mayor, rechazarla. Veamos el ejemplo: 
         
            Media de la muestra transformada a z               Nivel de significancia del 0.05 
                            1.47                                               1.96 
     
     
    Decisión: Aceptar la hipótesis a un nivel de significancia de 0.05 (95% a favor y 5% de 
    riesgo de cometer un error). 
     
    Si la media obtenida  
    al transformarse en z, 
    Hubiera sido 3.25, 
     
                              7.46 o un valor mayor  Rechazar la hipótesis 
     
    Por ejemplo : 
    Media de la muestra = 2.0 




 
Desviación estándar de la muestra = 0.65 
                                                                                   n = 700 
                                                                                 S  = 0.0246 
                                                                                   z = 40.65 
 
La media está situada a más de 40  desviaciones estándar de al media; se localiza en la  
zona  crítica (más allá de 1.96 desviaciones estándar). Rechazar la hipótesis. 




¿POR QUÉ ES IMPORTANTE OTRO CONCEPTOPARA LA 
ESTIMACIÓN DE PARÁMETROS: EL INTERVALO DE CONFIANZA? 
 
Se ha hablado de la distribución muestral por lo que respecta a la prueba de hipótesis, 
pero otro procedimiento de la estadística inferencial es construir un intervalo donde se 
localiza  un  parámetro  (Wiersma  y  Jurs,  2008).  Por  ejemplo,  en  lugar  de  pretender 
probar una hipótesis acerca de la media poblacional, puede buscarse un intervalo donde 
se  ubique  dicha  media.  Lo  anterior  requiere  un  nivel  de  confianza,  al  igual  que  en  la 
prueba  de  hipótesis  inferenciales.  El  nivel  de  confianza  es  al  intervalo  de  confianza  lo 
que  el  nivel  de  significancia  es  a  la  prueba  de  hipótesis.  Es  decir,  se  trata  de  una 
probabilidad definida de que un parámetro se va a ubicar en un determinado intervalo. 
Recordemos que los niveles de confianza –expresados en porcentajes– más comunes en 
la investigación son 0.95 y 0.99 (.05 y .01). Su sentido es similar al ya comentado, si es 
de  0.95;  quiere  decir  que  tenemos  95%  en  favor  de  que  el  parámetro  se  localice  en  el 
intervalo estimado, contra 5% de elegir un intervalo equivocado. El nivel de 0.99 señala 
99% de probabilidad de seleccionar el intervalo adecuado. Tales niveles de confianza se 
expresan  en  unidades  de  desviación  estándar.  Una  vez  más  se  acude  a  la  distribución 
muestral, concretamente a la tabla de áreas bajo la curva normal (apéndice 4, tabla 1 de 
este  CD  anexo  o  en  STATS®  “Áreas  bajo  la  curva  normal”)3,  y  se  elige  la  puntuación  z 
correspondiente  al  nivel  de  confianza  seleccionado.  Una  vez  hecho  esto,  se  aplica  la 
siguiente fórmula: 
 
 
                                                                            
3  También STATS® contiene esta tabla. 




 
Puntuación z que           Desviación estándar de 
                                                   expresa el nivel de       la distribución muestral 
        Intervalo de confianza = estadígrafo +     confianza elegido             correspondiente 


 
    En la fórmula, el estadígrafo es la estadística calculada en la muestra, la puntuación 
z  es  1.96  con  un  nivel  de  0.95  y  de  2.58  con  un  nivel  de  0.99,  en  tanto  que  el  error 
estándar depende del estadígrafo en cuestión. Veámoslo con el ejemplo de la media en 
el caso de la exposición diaria a la televisión (en fin de semana) por parte de los niños 
de Valladolid: 
     
    Media = 2.9 horas 
    s = 1.2 horas 

                          (desviación estándar de la distribución muestral de la media). 
 
    Nivel de confianza  
                                             = 0.95 (z = 1.96) 
    Intervalo de confianza                   = 2.9 ± (1.96) (0.0679) 
                                             = 2.9 ± (0.133) 
    Intervalo  de  confianza:  la  media  poblacional  está  entre  2.767  y  3.033  horas,  con 
95% de probabilidades de no cometer error. 


CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD 
(FIABILIDAD) ALFA‐CRONBACH 
En los capítulos 9 y 10 se definió el coeficiente alfa de Cronbach (α), así como sus usos e 
interpretación. Los programas de análisis estadístico como SPSS, Minitab, SAS y otros, lo 
incluyen  y  calculan  instantáneamente.  Pero  para  quienes  no  tienen  acceso  a  estos 
programas,  presentamos  la  forma  de  obtenerlos.  De  acuerdo  con  Carmines  y  Zeller 
(1988,  pp.  44  y  45),  así  como  Corbetta  (2003),  existen  tres  procedimientos  para 
determinar el coeficiente “α” o alfa: 


    1.  Sobre  la  base  de  la  varianza  de  los  ítems,  con  la  aplicación  de  la  siguiente 
         fórmula:




 
N
                                    α=
                                         ⎡ N − 1⎤ ⎢
                                                                 ( )
                                                  ⎡ 1 − ∑ s 2 Yi ⎤
                                                                 ⎥
                                         ⎣      ⎦       s2 x
                                                  ⎢
                                                  ⎣              ⎥
                                                                 ⎦




       En  donde  N  representa  el  número  de  ítems  de  la  escala,       ∑ s (Yi )   es  igual  a  la 
                                                                                     2



sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la escala. 
        
       2.  Sobre la base de la matriz de correlación de los ítems, el procedimiento sería: 
        
       a)  Se aplica la escala. 

       b)  Se obtienen los resultados. 

       c)  Se  calculan  los  coeficientes  de  correlación  r  de  Pearson  entre  todos  los  ítems 

           (todos contra todos de par en par). 

       d)  Se elabora la matriz de correlación con los coeficientes obtenidos. Por ejemplo: 



                                                   Ítems 
                       1                            2                         3                        4 
1                      —                          0.451                     0.399                   0.585 
2               ya fue calculado                    —                       0.489                   0.501 
3               ya fue calculado             ya fue calculado                 —                     0.541 
4               ya fue calculado             ya fue calculado          ya fue calculado               — 

 
       Los  coeficientes  que  se  mencionan  como  “ya  fue  calculado”,  se  ubican  en  la  parte 
superior  de  las  líneas  horizontales  (guiones).  Es  decir,  cada  coeficiente  se  incluye  una 
sola vez y se excluyen los coeficientes que vinculan al ítem o puntuación consigo misma 
(1 con 1, 2 con 2, 3 con 3 y 4 con 4). 


       e)  Se calcula   (promedio de las correlaciones). 




 
(     es  la  sumatoria  de  los  valores  de  las  correlaciones  y  NP  el  número 
                  de correlaciones no repetidas o no excluidas).




f)    Se aplica la fórmula siguiente:    

                 Np
       α=                  
            1 + p (N − 1)

       


      Donde N es el número de ítems y   el promedio de las correlaciones entre ítems. 
      En el ejemplo: 




                                                α = 0.798

                                          α = 0.80 (cerrando) 

      Es  un  coeficiente  aceptable  y  recordemos  que  todos  los  ítems  de  la  escala  deben 
estar medidos en intervalos o razón. 


      3.  Mediante otra fórmula que se basa en la correlación promedio (Corbetta, 2003, 
          p. 238). 




 
Se usa la siguiente fórmula:                                 

                                                              nr
                                                  α=
                                                         1 + r(n − 1)




    Donde  n  representa  el  número  de  ítems  o  elementos  de  la  escala  y  r  es  su 
correlación promedio. 


SUSTENTO DEL ANÁLISIS DE VARIANZA UNIDIRECCIONAL 
En  el  capítulo  10  del  texto  impreso,  se  dijo  que  el  ANOVA  unidireccional  produce  un 
valor F, el cual se basa en una distribución muestral, conocida como distribución F, y tal 
valor  compara  las  variaciones  en  las  puntuaciones  debidas  a  dos  diferentes  fuentes: 
variaciones entre los grupos que se contrastan y variaciones dentro de los grupos. 
    Si los grupos difieren realmente entre sí, sus puntuaciones variarán más de lo que 
puedan variar las puntuaciones entre los integrantes de un mismo grupo. Veámoslo con 
un ejemplo cotidiano. Si tenemos tres familias A, B y C. La familia A está integrada por 
Felipe, Angélica, Elena y José Luis. La familia B está compuesta por Chester, Pilar, Íñigo, 
Alonso  y  Carlos.  Y  la  familia  C  está  integrada  por  Rodrigo,  Laura  y  Roberto.  ¿Qué 
esperamos? Pues que los integrantes de una familia se parezcan más entre sí que a los 
miembros de otra familia. Esto se graficaría como en la figura 8.2. 




 
 
 
Figura 8.2 Ejemplo de las variaciones de los grupos comparados 
 
      Es  decir,  esperamos  homogeneidad  intrafamilias  y  heterogeneidad  interfamilias. 
¿Qué sucedería si los miembros de las familias se parecieran más a los integrantes de las 
otras familias que a los de la suya propia? Quiere decir que no hay diferencia entre los 
grupos (en el ejemplo, familias). 
      Esta misma lógica se aplica a la razón F, la cual nos indica si las diferencias entre los 
grupos son mayores que las diferencias intragrupos (dentro de éstos). Estas diferencias 
se  miden  en  términos  de  varianza.  La  varianza  es  una  medida  de  dispersión  o 
variabilidad alrededor de la media y se calcula en términos de desviaciones elevadas al 
cuadrado. Recuerde que la desviación estándar es un promedio de desviaciones respecto 

a  la  media  X − X   y  la  varianza  es  un  promedio  de  desviaciones  respecto  a  la  media 

                          (        ) . La varianza por eso se simboliza como S  y su fórmula 
                                    2
elevadas al cuadrado X − X                                                           2




      ∑( X − X )
                   2
es                     n .  En  consecuencia,  la  razón  F,  que  es  una  razón  de  varianzas,  se 

expresa así: 
       




 
 
    En  donde  la  media  cuadrática  implica  un  promedio  de  varianzas  elevadas  al 
cuadrado.  La  media  cuadrática  entre  los  grupos  se  obtiene  al  calcular  la  media  de  las 
puntuaciones de todos los grupos (media total), después se obtiene la desviación de la 
media de cada grupo respecto a la media total y se eleva al cuadrado cada una de estas 
desviaciones, y luego se suman. Finalmente se sopesa el número de individuos en cada 
grupo y la media cuadrática se obtiene con base en los grados de libertad intergrupales 
(no se calcula con base en el número de puntuaciones). La media cuadrática dentro de 
los grupos se calcula obteniendo primero la desviación de cada puntuación respecto a la 
media  de  su  grupo;  posteriormente  esta  fuente  de  variación  se  suma  y  combina  para 
obtener una media de la varianza intragrupal para todas las observaciones, tomando en 
cuenta los grados de libertad totales (Wright, 1979; Doncaster y Davey, 2007). 
    Las fórmulas de la media cuadrática son: 
     



    º

    Los grados de libertad entre grupos =             (donde K es el número de grupos). 




    Los grados de libertad intragrupos =  n − K  (n es el tamaño de la muestra, la suma 
de los individuos de todos los grupos, y K recordemos que es el número de grupos).  
    Pues  bien,  cuando  F  resulta  significativa,  quiere  decir  que  los  grupos  difieren 
“significativamente”  entre  sí.  Es  decir,  se  acepta  la  hipótesis  de  investigación  y  se 
rechaza la hipótesis nula. 
    Cuando se efectúa el análisis de varianza por medio de un programa computacional 
estadístico, se genera una tabla de resultados con los elementos de la tabla 8.1. 




 
Tabla 8.1 Elementos para interpretar un análisis de varianza  
unidireccional realizado en SPSS 
                             Sumas de         Grados de         Medias                            
         Fuente de           cuadrados        libertad          cuadráticas                      Significancia 
         variación           (Sums of         (Degrees of       (Mean           Razón F          de F  
         (Source)            squares)         freedom)          squares)        (F‐ratio)        (F prob.) 
         Entre               SS entre +       gl entre          SS entre/gl                      α 
         grupos                                                 entre                         
         (between                                                
         groups)                                                 
         Intragrupos         SS intra         gl intra          SS intra/gl 
         (within                                                intra 
         groups)                                                 
         Total               SS entre         gl entre +         
                             SS intra         gl intra 
         En Minitab se dan los siguientes elementos: 
         Fuente  GL (grados     SC  (suma de    MC (media      F  (valor)  P (sig.) 
                     de libertad)    cuadrados)    cuadrática) 



    El valor alfa o probabilidad a elegir una vez más es 0.05 o 0.01. Si es menor que 0.05 
es  significativo  en  este  nivel,  y  si  es  menor  que  0.01  también  es  significativo  en  este 
nivel. Cuando el programa o paquete estadístico no incluye la significancia se acude a la 
tabla 3 del apéndice 4 (tabla de la distribución F o en STATS® a “Valores de “F” al nivel 
de  confianza  de  .05  y  .01”).  Esta  tabla  contiene  una  lista  de  razones  significativas 
(razones  F)  que  debemos  obtener  para  aceptar  la  hipótesis  de  investigación  en  los 
niveles de confianza de 0.05 y 0.01. Al igual que en caso de la razón t, el valor exacto de 
F  que  debemos  obtener  depende  de  sus  grados  de  libertad  asociados.  Por  lo  tanto,  la 
utilización de la tabla se inicia al buscar los dos valores gl, los grados de libertad entre los 
grupos  y  los  grados  de  libertad  intragrupos.  Los  grados  de  libertad  entre  grupos  se 
indican  en  la  parte  superior  de  la  página,  mientras  que  los  grados  de  libertad 
intragrupos  se  han  colocado  al  lado  izquierdo  de  la  tabla.  El  cuerpo  de  la  tabla  de  la 
distribución  F  presenta  razones  F  significativas  en  los  niveles  de  confianza  de  0.05  y 
0.01. 
     




 
Si F  =  1.12 
                                    gl entre  =  2 
                                    gl intra  =  60 
                                                  
    Este valor F se compara con el valor que aparece en la tabla de la distribución F que 
es  3.15  y  como  el  valor  F  calculado  es  menor  al  de  dicha  tabla,  rechazaríamos  la 
hipótesis de investigación y aceptaríamos la hipótesis nula. Para que el valor F calculado 
sea significativo debe ser igual o mayor al de la tabla.  
 
ANÁLISIS MULTIVARIADO 
En  el  capítulo  10  del  libro,  cuando  se  analizaron  los  principales  métodos  estadísticos 
paramétricos,  concretamente,  después  de  revisar  el  ANOVA  unidireccional,  nos 
preguntábamos:  ¿pero  qué  ocurre  cuando  tenemos  diversas  variables  independientes  y 
una  dependiente,  varias  independientes  y  dependientes?  Tal  como  observábamos  en 
diagramas como el que se muestra en la figura 8.3. 



        Autoestima de 
        la persona 


                                                       Sentido 
            Edad                                       de vida 
                                                       de la 
                                                       persona 
            Género 



            Religión 




Figura 8.3 Ejemplo con cuatro variables independientes y una dependiente. 


    La respuesta era: entonces, requerimos de otros métodos estadísticos. Éstos son los 
que  revisaremos  a  continuación  y  una  vez  más,  sobre  la  base  de  que  existen 
computadoras  y  programas  como  el  SPSS,  del  mismo  modo  centrándonos  en  los 




 
elementos fundamentales de interpretación.  




¿Qué son los métodos de análisis multivariado? 
Los  métodos  de  análisis  multivariado  son  aquellos  en  que  se  analiza  la  relación  entre 
diversas  variables  independientes  y  al  menos  una  dependiente.  Son  métodos  más 
complejos que requieren del uso de computadoras para efectuar los cálculos necesarios 
(normalmente se enseñan a nivel posgrado).  


¿Qué es el análisis factorial de varianza?  
ANOVA (análisis de varianza de k direcciones o varios factores) 
Definición:  Es  una  prueba  estadística  para  evaluar  el  efecto  de  dos  o  más  variables 
independientes sobre una variable dependiente. 
    Responde a esquemas como el que se muestra en la figura 8.4. 
 
 
 
                  X1 
 



                  X2 
                                                              Y 

                  Xk 




Figura 8.4 Esquema de un análisis factorial de varianza 



Constituye una extensión del análisis de varianza unidireccional, solamente que incluye 
más  de  una  variable  independiente.  Evalúa  los  efectos  por  separado  de  cada  variable 
independiente y los efectos conjuntos de dos o más variables independientes. 


Variables: dos o más variables independientes y una dependiente. 




 
Nivel de medición de las variables: la variable dependiente (criterio) debe estar medida 

         en un nivel por intervalos o razón, y las variables independientes (factores) pueden 

         estar en cualquier nivel de medición, pero expresadas de manera categórica. 



Interpretación y ejemplo 


Hi:  “la  similitud  en  valores,  la  atracción  física  y  el  grado  de  realimentación  positiva  son 
variables que inciden en la satisfacción sobre la relación en parejas de novios”. 
 
Contexto:  Muestra  de  parejas  de  adultos  jóvenes  (23‐29  años)  de  Santiago  de  Chile, 
pertenecientes a estratos económicos altos (n = 400). 
      
     El  ANOVA  efectuado  mediante  un  paquete  estadístico  computacional  como  SPSS 
produce los siguientes elementos básicos: 

•  Fuente  de  la  variación  (source  of  variation).  Es  el  factor  que  origina  variación  en  la 
    dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos. 
•  Efectos  principales  (main  effects).  Es  el  efecto  de  cada  variable  independiente  por 
    separado; no está contaminado del efecto de otras variables independientes ni de error. 
    Suele proporcionarse la suma de todos los efectos principales. 
•  Interacciones  de  dos  direcciones  (2‐way  interactions).  Representa  el  efecto  conjunto  de 
    dos  variables  independientes,  aislado  de  los  demás  posibles  efectos  de  las  variables 
    independientes  (individuales  o  en  conjuntos).  Suele  proporcionarse  la  suma  de  los 
    efectos de todas estas interacciones. 
•  Interacciones  de  tres  direcciones  (3‐way  interactions).  Constituye  el  efecto  conjunto  de 
    tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de 
    los efectos de todas estas interacciones. 
•  Puede  haber  efecto  de  K‐direcciones,  esto  depende  del  número  de  variables 
    independientes. 

En nuestro ejemplo, tenemos los resultados que se muestran en la tabla 8.2. 




 
Tabla 8.2 Ejemplo de resultados en el ANOVA 
                                  VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN 
    Fuente de variación              Suma de        Grados de      Medias         Razón      Significancia 
    (SOURCE OF VARIATION)            cuadrados      libertad       cuadráticas               de F O P 
                                     (SUMS OF       (DEGREES OF  (MEAN 
                                     SQUARES)       FREEDOM)       SQUARES) 
    Efectos principales              —              —              —                  22.51         0.001** 
       (main effects) 


    Similitud                            —                  —              —                      31.18           0.001** 
    Atracción                            —                  —              —                      21.02           0.001** 
    Realimentación                       —                  —              —                      11.84           0.004** 
    Interacción de dos                   —                  —              —                                               
    direcciones (2‐way                                                                                                     
    interactions)                                                                                  7.65            0.010* 
    Similitud                            —                  —              —                       4.32            0.040* 
    Atracción                                                                                                              
    Similitud                            —                  —              —                       2.18              0.110 
    Realimentación                                                                                                         
    Atracción                            —                  —              —                       1.56              0.190 
    Interacción de tres                  —                  —              —                       8.01            0.020* 
    direcciones (3‐way 
    interaction) 
    Similitud                                                                                                              
    Atracción                            —                  —              —                                               
    Realimentación                                                                                                         
    —Residual                            —                  —              —                                               
    —Total                               —                  —              —                                               
    Nota:  A los estudiantes que se inician en el ANOVA normalmente les interesa saber si las razones “F” 
    resultaron o no significativas; por tanto, sólo se incluyen estos valores. Por lo que es a ellos a quienes  los 
    autores recomiendan concentrarse en  dichos valores y evitar confusiones. Desde luego, el investigador 
    experimentado acostumbra estudiar todos los valores. 
    ** Razón “F” significativa al nivel del 0.01 (p < 0.01) 
    *   Razón “F” significativa al nivel del 0.05 (p < 0.05) 


       Como  podemos  ver  en  la  tabla  8.2,  la  similitud,  la  atracción  y  la  realimentación 
tienen un efecto significativo sobre la satisfacción en la relación. Respecto a los efectos 
de  dos  variables  independientes  conjuntas,  sólo  la  similitud  y  la  atracción  tienen  un 
efecto,  hay  un  efecto  conjunto  de  las  tres  variables  independientes.  La  hipótesis  de 
investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo 
5 del presente disco: diseños experimentales: segunda parte: series cronológicas, factoriales y 
cuasiexperimentos  (en  el  apartado  sobre  diseños  factoriales)  se  explica  la  noción  de 
interacción  entre  variables  independientes.  Cabe  agregar  que  el  ANOVA  es  un  método 
estadístico propio para los diseños experimentales factoriales. 

 


 
¿Qué es el análisis de covarianza? 
Definición:  es  un  método  estadístico  que  analiza  la  relación  entre  una  variable 
dependiente y dos o más independientes, con el que se elimina o controla el efecto de al 
menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la 
influencia  de  una  variable  independiente,  la  cual  con  frecuencia  es  una  característica 
antecedente que puede variar entre los grupos (Mertens, 2005; Babbie, 2009) o influir 
los resultados y afectar la claridad de las interpretaciones. 
    Perspectivas o usos: Wildt y Ahtola (1978, pp. 8‐9) destacan tres perspectivas para el 
análisis de covarianza: 
 
A.     Perspectiva  experimental.  Se  aplica  a  aquellas  situaciones  en  que  el  interés  del 
        investigador  se  centra  en  las  diferencias  observadas  en  la  variable  dependiente, 
        por  medio  de  las  categorías  de  la  variable  independiente  (o  variables 
        independientes).  Pero  el  experimentador  asume  que  hay  otras  variables 
        independientes  cuantitativas  que  contaminan  la  relación  y  cuya  influencia  debe 
        ser controlada (figura 8.5). 
 
                                   
 
                Variables             X1  
                independientes        X2 
                categóricas 
                                      Xk 

 
 
                                                                                  Y     Variable  
                                                                                        dependiente 
                                                                                         
 
 
              Variables                       
              independientes          Z 1 
              cuantitativas           Z 2 
              continuas               Zk 
 
     
     
Figura 8.5 Ejemplo de variables independientes que afectan a una dependiente 
         



 
Y  el  investigador  únicamente  se  interesa  por  conocer  la  relación  entre  las 
      variables  independientes  categóricas  y  la  variable  dependiente.  Desea  al  mismo 
      tiempo remover y controlar el efecto de las variables independientes cuantitativas 
      no categóricas (continuas). Es decir, desea tener un esquema como el de la figura 
      8.6. 
 
 
              X1
 
              X2
 
              Xk
 
                                                                                 Y 
                                                                                      Remover o 
              Z1                                                                       controlar 
 
              Z2
 
              Zk 
 
 
 
Figura 8.6 Ejemplo de control de variables independientes no categóricas. 
 
        El  objetivo  es  “purificar  la  relación  entre  las  independientes  categóricas  y  la 
    dependiente, mediante el control del efecto de las independientes no categóricas o 
    continuas”. 
        Ejemplos  de  variables  independientes  categóricas  serían:  género  (masculino, 
    femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos 
    a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos). 
    Los  niveles  de  medición  nominal  y  ordinal  son  categóricos  en  sí  mismos,  mientras 
    que  los  niveles  de  intervalos  y  razón  deben  transformarse  en  categorías  más 
    discretas. Estos últimos son en sí: cuantitativos, continuos y de categorías múltiples. 
    Por ejemplo, el ingreso en su “estado natural” (pesos, dólares, euros, etc.) varía de la 

    categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías. 




 
 

      Variable categórica — unas cuantas categorías o un rango medio. 

      Variable continua — muchas categorías (a veces una infinidad). 

          A  dichas  variables  independientes  cuantitativas  continuas,  cuya  influencia  se 
    controla, se les denomina “covariables”. Una covariable se incluye en el análisis para 
    remover su efecto sobre la variable dependiente, e incrementar el conocimiento de 
    la  relación  entre  las  variables  independientes  categóricas  de  interés  y  la 
    dependiente, lo cual aumenta la precisión del análisis(Doncaster y Davey, 2007). 
          En esta perspectiva, el análisis de covarianza puede ser concebido primero como 
    un  ajuste  en  la  variable  dependiente  respecto  a  diferencias  en  la  covariable  o  las 
    covariables  y,  posteriormente,  como  una  evaluación  de  la  relación  entre  las 
    variables  independientes  categóricas  y  los  valores  ajustados  de  la  variable 
    dependiente  (Wildt  y  Ahtola,  1978).  En  términos  de  Creswell  (2005):  el 
    procedimiento  “ajusta”  las  puntuaciones  en  la  dependiente  para  dar  cuenta  de  la 
    covarianza  (por  decirlo  en  términos  sencillos:  “hace  equivalentes  a  los  grupos  en 
    la(s)  covariable(s)”  y  controla  influencias  potenciales  que  pueden  afectar  a  la 
    variable dependiente). 
B.   Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas 
    instancias en las cuales el interés principal se centra en analizar la relación entre la 
    variable  dependiente  y  la  covariable  (variable  cuantitativa  continua)  o  las 
    covariables.  Aquí  el  enfoque  es  distinto;  la  influencia  que  se  remueve  es  la  de  las 
    variables  independientes  categóricas.  Primero  se  controla  el  efecto  (en  este  caso 
    “contaminante”) de estas variables y después se analiza el efecto “purificado” de las 
    covariables. 
C.   Perspectiva  de  regresión.  En  esta  tercera  perspectiva,  tanto  las  variables 
    independientes  categóricas  como  las  covariables  resultan  de  interés  para  el 
    investigador,  quien  puede  desear  examinar  el  efecto  de  cada  variable 
    independiente (covariables y no covariables, todas) y después ajustar o corregir los 
    efectos de las demás variables independientes. 
    En cualquier caso, el análisis de covarianza elimina influencias no deseadas sobre la 
    variable  dependiente.  Se  puede  utilizar  en  contextos  experimentales  y  no 




 
experimentales.  La  mayoría  de  las  veces  la  función  del  ANCOVA  es  “remover”  la 
        varianza compartida entre  una  o  más  covariables  y  la  dependiente,  de  este  modo, 
        se  valora  en  su  justa  dimensión  la  relación  causal  entre  la(s)  variable(s) 
        independiente(s)  de  interés  y  la  dependiente  (Creswell,  2005).  Veámoslo 
        conceptualmente pero de forma gráfica con un ejemplo simple: 
         
                                                                                  
EJEMPLO 
 
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computación, por medio 
de un nuevo método para su enseñanza a niños. La hipótesis es: “el nuevo método de enseñanza de 
la computación (MA‐RH) provocará un mayor aprendizaje en los niños que un método tradicional”.  
    Entonces,  implementa  el  siguiente  experimento:  a  un  grupo  de  infantes  lo  expone  al  nuevo 
método  de  enseñanza  de  computación  (MA‐RH);  el  otro  grupo  aprende  con  el  método  tradicional; 
finalmente, un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación. 
    La  variable  independiente  es  el  tipo  de  método  con  tres  categorías  o  niveles  (método  nuevo, 
método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida 
por una prueba estandarizada a nivel de intervalos). Se tiene un esquema como el de la figura 8.7. 
     
              Tipo de método (X)                                                                  Aprendizaje (Y) 
     
     
      El investigador sabe que el aprendizaje se puede deber a muchas razones, además del método. Es decir, el 
            aprendizaje varía por diversos motivos, lo cual se representa en forma de conjuntos de la siguiente manera:  
     
     
     
     
     
                                  Variable                              Variable 
                                  independiente:                        dependiente: 
                                  método (X)                            aprendizaje (Y) 
     
     
     
     
                                                                                           Varianza del aprendizaje no 
                                                                                           explicada (que no se debe al 
                                            Varianza en común entre 
                                                                                           método sino a otros factores) 
                                            método y aprendizaje 


 
 
     
            Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje 
            (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento 
            y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables 
            que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos 
            intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la 
            varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la 
            relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir (hace variar al 
            aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable. 
 
 
 
 
                                                                 Variable 
                                                                 dependiente: 
                  Variable                                       aprendizaje (Y) 
                  independiente: 
                  método (X) 

 
 
                                                                                    El nivel educativo 
                                                                                    tecnológico de los 
                                                                                    padres (COVARIABLE) 

 
    Varianza en común: entre 
    método y aprendizaje 
 
                                              Varianza compartida entre el nivel  
                                              educativo de los padres y el aprendizaje (la 
                                              cual se controla con el ANCOVA) 
 
    Entre más covariables se controle, más se explicará sobre la varianza común entre el método y el 
    aprendizaje.  

 
Figura 8.7 Ejemplo del control de las covariables (con una covariable). 
 
 
 
 
 
 




 
 
 
Lo que el investigador desea también se puede expresar  
gráficamente así: 
     
            Tipo de método                                                        Aprendizaje 
 
                                                           ANCOVA 
 
                  Nivel educativo 
                  tecnológico de los 
                  padres (covariable)          Controlar influencia de la covariable 
 
 
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza: 
     
    1.  Incrementar la precisión en experimentos con asignación al azar. 
    2.  Eliminar  influencias  extrañas  o  contaminantes  que  pueden  resultar  cuando  las 
        pruebas  o  los  individuos  no  son  asignados  al  azar  a  las  diferentes  condiciones 
        experimentales (grupos de un experimento). 
    3.  Eliminar  efectos  de  variables  que  confundan  o  distorsionen  la  interpretación  de 
        resultados en estudios no experimentales. 
     
    Nivel  de  medición  de  las  variables:  la  variable  dependiente  siempre  está  medida  por 
intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel.  
Interpretación:  depende  de  cada  caso  específico,  ya  que  el  análisis  de  covarianza 
efectuado  mediante  un  programa  estadístico  computacional,  produce  un  cuadro  de 
resultados  muy  parecido  al  del  análisis  de  varianza.  Los  elementos  más  comunes 
pueden observarse en la tabla 8.3. 
 
 
 
 
 




 
 
Tabla 8.3 Ejemplo de elementos comunes de un análisis de covarianza 
 
Fuente        de  Sumas de         Sumas de                Grados de  Medias                      Razón  Significancia  de 
variación         cuadrados        cuadrados               libertad        cuadráticas            F (F)    F (Sig.) 
(Source       of  y                ajustadas               (Degrees 
variation)        productos        (Adjusted               of 
                  cruzados         sum of                  freedom) 
                  (Sum of          squares) 
                  squares 
                  and cross 
                  products) 
     
 
    La  razón  F  es,  igual  que  en  el  análisis  de  varianza,  una  razón  de  varianzas.  El 
razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo 
cuadro de la distribución F (tabla 3, apéndice 4 o en STATS® a “Valores de “F” al nivel de 
confianza  de  .05  y  .01”).  Solamente  que  las  inferencias  y  conclusiones  se  hacen  al 
considerar que las medias de la variable dependiente, a través de las categorías de las 
variables  independientes,  se  han  ajustado,  de  este  modo  eliminan  el  efecto  de  la 
covariable o covariables. 
 
                                                                                
EJEMPLO  
          Diseño de investigación que utiliza el análisis de covarianza  
          Hi: “los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte 
          de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que 
          reciban  retroalimentación  sobre  el  desempeño  por  escrito,  y  más  aún  que  los 
          trabajadores que no reciban ningún tipo de retroalimentación”. 
           

                  Hi:   1           >                  2               >                      3
 
                  (verbal)                           (por escrito)                       (ausencia) 




 
 

         

             
                     El investigador plantea un diseño experimental para intentar probar su hipótesis. 
            Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del 
            experimento.  El  diseño  sería  con  grupos  intactos  (cuasiexperimental)  y  se 
            esquematizaría así:                 
 
                        G1                 X1                 
                                                                 1 
 
                                            
 
                        G2                 X2                 

 
                                            
 
                        G3                 —                  
 
                                                                 2 

 
            Asimismo,  el  investigador  presupone  que  hay  un  factor  que  puede  contaminar  los 
            resultados  (actuar  como  fuente  de  invalidación  interna):  la  motivación.  Diferencias 
            iniciales  en  motivación  pueden  invalidar  el  estudio.  Como  la  asignación  al  azar  está 
            ausente,  no  se  sabe  si  los  resultados  se  ven  influidos  por  dicho  factor.  Entonces,  el 
                                                                 3 
            experimentador  decide  eliminar  o  controlar  el  efecto  de  la  motivación  sobre  la 
            productividad  para  conocer  los  efectos  de  la  variable  independiente:  tipo  de 
            retroalimentación.  La  motivación  se  convierte  en  covariable.  El  esquema  es  el  que  se 
            muestra en la figura 8.8. 
             
                  
                  
            Retroalimentación (variable                                        Productividad (variable 
            independiente categórica)                                          dependiente) 
                                                                                
                                                   ANCOVA 
                       Motivación 
                       (covariable) 
     




 
 
Figura 8.8 Ejemplo donde la motivación es covariable 
            
            
           Cabe  destacar  que,  para  introducir  una  covariable  en  el  análisis,  de  preferencia  debe 
           medirse antes del inicio del experimento. 
                El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se debe a la 
           covariable.  Ajusta  la  varianza  de  la  variable  dependiente  en  las  categorías  de  la 
           independiente,  al  basarse  en  la  covariable.  En  el  ejemplo,  ajusta  la  varianza  de  la 
           productividad  debida  a  la  motivación,  en  las  categorías  experimentales  (tratamientos  o 
           grupos).  El  ajuste  se  realiza  sobre  la  base  de  la  correlación  entre  la  covariable  y  la 
           dependiente. Esto se muestra esquemáticamente en la tabla 8.4. 
                 
            
Tabla 8.4 Ejemplo de un diseño de investigación que utiliza el análisis de covarianza como 
herramienta para ajustar diferencias en motivación entre los grupos 

                                 Covariable                          Variable                            Variable 
                                                                  independiente                        dependiente 
                               Calificación en                            
                                                                                                   Puntuaciones en 
                                motivación                            Tipo de 
                                                                                                productividad ajustadas, 
                                                                  realimentación 
                                                                                                 tomando en cuenta la 
                                                                                                      covariable 

               G1                      0                                 X1                                   0 

               G2                      0                                 X2                                   0 

               G3                      0                                  —                                   0 

 
 
 

    Una  vez  realizado  el  análisis  de  covarianza,  se  evalúa  si  F  es  o  no  significativa. 
Cuando F resulta significativa se acepta la hipótesis de investigación. 
Si el resultado fuera: 

                            G1 = 35 




 
G2 = 36 

    La  correlación  entre  la  calificación  en  motivación  y  las  puntuaciones  en 
productividad es la base para el ajuste. 
     
                         G3 = 38 

                         Gl entre = K – 1 = 3 – 1 = 2 

                         Gl intra = N – K = 107 

                         F = 1.70 

    Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y 
nuestra  razón  F  a  1.70  es  menor  a  este  valor.  Por  tanto,  rechazamos  la  hipótesis  de 
investigación  y  aceptamos  la  hipótesis  nula.  Esto  se  contrasta  y  profundiza  con  las 
medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias 
obtenidas  en  el  experimento  por  cada  grupo,  sino  las  ajustadas  con  base  en  la 
covariable). 
    Recordemos que SPSS y Minitab nos proporcionan automáticamente la significancia 
de F. 
 

¿Qué es la regresión múltiple? 
Es un método para analizar el efecto de dos o más variables independientes sobre una 
dependiente.  Asimismo,  constituye  una  extensión  de  la  regresión  lineal  sólo  que  con 
mayor número de variables independientes. Es decir, sirve para predecir el valor de una 
variable  dependiente,  cuando  se  conoce  el  valor  y  la  influencia  de  las  variables 
independientes  incluidas  en  el  análisis.  Si  queremos  conocer  el  efecto  que  ejercen  las 
variables: a) satisfacción sobre los ingresos percibidos, b) antigüedad en la empresa, c) 
motivación  intrínseca  en  el  trabajo  y  d)  percepción  del  crecimiento  y  desarrollo 
personal  en  el  trabajo;  sobre  la  variable  “permanencia  en  la  empresa”  (duración  o 
estancia),  el  modelo  de  regresión  múltiple  es  el  adecuado  para  aplicarlo  a  los  datos 
obtenidos. Otro ejemplo sería el siguiente: 
 




 
VARIABLES INDEPENDIENTES 
          
                                                                                     VARIABLE 
                                                                                     DEPENDIENTE 
        Diseño de estrategias de 
          
        cooperación entre maestros para la 
          
        enseñanza en las clases. 

          
          
          
        Grado de utilización de la 
        tecnología computacional en el 
          
        aula. 
                                                                               Desempeño escolar  
                                                                               de los alumnos 
          
        Grado de involucramiento de los 
         
        padres en las estrategias de 
        enseñanza. 
          
 
 
        Grado de cooperación y trabajo en 
        equipo por parte de los alumnos 
        para realizar las tareas. 
 
 
Figura 8.9 Esquema de un modelo con una variable dependiente y varias independientes, 
donde se conoce el efecto de cada una de éstas 
 
 
Es decir, el modelo de regresión múltiple nos indica: 
    • La relación entre cada variable independiente y la única dependiente (cómo cambios 
             en la independiente se vinculan con cambios en la dependiente). 
    • La relación entre todas las variables independientes (en conjunto) y la dependiente 
             (cómo cambios en las independientes se vinculan con cambios en la dependiente). 
    • La predicción de la dependiente a partir de las independientes. 
    • La correlación entre las variables independientes (colinealidad). 
         Las  variables  independientes  se  denominan  “predictoras”4  y  anteceden 
temporalmente a la variable dependiente o criterio. 
         La  información  básica  que  proporciona  la  regresión  múltiple  es  el  coeficiente  de 
correlación múltiple (R) y la ecuación de regresión. 
                                                                            
4 Término anglosajón. 




 
Coeficiente  de  correlación  múltiple  (R).  Señala  la  correlación  entre  la  variable 
    dependiente y todas las variables independientes tomadas en conjunto. 
        El coeficiente puede variar de cero a uno; cuanto más alto sea su valor, las variables 
    independientes  estarán  más  correlacionadas  con  la  variable  dependiente  y  explicarán 
    en  mayor  medida  sus  fluctuaciones  (varianza);  en  consecuencia,  son  factores  más 
    efectivos para predecir el comportamiento de esta última.  
        En el capítulo 10 del libro, se comentó el coeficiente de correlación de Pearson y se 

    mencionó que cuando el coeficiente r se eleva al cuadrado (r2), se obtiene el coeficiente 
    de  determinación  y  el  resultado  indica  la  varianza  de  factores  comunes,  esto  es,  el 
    porcentaje de la variación de una variable debido a la variación de la otra y viceversa (o 
    cuánto explica o determina una variable la variación de la otra). Pues bien, algo similar 
    ocurre con el coeficiente de correlación múltiple, solamente que tenemos más variables 

    a considerar. Cuando el  coeficiente R  se  eleva al cuadrado  (R2), se  produce  el  llamado 
    coeficiente de determinación o correlación parcial, que nos señala la varianza explicada 
    de  la  variable  dependiente  por  todas  las  independientes  (dicho  de  otra  forma,  el 
    porcentaje de variación en la dependiente es debido a las independientes consideradas). 
        Veámoslo gráficamente en la figura 8.10 con dos independientes y una dependiente, 
    a fin de que resulte menos complejo de entender. 
         
         
         
                Variable independiente                    Variable 
                1                                         independiente 2 
                 
     
     
     
     
                                                                             R2 (expresa en 
                                                                             porcentaje la varianza 
                                          Variable                           compartida por las tres 
                                          dependiente                        variables) 

     
     
Figura 8.10  
     
Esquema de un coeficiente de determinación o correlación parcial 


     
Este  coeficiente  (R2)  resulta  útil  también  para  determinar  la  cantidad  de  varianza 
que  una  variable  interviniente  explica  tanto  de  la  variable  independiente  como  de  la 
dependiente, de este modo, se puede remover la varianza compartida de la interviniente 
con la variable independiente o la dependiente (Creswell, 2005; Sengupta, 2009), que es 
algo similar a lo que se efectúa con el análisis de covarianza.  
    Tal sería el caso de una relación del siguiente tipo: 
 
     
      Autoestima del estudiante             relación negativa       Consumo de estupefacientes 
              (independiente)                                                (dependiente) 
     
     
                                       Reforzamiento de los 
     
                                       valores del estudiante 
                                      por parte de sus tutores 
                                           (interviniente) 
                                                                     relación negativa    
     
     
     
Figura 8.11 Ejemplo del coeficiente de determinación (correlación parcial) 
 
    Si resumimos lo visto en el capítulo 10 del libro sobre correlación y regresión lineal 
y lo expuesto hasta aquí, tenemos los coeficientes que se resumen en la tabla 8.5. 
     
     
Tabla 8.5 Resumen de coeficientes de correlación bivariada y múltiple 
Coeficiente                        Símbolo              Información producida 
Pearson                                                 Grado  de  asociación  entre  dos  variables 
                                      r 
                                                        (oscila entre 0 y 1). 
Coeficiente de                                          Varianza de factores comunes (porcentaje 
                                      r2 
determinación                                           de la variación de una variable debido a la 
                                                        variación  de  la  otra  variable  y  viceversa). 
                                                        Oscila entre 0 y 100%. 
Múltiple                                                Correlación entre la variable dependiente 
                                      R 




 
y  todas  las  variables  independientes 
                                                   tomadas en conjunto. Oscila entre 0 y 1. 
Determinación                                      Varianza  explicada  de  la  dependiente  por 
                                   R2 
(correlación parcial)                              todas  las  independientes.  Oscila  entre  
                                                   0 y 100%. 
 
    Otra  información  relevante  producida  por  el  análisis  de  regresión  múltiple  son  los 
valores  “beta”  (β  o  b)  que  indican  el  peso  o  la  influencia  que  tiene  cada  variable 
independiente  sobre  la  dependiente,  al  controlar  la  varianza  de  todas  las  demás 
independientes.  Cada  peso  beta  es  un  coeficiente  que  señala  la  magnitud  de  la 
predicción  de  una  variable  independiente  para  una  variable  dependiente  (criterio), 
después  de  remover  los  efectos  de  todas  las  demás  independientes.  Los  valores  beta 
están estandarizados, es decir, no importa que cada variable predictora esté medida en 
una  escala  diferente  (como  ocurría  con  las  puntuaciones  z)  y  se  interpretan  como  el 
coeficiente de Pearson, de – 1.00 a + 1.00 (Creswell, 2005). 
    También  el  análisis  proporciona  coeficientes  de  correlación  bivariados  entre  la 
dependiente y cada independiente (Shaw, 2009). 
    Para predecir valores de la variable dependiente se aplica la ecuación de regresión 
múltiple: 
     
                         y = a + b1X1 + b2X2 + b3X3 + … bkXk 

     
    Donde a es una constante de regresión para el conjunto de puntuaciones obtenidas, 
b1, b2, b3,…bk son los pesos “beta” de las variables independientes. Mientras que X1, X2, 
X3 y …Xk son valores de las variables independientes que fija el investigador para hacer 

la predicción. 
    La  variable  dependiente  debe  estar  medida  en  un  nivel  por  intervalos  o  de  razón. 
Las independientes, en cualquier nivel de medición (el modelo estandariza mediciones). 
Cuando  se  utilizan  variables  categóricas  (nominales  u  ordinales,  como  género,  grupo 
étnico,  nivel  jerárquico,  etc.)  se  transforman  en  variables  “dummy”  y  se  introducen  al 
modelo  como  predictores.  Los  códigos  dummy  son  series  de  números  asignados  para 




 
indicar  la  pertenencia  a  un  grupo  en  cualquier  categoría  exhaustiva  y  mutuamente 
excluyente. 
    De  acuerdo  con  Mertens  (2005),  la  cantidad  de  varianza  que  cada  independiente 
aporta  para  la  variable  dependiente  puede  tener  cambios  con  diferentes  órdenes  de 
entrada de las variables independientes. Al respecto no hay reglas, se usa la lógica del 
investigador o criterios como los siguientes: 
     
        -   Ingresar  las  variables  de  acuerdo  con  la  fuerza  de  su  correlación  con  la 
            variable dependiente, de la más alta a la más baja. 
        -   Seguir el orden en que se han introducido en estudios previos. 
        -   Proceder de acuerdo con la teoría. 
        -   Orden  cronológico  (tiempo  en  que  se  introducen  las  variables  en  un 
            experimento  o  al  medirse,  si  es  que  su  medición  fue  por  etapas,  de  la 
            primera a la última). 
     
    Los  resultados  más  relevantes  que  produce  SPSS  sobre  la  regresión  múltiple  se 
muestran en las tablas 8.6, 8.7 y en la figura 8.12, que corresponden a un estudio para 
predecir  el  clima  laboral  (criterio  o  dependiente)  sobre  la  base  de  las  siguientes 
variables independientes (Hernández Sampieri, 2005): 
 
 
        •   Normalización (formalización de políticas en documentos). 
        •   Avance  del  proceso  de  calidad  en  el  departamento  (un  nuevo  esquema  de 
            trabajo introducido en el 2004). 
        •   Innovación departamental.  
        •   Identificación  del  trabajo  individual  en  los  resultados  generales  de  la 
            organización. 
        •   Comunicación  (percepción  del  grado  en  que  la  información  relevante  de  la 
            empresa les es transmitida a los empleados de su departamento). 
        •   Desempeño (índice de productividad del empleado).  
        •   Motivación general. 
        •   Antigüedad en la empresa (en meses).  



 
•   Satisfacción general en el trabajo.  
        •   Liderazgo (percepción del superior inmediato como líder). 
        •   Cultura (arraigo de la cultura organizacional definida por la dirección de la 
            empresa). 
        •   Pago (salario).  
     
Primero. Se presentan las variables introducidas en el modelo de regresión: 
 
Tabla 8.6 Variables introducidas en el ejemplo de regresión múltiple 
                         Variables introducidas /eliminadas 
Modelo               Variables             Variables                    Método (b) 
                     introducidas (a)      eliminadas 
                     Pago                                                
                     Innovación                                          
                     Antigüedad                                          
                     Motivación                                          
                     Normalización                                       
                     Proceso de calidad                                 Introducir 
                     Cultura 
                     Identificación 
                     Desempeño 
                     Liderazgo 
                     Satisfacción 
                     Comunicación 
    a. Todas las variables solicitadas introducidas 
    b. Variable dependiente: clima 
 
Segundo.  Se  presentan  resultados  de  varianzas  (ANOVA),  los  cuales  omitimos,  y  los 
coeficientes beta y estadísticas de colinealidad (tabla 8.7). 
 
 
 
 




 
Hora                                                    Nombre del participante                                   Condición experimental 
Codificador                                             Fecha 
Categoría      Subcategoría        0’     10’’  20’’  30’’  40’’     50’’  1’    10’’  20’’  30’’  40’’  50’’  2’       10’’  20’’  30’’  40’’  50’’  3’ 
Distancia      Alejamiento (0)                                                                                                                         
física         Acercamiento (2)                                                                                                                        
               Estático (1)                                                                                                                            
Movimientos  Tensión (0)                                                                                                                               
corporales     Relajación (2)                                                                                                                          
               Ninguno (1)                                                                                                                             
Conducta       Al sujeto (1)                                                                                                                           
visual 
               A otra parte (0)                                                                                                                        
Conducta       F. completas (1)                                                                                                                        
verbal         F. dicótomas (0)                                                                                                                        
               Silencios (0)                                                                                                                           
Nota: Se agregaron las subcategorías “estático” en la categoría “distancia física” y “ninguno” en la categoría “movimientos corporales”. 
 
 
Figura 7.11 Primer ejemplo de un formato de registro o codificación 
 
 




                                                                                                                                                            66
 
 
Figura 7.12 Segundo ejemplo de un formato de registro o codificación 
 
      El ejemplo de la figura  
      7.12  es  un  formato  para  registrar  conductas  inapropiadas  en  la  clase  y  analizar 
cuáles  son  las  que  se  presentan  con  mayor  frecuencia  y  el  número  de  estudiantes 
involucrados (Creswell, 2005).  
      Los  números  (columnas)  representan  episodios  de  conducta  inapropiada  en  la 
clase  (cada  vez  que  ocurre).  Se  coloca  en  la  fila  “CI”  (conducta  inapropiada)  la  letra 
inicial de la conducta (ejemplo: O, ofensa verbal; H, hablar en clase…), y “1” si son otras. 
Asimismo, en la fila “N” se indica el número de estudiantes involucrados en el episodio. 




                                                                                                  67
La  hoja  de  codificación,  formato  o  guía  debe  acompañarse  de  las  instrucciones 
para  su  llenado  o  registros  y  la  mención  de  las  unidades  de  observación,  así  como  el 
tiempo  que  durará  ésta.  Debe  evitarse  un  instrumento  que  sea  tan  complejo  que  sea 
difícil de codificar y utilizarse en la realidad. 
 
    7.  Determinar  el  papel  de  los  observadores.  ¿Qué  tan  cercanos  deben  estar  el 
        observador  y  los  observados?  A  este  respecto  mucho  se  ha  escrito  y  los  roles 
        varían desde una distancia prudentemente lejana, hasta una cercanía completa. 
            Anastas  (2005)  y  también  Polster  y  Collins  (2007)  plantean  dos  roles 
        fundamentales de la relación observador‐observados: a) participante (donde hay 
        relación  entre  el  observador  y  las  personas  observadas)  y  b)  no  participante  (la 
        relación es mínima —simplemente por el hecho de que los individuos saben que 
        están siendo observados— o puede ser nula, si los individuos no saben que están 
        siendo observados). 
            La  ética  de  la  investigación  marca  que  siempre  que  va  a  observarse  a  un  ser 
        humano,  se  debe  obtener  su  consentimiento;  asimismo,  no  se  deben  invadir  sus 
        esferas privadas (baños, recámaras, etc.). Anastas (2005) está de acuerdo con esta 
        consideración,  aunque  marca  una  excepción:  cuando  se  observan  conductas 
        inocuas que pudieran ocurrir de manera natural en situaciones públicas y cuando 
        las personas observadas no son identificadas o afectadas por los observadores. En 
        última instancia, si el investigador busca evitar la “reactividad” en el proceso (que 
        la  presencia  de  los  observadores  provoque  reacciones  poco  o  nada  naturales  en 
        los participantes), una vez que se efectúan las observaciones, debe solicitársele a 
        cada sujeto su autorización, mantener su nombre en el anonimato, nunca mostrar 
        las filmaciones o registros y respetar su negativa, si es el caso. 
            Jorgensen  (1989)  sugiere  tres  actuaciones:  a)  participante  activo,  el 
        observador  interactúa  plenamente  con  los  observados,  tiene  un  papel  de 
        miembro, es uno más de ellos (por ejemplo, si se trata de observar el compromiso 
        de trabajadores en los grupos de calidad, el observador es un miembro del grupo 
        con  funciones  específicas),  b)  participante  privilegiado,  no  es  un  miembro  del 
        grupo,  pero  tiene  acceso  a  información  amplia  y  privada,  los  observados  lo 
        conocen y le tienen confianza y c) observador limitado, no tiene más que el papel 




                                                                                                  68
de  observador  externo.  Rogers  y  Bouey  (2005)  los  clasifican  en  el  siguiente 
           continuo: 
        

        
    Participante completo:     Participante               Observador               Observador 
    total interacción, su      observador: su rol         participante: su rol     completo: nula 
                               primario es participar,    primario es observar,    participación, se 
    rol primario es 
    participar y generar la    pero casi a la par         aunque tiene ciertas     limita a observar 
         
    interacción.               observa.                   participaciones. 
                                                           
 
            Patton (2001) sugiere que el observador debe ubicarse en varios continuos para 
           establecer su papel (que es una ubicación aproximada y no exacta): 
             




                                                                                                              
                   Sin  que  de  ninguna  manera  sea  una  norma,  cuando  la  observación 
             cuantitativa trabaja con personas, regularmente es no participante, encubierta o 




                                                                                                        69
intermedia, de corta estancia y enfocada. Mientras que la observación cualitativa 
          es participante, abierta, prolongada y general. 

     8.  Seleccionar  a  los  observadores­codificadores.  Puesto  que  son  las  personas  que 
          habrán  de  codificar  la  conducta,  deben  conocer  las  variables,  categorías  y 
          subcategorías. Las habilidades más importantes de un buen observador son: 
 
               •    Selectividad para registrar lo que observa, de acuerdo con reglas. 
               •    Uso  de  todos  los  sentidos,  particularmente  ante  lo  que  no  se  esperaba 
                    encontrar. 
               •    Capacidad  para  seguir  el  sistema  de  registro  que  involucra  el 
                    procesamiento de información. 
           
     9.       Proporcionar  entrenamiento  a  observadores­codificadores  (en  las  variables, 
          categorías, subcategorías, unidades de análisis y el procedimiento para codificar, 
          así como sobre las diferentes maneras como puede manifestarse una categoría o 
          subcategoría  de  conducta).  Debido  a  que,  en  algún  grado,  la  observación 
          involucra  hacer  juicios,  el  entrenamiento  debe  apoyar  la  estandarización  de 
          procedimientos y, por ende, la objetividad. 

    10.   Efectuar  la  prueba  piloto  y  calcular  la  confiabilidad  de  los  observadores 
          (intraobservador  e  interobservadores).  En  la  prueba  piloto  se  evalúa  todo  lo 
          relativo  al  proceso  de  observación.  Desde  la  iluminación  en  el  ambiente 
          (ejemplo, cámara de Gesell), el sonido y los equipos de filmación; hasta el lugar 
          donde se coloquen los observadores, las instrucciones y la guía de observación o 
          registro. 
                   Gracias  a  la  prueba  piloto  nos  podemos  dar  cuenta  de  problemas 
          potenciales y corregirlos (por ejemplo, si vamos a observar conductas agresivas 
          en niños y nada más hemos trabajado con adultos, nos percataremos de que la 
          agresión no se manifiesta igual en adultos que en niños o adolescentes. De este 
          modo,  durante  la  prueba  piloto  podemos  registrar  comportamientos  agresivos 
          no  contemplados,  que  se  agregarán  como  subcategorías  en  el  instrumento  de 
          observación  definitivo).  Esto  se  hace  con  una  muestra  del  repertorio  de 
          conductas o actos a considerar. Con respecto a la confiabilidad, recordemos que 
          debe  demostrarse  y  no  asumirse  y  se  determina  para  evaluar  si  los 




                                                                                                  70
observadores  están  registrando  coherentemente  (confiabilidad  individual)  y  si 
      están  registrando  entre  sí  de  manera  similar  los  mismos  eventos  o  conductas 
      (confiabilidad  interobservadores).  Los  procedimientos  y  las  fórmulas  pueden 
      ser  las  mismas  que  las  vistas  en  el  apartado  sobre  el  análisis  de  contenido;  lo 
      único que cambia es la palabra “codificadores”, “codificación”, “codificadas”, por 
      “observadores”, “observación”, “observadas”. Por ejemplo: 
 



                                                                                                   
 


                                                                                                        
 
            Haynes  (1978,  p.  160)  proporciona  otra  fórmula  para  calcular  la 
      confiabilidad entre observadores o el grado de acuerdo interobservadores (Ao). 
 


                                                          
 
          Donde  Ia  es  el  número  total  de  acuerdos  entre  observadores,  e  Id  es  el 
    número total de desacuerdos entre observadores. Un “acuerdo” se define como la 
    codificación  de  una  unidad  de  análisis  en  una  misma  categoría  por  distintos 
    observadores. Se interpreta como cualquier coeficiente de confiabilidad (0 a l). 
          Es  muy  importante  al  establecer  la  confiabilidad,  evitar  que  los 
    observadores  “copien”  o  vean  el  trabajo  de  sus  compañeros,  ya  que  esto  puede 
    ocurrir. 
          Anastas  (2005)  y  Grinnell,  Williams  y  Unrau  (2009)  consideran  como  una 
    confiabilidad  interobservadores  mínima  aceptable  0.85  u  85%.  Si  se  elige  un 
    instrumento  ya  desarrollado,  al  igual  que  en  otros  métodos  de  medición,  debe 
    demostrarse  que  en  los  estudios  donde  se  aplicó  resultó  válido  y  confiable,  y 
    adaptarse a las condiciones de nuestra investigación. 




                                                                                                71
Para  establecer  la  validez  de  contenido,  se  analiza  el  dominio  de  nuestras 
       categorías  y  subcategorías  contra  el  universo  de  posibles  conductas  que  pueden 
       manifestarse. La validez de criterio muchas veces se establece usando otra técnica 
       (por  ejemplo,  la  hostilidad,  que  se  infiere  de  observar  actos  agresivos,  puede 
       validarse mediante una escala que mida tal variable). 
 
    2. Llevar a cabo la codificación por observación. 

    3. Vaciar los datos de las hojas o formatos de codificación y obtener totales para cada 
       categoría. 

    4. Realizar los análisis apropiados. 



CODIFICACIÓN EN EL ANÁLISIS DE CONTENIDO Y LA OBSERVACIÓN  

Una vez recolectados los datos del análisis de contenido y/o la observación, también 
éstos deben codificarse, es decir, asignar códigos (generalmente numéricos) a las 
categorías y/o subcategorías. Por ejemplo, en el caso del estudio de Naves y Poplawsky 
(1984), la codificación es la que se muestra en la tabla 7.10 (que corresponde al primer 
ejemplo de un formato de registro o codificación, figura 7. 11). 
 
Tabla 7.10 Ejemplo de codificación en el caso del estudio de Naves y Poplawsky   
 
Variable             Categorías                  Subcategorías            Códigos      Columnas 
– Tratamiento        – Grupo cultural                                        1              1 
experimental         – Grupo sociopsicológico                                2               
– Conducta                                                                                   
                     – Distancia física          – Alejamiento               0 
                                                                                            2 
                                                 – Acercamiento              2 
                                                                                             
                                                 – Estático                  1 
                                                                                             
                                                                               
 
                     – Movimientos corporales    – Tensión                   0              3 
 
                                                 – Relajación                2               
 
                                                 – Ninguno                   1               
– Codificador 
                                                                                             
                     – Conducta visual           – Al sujeto                 1              4 
                                                 – A otra parte              0               
                     – Conducta verbal           – Frases completas          1              5 
                                                 – Frases dicótomas o        0               
                                                 silencios                                   




                                                                                                 72
                                                                           
                     – LRE                       ―                            1               6 
                     – MRM                                                    2                 
                     – APY                                                    3 
Desde luego, Naves y Poplawsky (1984) para las categorías de “conducta de evitación” obtenían esta 
codificación cada 10 segundos (cada unidad de análisis), y sumaban el número de 2 (dos) y 1 (uno) y 
lo transformaban en porcentaje. Aquí suponemos que toda la interacción con el supuesto deficiente 
mental puede categorizarse y subcategorizarse. Recordemos que eran 30 participantes. 
 
      Y la matriz de SPSS o equivalente sería la de la figura 7.13 (desde luego, solamente 
se incluyen 10 casos a manera de ejemplo). 
 




                                                                                                        
 
Figura 7.13 Matriz o vista de los datos para la codificación de la tabla 7.10 (Naves y 
Poplawsky) 
 

 
RECOPILACIÓN Y ANÁLISIS DE DATOS SECUNDARIOS 
 
La  recopilación  y  análisis  de  datos  secundarios  se  fundamenta  en  información 
disponible  recolectada  por  otras  personas  distintas  al  investigador.  Esta  técnica  para 
recabar los datos puede subdividirse en: a) datos estadísticos provenientes de fuentes 
oficiales y b) datos para metaanálisis. En ambos casos se acude a bases de información 
que pueden encontrarse en una o varias fuentes y que son útiles para los propósitos del 
estudio.  La  diferencia  entre  estos  dos  tipos  estriba  en  que  los  primeros  recogen 




                                                                                                  73
estadísticas  (tasas  de  defunción  o  mortalidad  y  nacimiento,  número  de  hectáreas  de 
riego, cifras de egreso en los distintos niveles del sistema escolar, número de camas de 
los  hospitales,  número  de  monumentos  históricos,  producto  interno  bruto,  número  de 
instalaciones  deportivas  y  clases,  así  como  número  de  cada  una  y  tamaño  en  metros 
cuadrados, extensión de la red de alcantarillado, índice de inflación, monto de la deuda 
externa pública y privada, etc.). En cambio, el metaanálisis recopila estudios efectuados 
por otros sobre el planteamiento del problema, los evalúa y puede volver a analizar sus 
datos  e  integrarlos  en  una  base  mayor  de  información;  o  bien,  adicionarlos  y 
compararlos.  
        Krysik (2005) considera tres tipos de datos secundarios: datos obtenidos del nivel 
“micro”, datos agregados y datos cualitativos micro. 
     
  a)   Datos  obtenidos  del  nivel  “micro”:  derivados  de  unidades  de  análisis  individuales 
        como  personas,  organizaciones  u  hogares  (número  de  habitantes  por  vivienda, 
        número  de  trabajadores  de  la  empresa,  preferencias  electorales,  satisfacción 
        laboral de los trabajadores, etc.). La mayoría de las veces los datos se recolectan 
        por medio de encuestas. Por ejemplo, los censos económicos (vistos en el capítulo 
        de encuestas o surveys de este CD) generan esta clase de datos, al igual que los de 
        población.  
             La  encuesta  nacional  de  adicciones  (implementada  anualmente  en  varios 
        países  latinoamericanos)  es  otro  caso  y  recolecta  —entre  otros  datos—  los 
        siguientes:1 
     
            1. Personas económicamente activas en el sistema familiar. 
            2. Distribución del tiempo libre del estudiante. 
            3. Convivencia del alumno en el hogar (padres y otros parientes).  
            4. Estructura del sistema matrimonial de los tutores del estudiante (padres 
                casados, divorciados, separados, etcétera). 
            5. Ocupación de las personas económicamente activas en el hogar.  
            6. Persona(s)  con  quien(es)  los  estudiantes  se  comunican  más  dentro  del 
                hogar. 

1  Por ejemplo, en México la publica periódicamente el Consejo Nacional Contra las Adicciones (CONADIC). 




                                                                                                       74
7. Actividades  deportivas  del  estudiante  (tipos  y  periodicidad  de  cada 
    actividad deportiva, tiempos de dedicación, entre otros). 
8. Conducta  de  fumar  (inicio,  frecuencia  de  la  conducta  de  fumar,  consumo 
    diario de cigarrillos). 
9. Ingesta de alcohol (inicio, periodicidad, consumo semanal). 
10. Percepción  proyectiva  del  consumo  de  estupefacientes  o  drogas  ilegales 
    (se  responde  a  la  pregunta:  ¿A  cuántos  de  tus  compañeros  de  escuela  has 
    visto consumir droga?, ¿a cuántos de tus amigos, fuera de la escuela?). 
11. Conocimiento del tipo de droga que se consume (cuestionamiento: Señala 
    la droga que sabes consumen en este plantel… Señala la droga que sabes se 
    consume en tu vecindario…). 
12. Preferencia  de  consumo  en  el  entorno  inmediato  por  tipo  de 
    estupefaciente (fuera de la escuela). 
13. Percepción  del  encuestado  respecto  de  si  es  un  problema  el  consumo  de 
    estupefacientes. 
14. Percepción  respecto  de  si  se  pueden  conseguir  las  drogas  o 
    estupefacientes dentro de la escuela. 
15. Percepción  respecto  de  si  se  consume  droga  o  sustancias  ilegales  dentro 
    de la escuela. 
16. Percepción respecto de si el consumo de estupefacientes es un problema 
    en su entorno externo. 
17. Preferencia de consumo por tipo de estupefaciente en la escuela. 
18. Actitud ante el consumo de estupefacientes por una amistad. 
19. Manifestación de haber consumido algún estupefaciente. 
20. Edad de inicio de consumo. 
21. Figura que invitó a experimentar el consumo. 
22. Tipo de estupefaciente o droga consumida por primera vez.  
23. Consumo de diferentes clases de estupefacientes. 
24. Preferencia individual de consumo por tipo de estupefaciente. 
25. Periodicidad del consumo. 
26. Motivo(s) del consumo. 




                                                                                     75
27. Acciones  recomendadas  por  los  encuestados  para  reducir  el  consumo, 
                  evitarlo o prevenirlo. 
              28. Conciencia del consumo de estupefaciente. 
              29. Fuente más impactante de conocimiento del problema social que implica 
                  el consumo de estupefacientes. 
              30. Comentarios abiertos (cualitativo). 
     
        Pero el investigador, aunque no generó estos datos, tiene acceso directo a ellos (a 
la  información  individual  y  original;  a  los  cuestionarios,  registros,  etc.)  y,  por  lo  tanto, 
los  puede  volver  a  analizar  (incluso  a  veces  puede  identificar  a  los  encuestados  o  sus 
perfiles). 
     
  b)  Datos  agregados:  Consisten  en  datos  individuales  que  ya  se  han  procesado  y 
        conjuntado  con  otros  en  cifras  estadísticas,  tablas  o  cuadros.  En  éstos,  las 
        características  de  las  unidades  de  análisis  no  pueden  ser  identificadas  (por 
        ejemplo:  el  investigador  recibe  el  dato  sobre  el  promedio  de  satisfacción  laboral 
        en una escala o la tasa de desempleo y obviamente no puede reanalizar los datos, 
        sólo utilizarlos para los fines que convengan). 
            Estos datos se pueden obtener de: 
     
              1.   Oficinas y agencias gubernamentales y oficiales (Ministerio de Educación, 
                 Ciencia  y  Tecnología  de  Argentina;  Ministerio  de  Educación  y  Ciencia  de 
                 España;  Dirección  de  Impuestos  y  Aduanas  Nacionales  de  Colombia; 
                 Instituto  Nacional  de  Estadística  de  Bolivia;  Ministerio  de  Industria, 
                 Turismo,  Integración  y  Negociaciones  de  Perú;  Banco  Central  de 
                 Venezuela; etcétera). 
              2.   Organizaciones  privadas  (Cámara  de  Comercio  de  Santiago  de  Chile, 
                 Consejo  de  Fundaciones  Privadas  de  Guatemala,  Fundación  Cultural 
                 Española para el Fomento de la Artesanía, Centro de Estudios Económicos 
                 del Sector Privado en México, Fundación Ford, entre otras). 
                 Algunas  bases  de  datos  privadas  contienen  archivos  periodísticos,  como 
                 por  ejemplo:  U.S.  News  Archives  on  the  Web  (periódicos  en  Estados 




                                                                                                      76
Unidos), Reuters y Europrensa (Universidad Complutense de Madrid), etc. 
                  Los  periódicos  más  importantes  del  mundo  generalmente  poseen  su 
                  propia base de datos. 
             3.   Organizaciones  no  gubernamentales  (Agencia  de  Cooperación  en 
                  Ingeniería  Ambiental  o  ACIA,  Pro  Amazonia  "Selva  Para  la  Vida",  Alianza 
                  Cívica  en  México,  Red  2002  de  Barcelona  para  el  apoyo  de  enfermos  de 
                  SIDA, y otras). 
             4.   Organizaciones internacionales (Comisión Económica para América Latina 
                  y  el  Caribe;  Organización  de  las  Naciones  Unidas  para  la  Educación,  la 
                  Ciencia  y  la  Cultura,  UNESCO;  Organización  Mundial  de  la  Salud,  OMS; 
                  Fondo de las Naciones Unidas para la Infancia, UNICEF; Fondo Monetario 
                  Internacional, FMI; etcétera). 
              
                  Las  primeras  tres  fuentes  genéricas  varían  en  cada  país,  por  lo  que 
             resultaría  impráctico  intentar  mencionarlas.  Por  ello,  cada  estudiante  o 
             profesor  debe  tener  en  mente  cuáles  son  y  qué  tipo  de  información  pueden 
             proporcionar.2 
                  De los datos resulta fundamental conocer:3  
                   
                       El nombre y la filiación institucional de quien recolectó los datos. 
                       El periodo de recopilación de los datos. 
                       La muestra (método de selección, tamaño, características…). 
                       El método de recolección de los datos, incluyendo el 
                          instrumento, procedimiento, confiabilidad y validez, etcétera. 
                       Localización (disponibilidad). 
                       
            Y de ser posible: 
             
                       Procedimientos de codificación. 
                       Análisis practicados. 
                       Sugerencias para el análisis. 

2
      Para  el  caso  de  España  recomendamos  a  Berganza  y  García  (2005)  y  a  Corbetta  (2003)  y  la  siguiente 
      página                                                                                                       web: 
      http://www.typicallyspanish.com/html/castellano/sociedad/gobierno/organizaciones_no_gubernament
      a 
      les/.  Para  las  organizaciones  no  gubernamentales  latinoamericanas,  por  ejemplo,  en  el  caso  del  medio 
      ambiente,  la  siguiente  dirección  en  internet  incluye  una  gran  cantidad  de  ellas: 
      http://www.ecoportal.net/content/view/ 
      full/158 
3
    Aplica también a los datos “micro”. 




                                                                                                                     77
 
c)   Datos  cualitativos  micro:  producidos  por  una  persona  y  recabados  por  otra.  Al 
      investigador  le  llega  el  dato  (cartas  recopiladas  por  otros,  transcripciones  de 
      entrevistas  hechas  por  psicólogos,  grabaciones  de  las  llamadas  de  pasajeros  que 
      iban  en  los  aviones  secuestrados  por  terroristas  en  los  atentados  a  las  torres 
      gemelas del World Trade Center en Nueva York, etc.). Tales datos pueden volver a 
      ser analizados por el investigador. 
          Las ventajas de los datos secundarios residen en que su costo es generalmente 
      el más barato de todos los métodos de recolección y a veces son la única opción 
      para  el  investigador  (Smith,  2008;  Sieppert,  McMurtry  y  McClelland,  2005), 
      además  pueden  replicarse  estudios  con  base  en  ellos.  Gran  cantidad  de  datos 
      secundarios  se  localiza  mediante  internet.  Sus  desventajas  potenciales  consisten 
      en  que  a  veces  no  son  accesibles,  no  están  estandarizados,  pueden  haberse 
      omitido variables importantes para nuestro estudio y es factible que den una falsa 
      impresión de ciertos subgrupos (los promedios de ingreso nacional per cápita, por 
      ejemplo, suelen resultar engañosos). 
         El proceso para utilizar datos secundarios en una investigación se resume en la 
      figura 7.14, adaptado de Sieppert et al. (2005) y Krysik (2005). 
   
   
   




                                                                                              78
Analizar la relación entre el 
            planteamiento del problema y 
                                                        Evaluar la calidad de los datos: 
            los datos secundarios:  
                                                         
             
                                                        ‐ Muestra 
            ‐ ¿Son pertinentes para el 
                                                        ‐ Confiabilidad 
            estudio? 
                                                        ‐ Validez 
            ‐ ¿Representan 
                                                        ‐ Método de recolección 
            adecuadamente una 
                                                        ‐ Fuente de origen 
            operacionalización de nuestras 
                                                         
            variables? 




                                                          En el caso de datos 
                                                          estadísticos, verificarlos 
                 Preparar los datos para su               preferentemente en al menos 
                 análisis.                                dos fuentes confiables 
                                                          (validación cruzada). 


                                                                                                         
 
Figura 7.14 Proceso esencial para utilizar datos secundarios 
 
       
      Para el manejo de archivos se recomienda consultar a Webb, Campbell y Schwartz 
(2000). 


El metaanálisis 
Esta  clase  de  procedimiento  de  recolección  y  análisis  de  los  datos  implica  sintetizar 
resultados  de  investigación  por  medio  de  un  número  de  estudios  que  consideran  el 
mismo planteamiento y variables (Wiersma y Jurs, 2008).  
      Los  pasos  de  un  metaanálisis  son  muy  similares  a  los  de  otros  estudios,  con  la 
salvedad  de  que  ahora  la  unidad  de  análisis  ya  no  es  el  participante  o  caso,  sino  la 
investigación realizada por otro(s) investigador(es). El reto es resumir los datos a partir 
de los diferentes estudios de manera muy bien estructurada, que evite errores y facilite 
su ulterior análisis.  
      Cabe señalar que el metaanálisis será más preciso entre más homogéneos sean los 
estudios que se consideran, en cuanto a la pregunta de investigación, variables, método, 
instrumentos de medición y análisis estadístico. Por lo tanto, el primer paso consiste en 
ponderar si es posible combinarlos (nos referimos únicamente a estudios cuantitativos). 




                                                                                                 79
Tal  consideración  nos  puede  llevar  a  un  sinfín  de  opciones,  desde  descubrir  que  hay 
varios  estudios  que  son  totalmente  compatibles  y  pueden  mezclarse,  hasta  contrastar, 
aquellos que sólo tienen un ítem en sus cuestionarios que nos sea de utilidad. 
        Existen  diferentes  propuestas  para  conjuntar  estadísticamente  los  resultados  de 
distintos  estudios,  destacan  tres  fundamentalmente,  que  se  conocen  con  el  nombre  de 
modelo de efectos fijos, modelo de efectos aleatorios y, por último, el modelo bayesiano 
(Molinero, 2003). 
        En  el  modelo  de  efectos  fijos,  los  estudios  se  combinan  y  se  asume  que  no  existe 
heterogeneidad  entre  ellos,  que  por  lo  tanto  todos  constituyen  estimaciones  de  un 
efecto  real,  cuya  magnitud  se  desea  conocer.  Así  pues,  la  inferencia  realizada    se 
condiciona a los estudios efectuados.  
         
            En  el  modelo  de  efectos  aleatorios  la  inferencia  se  fundamenta  en  suponer  que  los 
            estudios  incluidos  en  el  análisis  constituyen  una  muestra  aleatoria  del  universo  de 
            estudios  posibles,  y  sus  resultados  son  más  conservadores  al  tener  en  cuenta  una 
            fuente  extra  de  variación,  ya  que  se  incluyen  dos  fuentes  de  variación  potenciales:  la 
            existente dentro de los estudios y la variación entre los estudios (Molinero, 2003, p. 3). 
 
        La utilización de modelos bayesianos requiere de modelos estadísticos complejos 
de varianza. 
        El  metaanálisis  constituye  un  intento  de  resolver  contradicciones  entre  los 
resultados  de  diferentes  investigaciones  y  evaluar  patrones  comunes  en  distintos 
estudios. Es un método sumamente importante para generar teoría. 
        Como  todo  método  inferencial,  tiene  sus  problemas  y  limitaciones.  Uno  de  los 
principales  problemas  es  que  al  ser  un  estudio  que  generalmente  se  ejecuta  de  forma 
retrospectiva,  tiene  una  posibilidad  mayor  de  introducir  sesgos  (error  sistemático). 
Otros  retos  son  los  que  se  derivan  del  procedimiento  de  combinar  datos  de  múltiples 
estudios,  entre  los  cuales  pudiera  haber  diferencias  en  cuanto  a  método  y  muestreo 
(Smith, 2008). 
        El  procedimiento  general  de  un  metaanálisis  es  similar  al  de  los  datos 
secundarios, pero se agregan algunos elementos como el análisis mismo (figura 7.15). 
     
     




                                                                                                                   80
Evaluar si el                       Definir los criterios de         Analizar la relación entre el 
metaanálisis puede                   selección de los estudios          planteamiento del problema y los 
   responder al                       que deben ser incluidos           estudios: 
         
planteamiento del                    en el análisis (criterios de        
    problema 
                                       inclusión y exclusión)           ‐ ¿Son pertinentes los estudios para 
                                                                           la investigación planteada? 
                                                                        ‐ ¿Qué tan homogéneos o 
                                                                           heterogéneos resultan y en qué sí 
                                                                           pueden conjuntarse y en qué no? 
                                                                         
         
         
                                                                       a) Elegir los aspectos, dimensiones 
                                                                         y/o variables en las cuales van a 
                                                                         conjuntarse o compararse. 
  Preparar los                      Seleccionar los estudios           b) Evaluar la calidad de los estudios: 
         
 datos para su                      que habrán de incluirse              ‐ Muestra 
         
    análisis                                                             ‐ Confiabilidad 
                                                                         ‐ Validez 
                                                                         ‐ Método de recolección 
                                                                         ‐ Fuente de origen 
                                                                          
                                                                       Otros parámetros: vea el último 
  Analizar los                                                         capítulo del CD 
    
     datos 
     
     
     
     
    Figura 7.15 Proceso esencial del metaanálisis 
     
     
            Algunas recomendaciones para el metaanálisis las proporcionan Céspedes (1995) 
    y Harpe (2009): 
             

                1.  Seleccionar investigadores independientes que lean, clasifiquen, codifiquen, 
                    cuantifiquen  y  finalmente  evalúen  y  elijan  el  grupo  de  estudios  que  serán 
                    incluidos en el metaanálisis (MA). 
                2.   Elaborar  una  guía  de  los  datos  que  deben  ser  recolectados  de  los  estudios 
                    escogidos para ser procesados en el MA. 
                3.   Combinar  los  resultados  obtenidos  y  asegurar  la  calidad  de  los  datos  y  su 
                    procesamiento estadístico adecuado. 
                4.  Preferentemente utilizar datos provenientes de muestras aleatorias. 




                                                                                                          81
 
        El  análisis  estadístico  general  para  el  modelo  de  efectos  fijos  (no  existe  hetero‐
geneidad,  hay  homogeneidad  o  las  investigaciones  que  se  estiman  muestran  un  efecto 
uniforme,  debido  al  uso  de  un  mismo  tratamiento),  se  utiliza  el  método  de  Mantel‐
Haentzel‐Peto. 
                    Si  los  estudios  son  heterogéneos  al  mostrar  el  efecto  ante  un  tratamiento 
(modelo  de  efectos  aleatorios),  se  utiliza  el  método  de  Cochran‐Dersimonian‐Laird 
(Céspedes, 1995). 
        En  general,  se  obtiene  para  las  estadísticas  calculadas,  el  tamaño  del  efecto 
(Nugent, 2009, Wiersma y Jurs, 2008, y Glass, 1976), el cual se revisó en el capítulo 10 
del libro. Recordamos que es una medida de la “fuerza” de la diferencia de las medias u 
otros  valores  considerados  (Creswell,  2005).  Resulta  ser  una  medida  en  unidades  de 
desviación estándar. Su cálculo fue ejemplificado con la prueba t. 
        Existen diversos programas computacionales para el metaanálisis, entre los cuales 
se encuentran los siguientes: 
     
    ‐       Easy MA [M. Cucherat]. Lyon, France:  
            University of Lyon. http://www.spc.univ‐lyon1.fr/~mcu/easyma  
    ‐       RevMan®:  The  Cochrane  Collaboration’s  Review  Manager.  The  Cochrane 
            Collaboration: http://www.cc‐ims.net/RevMan   
    ‐       BUGS y WinBUGS: http://www.mrc‐bsu.cam.ac.uk/bugs  
    ‐       SAS®  (programa  ya  comentado,  en  su  página  existe  un  programa  para 
            metaanálisis). http://www.sas.com 
    ‐       STATA ®. http://www.stata.com 
    ‐       Meta Win: http://www.metawinsoft.com 
         
        Y  otros  muchos  que  puede  buscar  vía  disparador  (o  motor  de  búsqueda)  en 
internet.  Recuerde  que  las  direcciones  electrónicas  pueden  cambiar  en  cualquier 
momento. 




                                                                                                     82
EJEMPLOS DE ESTUDIOS  
BASADOS EN DATOS SECUNDARIOS 

Shu‐li  et  al.  (2008)  efectuaron  una  investigación  para  desarrollar  un  modelo  que 
predijera la permanencia de personas ancianas en su hogar (en lugar de acudir a asilos, 
por  ejemplo),  utilizando  datos  secundarios  de  9 879  individuos  de  la  base  de  datos 
pública de Estados Unidos: “The National Home and Hospice Care Survey 2000 (NHHCS 
2000)”.  Descubrieron  que  el  principal  predictor  de  la  permanencia  es  que  la  persona 
viva  con  familiares.  Asimismo,  Smith  (2009)  se  fundamentó  en  análisis  de  datos 
secundarios para estudiar las inequidades en la educación británica, específicamente la 
exclusión de escuelas.  
      Hernández  Sampieri  et  al.  (2008)  realizaron  un  estudio  de  mercado  utilizando 
datos secundarios con la finalidad de indagar sobre la conveniencia de abrir clínicas de 
cirugía estética y plástica en México. Buscando en diversas fuentes de internet, medios 
impresos (revistas y diarios de circulación nacional) y bases de datos, lograron ubicar a 
las principales clínicas que operaban a nivel nacional y en las regiones y ciudades más 
pobladas  del  país  (Ciudad  de  México,  Monterrey,  Guadalajara,  Tijuana,  Puebla), 
establecer  los  precios  de  sus  servicios,  determinar  el  mercado  potencial  y  sus 
características  (por  ejemplo,  número  de  cirugías  que  se  practicaron  durante  el  último 
año,  interés  por  practicarse  una  cirugía  plástica,  preocupación  por  la  estética 
personal…), evaluar las apelaciones de su publicidad y otras cuestiones. Haber realizado 
una encuesta hubiera sido más preciso, pero también más costoso, de tal modo que se 
hizo una investigación de acuerdo con el presupuesto del inversionista español. Incluso 
le  proveyeron  de  un  análisis  del  marco  jurídico  mexicano  para  abrir  y  operar  tales 
clínicas. 


Estudio para el diagnóstico municipal 
En  las  anteriores  ediciones  de  esta  obra,  se  integraba  un  ejemplo  para  diagnosticar  y 
caracterizar  a  un  municipio,  con  el  fin  último  de  elaborar  su  plan  de  desarrollo. 
Regularmente  estos  diagnósticos  son  estudios  mixtos,  pero  una  parte  muy  importante 
de  sus  insumos  lo  constituyen  los  datos  secundarios,  que  se  generan  con  base  en 
indicadores, los cuales se han desarrollado por diferentes organizaciones dedicadas a la 




                                                                                                83
investigación  municipal  (por  ejemplo:  el  Instituto  Vasco  de  Estadística;  el  Centro  de 
Investigación y Desarrollo Económico de México (CIDE); el Instituto de Estadística de la 
Comunidad  de  Madrid;  el  Sistema  Nacional  de  Indicadores  Municipales  (SINIM)  de  la 
Unidad  de  Información  Municipal  del  Gobierno  de  Chile;  el  Instituto  Nacional  de 
Estadística,  Geografía  e  Informática  en  México  (INEGI);  el  Instituto  Brasileiro  de 
Geografia e Estadística; el Sistema Nacional de Información Municipal, CEDEMUN, de la 
Secretaría  de  Gobernación  de  México;  la  Federación  Nacional  de  Departamentos  de 
Colombia; el Departamento de Estadística del Ayuntamiento de Barcelona; etcétera).  
      Algunos indicadores se aplican a cualquier municipio y son relevantes para todas 
las entidades poblacionales (número de habitantes, ingreso per cápita, ingresos totales 
del  municipio,  gasto  total  del  municipio,  inversión  total,  etc.),  mientras  que  otros 
indicadores  resultan  importantes  sólo  para  ciertos  municipios  (por  ejemplo,  los 
indicadores  relativos  a  la  producción  agrícola  son  irrelevantes  para  un  municipio 
completamente  urbano).  Por  ello,  en  cada  diagnóstico  municipal  deben  elegirse  los 
indicadores (datos secundarios) significativos para la entidad en cuestión. 
      También, cada provincia, departamento, región o estado genera indicadores a su 
nivel; lo mismo que las naciones. 
      En  este  CD:  Material  complementario→    Documentos→  Documento  1: 
“Indicadores”,  se  incluyen  ejemplos  de  indicadores  secundarios  municipales  que 
pudieran  recolectarse  para  un  diagnóstico  de  un  municipio,  con  el  fin  de  que  los 
estudiantes  que  apenas  comienzan  en  estos  menesteres  de  la  metodología  de  la 
investigación  los  puedan  comprender  sin  mayores  complicaciones  (se  cubren  unas 
cuantas áreas, pero desde luego, no en su totalidad ni mucho menos). No son los únicos, 
ya  que  hay  miles  de  ellos.  Están  agrupados  por  áreas  generales  (las  cuales  también 
pueden  fluctuar  según  el  autor  u  otros  criterios).  Determinados  indicadores  pueden 
formar  parte  de  dos  o  más  áreas.  Sin  polemizar  (porque  cuando  se  sopesan  pueden 
generar  discusiones  severas),  se  presentan  a  continuación  como  muestras  de  datos 
secundarios  y  fueron  en  particular  desarrollados  para  un  municipio  del  Estado  de 
México, México. Sería interesante como ejercicio que en cada institución se propusieran 
los que serían los más adecuados para su municipio.  


 



                                                                                              84
Errores en las mediciones 
Esta  parte  se  escribe  porque  es  una  pregunta  que  se  nos  ha  hecho  constantemente 
sobre los tipos de errores en la medición.  
      En cualquier instrumento de medición se tiene un grado de error (recordemos lo 
señalado en el capítulo 9 del libro y al inicio de este capítulo).  
      Imaginemos  que  realizamos  la  evaluación  de  la  autoestima  en  un  grupo  de 
estudiantes. Si la mido un día y la vuelvo a medir al día siguiente, y posteriormente a la 
semana; podemos esperar que las puntuaciones sean las mismas en las tres mediciones. 
La autoestima  como otros atributos no  varían  a  través  del  tiempo, a  menos  que  “algo” 
los  haga  variar  (un  estímulo,  la  maduración  de  la  persona,  un  suceso  de  vida,  entre 
otros). Es decir, si los estudiantes obtuvieron puntuaciones diferentes en las pruebas, su 
desempeño se debió a la influencia de otro motivo distinto a su propia autoestima. Estas 
otras  razones  provocan  error.  El  grado  en  que  un  instrumento  se  encuentra  libre  de 
error  indica  su  confiabilidad.  Entre  más  fiable  resulta  un  instrumento,  el  investigador 
puede acercarse a una verdadera estimación del atributo considerado. Tal “exactitud” se 
obtiene al minimizar las fuentes de error en la medida de lo posible y con la estimación 
del  grado  de  error  que  permanece.  Pues  bien,  hay  dos  tipos  de  errores  que  pueden 
ocurrir:  sistemáticos  y  no  sistemáticos.  Los  primeros  maximizan  o  minimizan  el 
desempeño de un instrumento y afectan a la validez (Mertens, 2005). En el ejemplo de 
la autoestima, un método para desarrollarla o fortalecerla (por ejemplo, motivacional o 
terapéutico) puede ser visto como una influencia sistemática en la variable o atributo. El 
efecto del error sistemático en las respuestas es constante y puede predecirse. Pero los 
errores  no  sistemáticos  (que  conciernen  a  los  investigadores)  varían  de  situación  en 
situación  (aplicaciones  distintas)  y  en  consecuencia  no  pueden  predecirse  (o  es 
sumamente complejo), pero sí prevenirse.  
      Estos  errores  pueden  caer  en  tres  categorías:  a)  personales  (dependen  de  cada 
individuo,  como  el  estrés,  el  cansancio  o  la  motivación),  b)  condiciones  de 
administración  del  instrumento  (instrucciones  distintas  a  los  respondientes, 
temperatura ambiental, lenguaje, etc.) y c) modificaciones en los instrumentos o tareas 
(por  ejemplo,  cambios  en  ítems  o  las  conductas  a  observar).  Normalmente,  la 
confiabilidad  es  calculada  mediante  una  estadística  que  compara  el  desempeño  de  los 
mismos individuos en tiempos diferentes o partes distintas del instrumento y que oscila 




                                                                                                85
entre cero y uno, su fin es precisamente ayudar al investigador a identificar el grado de 
error que se presenta en la medición, en su consistencia interna; mediante la fiabilidad y 
un análisis del investigador se deben hacer transparentes las fuentes de error. 
        

BIBLIOGRAFÍA 
 
Gall  ,  M.  D.,  Gall,  J.  P.  y  Borg,  W.  R.  (2003).    Educational  research:  An  introduction  (7a.  
Ed.). Boston, MA, EE. UU.: Allyn and Bacon. 
Lopez  S.  J.  y  Snyder,    C.  R.  (2003).  Positive  psychological  assessment  :  A  handbook  of 
models and measures. Washington, DC, EE. UU. : American Psychological Association. 
Roid,  G.  H.  (2003).  Stanford­Binet  intelligence  scales  (5a.    Ed.).  Itasca,  IL,  EE.  UU.: 
Riverside Publishing. 
Weller,  S.  C.  y  Romney,  A.  (1990).  Metric  scaling:  correspondence  analysis.    Thousand 
Oaks, CA, EE. UU.: Sage. 


        




                                                                                                          86

Más contenido relacionado

PPTX
Investigación cuantitativa
PDF
Marco teorico. enfoque cuantitativo. (raquel gómez y luis saavedra) 2015
PDF
Enfoque cuantitativo y cualitativo en la investigación
PPT
Tipos y alcances de la investigación científica
DOCX
Cronograma de actividades del proyecto de investigacion
PPTX
Presentación investigación cuantitativa
PPT
Tipos de Investigacion
PPSX
Hipotesis operacionalizacion de variables
Investigación cuantitativa
Marco teorico. enfoque cuantitativo. (raquel gómez y luis saavedra) 2015
Enfoque cuantitativo y cualitativo en la investigación
Tipos y alcances de la investigación científica
Cronograma de actividades del proyecto de investigacion
Presentación investigación cuantitativa
Tipos de Investigacion
Hipotesis operacionalizacion de variables

La actualidad más candente (20)

PPTX
Paradigmas de la investigación cuantitativa y cualitativa
PPTX
Informe de investigacion
PPTX
El diseño metodologico
PPT
Procesamiento de datos cuantitativos y cualitativos
PPTX
Reportes de resultados de la investigación cualitativa
PPTX
Investigacion descriptiva
PPT
Instrumentos de medición
PPTX
Los metodos mixtos
PPTX
Muestreo Investigación Cualitativa
PPTX
Paradigma sociocrítico
PDF
Líneas de investigación
PPSX
Mapa conceptual investigación cuantitativa y cualitativa
DOCX
Contexto de investigacion
PDF
Los metodos mixtos
PPTX
Ii.1 diseños mixtos
PDF
Planteamiento del problema
DOTX
Tipos y niveles de investigacion mapa conceptual
PDF
Cuestionario para medir el rendimiento academico
DOCX
Alcance y limitaciones del proyecto
Paradigmas de la investigación cuantitativa y cualitativa
Informe de investigacion
El diseño metodologico
Procesamiento de datos cuantitativos y cualitativos
Reportes de resultados de la investigación cualitativa
Investigacion descriptiva
Instrumentos de medición
Los metodos mixtos
Muestreo Investigación Cualitativa
Paradigma sociocrítico
Líneas de investigación
Mapa conceptual investigación cuantitativa y cualitativa
Contexto de investigacion
Los metodos mixtos
Ii.1 diseños mixtos
Planteamiento del problema
Tipos y niveles de investigacion mapa conceptual
Cuestionario para medir el rendimiento academico
Alcance y limitaciones del proyecto
Publicidad

Destacado (8)

PPT
Introduccion al Spss
PDF
CONCEPTOS DE ESTADISTICA spss
PPTX
Frecuencia estadística
PPT
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
PPT
Chi Cuadrado
DOCX
Analisis de datos cuantitativos
PPT
Muestreo por Conveniencia
PPT
La pregunta de investigación
Introduccion al Spss
CONCEPTOS DE ESTADISTICA spss
Frecuencia estadística
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
Chi Cuadrado
Analisis de datos cuantitativos
Muestreo por Conveniencia
La pregunta de investigación
Publicidad

Similar a Sampieri analis estadistico (20)

PPTX
Estadística básica de investigación ( medias, hipótesis ect)
DOCX
Estadística y software aplicado
DOCX
Exposicion maria
DOCX
Exposicion estadistica. prograna spss
PPT
Estadistica I 05
PPTX
Linear regression correlation coefficient
PPTX
Statistic for Business
PPTX
Medidas de dispersion
PPT
Procesamiento. estadistica
PPT
Procesamiento. estadistica conceptos
DOCX
Medidas De DispersióN
PPTX
Analisis de datos cuantitativos
PPTX
DISPERSION GESTION.435365457656r87r86pptx
PPTX
10 análisis y parámetros estadísticos
PPT
15 spss comparacion de medias
PPT
15 spss comparacion de medias
PPT
Bioestadistica1
DOCX
Exposicion estadistica inferencial spss enviar hoy
DOCX
Exposicion estadistica inferencial spss
DOCX
Exposicion estadistica inferencial spss
Estadística básica de investigación ( medias, hipótesis ect)
Estadística y software aplicado
Exposicion maria
Exposicion estadistica. prograna spss
Estadistica I 05
Linear regression correlation coefficient
Statistic for Business
Medidas de dispersion
Procesamiento. estadistica
Procesamiento. estadistica conceptos
Medidas De DispersióN
Analisis de datos cuantitativos
DISPERSION GESTION.435365457656r87r86pptx
10 análisis y parámetros estadísticos
15 spss comparacion de medias
15 spss comparacion de medias
Bioestadistica1
Exposicion estadistica inferencial spss enviar hoy
Exposicion estadistica inferencial spss
Exposicion estadistica inferencial spss

Más de YAS Arias (15)

PDF
Tipos de investigacion , Hurtado
PDF
González formulacion de proyectos
PDF
Investigación holistica, Hurtado
PDF
Arias 1999
PDF
Sampieri metodos mixtos
PDF
Sampieri consejos practicos
PDF
Sampieri indicadores
PDF
Sampieri propuestas cuantitativa y mixtas
PDF
Sampieri datos cuantitativos
PDF
Sampieri diseño experimental
PDF
Sampieri estudio de casos
PDF
Sampieri pespectiva teorica
PDF
Sampieri ética de la investigación
PDF
Herrnandes, Sampiereis y Baptista 2010
PDF
Tipos investigacion holistica hurtado de barrera
Tipos de investigacion , Hurtado
González formulacion de proyectos
Investigación holistica, Hurtado
Arias 1999
Sampieri metodos mixtos
Sampieri consejos practicos
Sampieri indicadores
Sampieri propuestas cuantitativa y mixtas
Sampieri datos cuantitativos
Sampieri diseño experimental
Sampieri estudio de casos
Sampieri pespectiva teorica
Sampieri ética de la investigación
Herrnandes, Sampiereis y Baptista 2010
Tipos investigacion holistica hurtado de barrera

Sampieri analis estadistico

  • 1.   CAPÍTULO  8  ANÁLISIS ESTADÍSTICO:   SEGUNDA PARTE    INTRODUCCIÓN  Con este capítulo se complementa el 10 de Metodología de la investigación, 5ª edición,  además  de  que  se  actualizó  su  contenido.  Se  presentan  primero  las  hipótesis  estadísticas,  las  puntuaciones  z,  cálculos  inferenciales  o  estimaciones  de  parámetros  y  luego  el  cálculo  del  coeficiente  alfa‐Cronbach  y  el  sustento  del  análisis  de  varianza  unidireccional. Finalmente los análisis multivariados y algunas fórmulas, así como una  secuencia  de  análisis  en  Minitab  y  otra  en  SPSS.  Los  autores  asumimos  que  se  revisó  previamente el capítulo en cuestión.  HIPÓTESIS ESTADÍSTICAS  En el capítulo 10 se señaló que cada prueba estadística obedece a un tipo de hipótesis  de  investigación  e  hipótesis  estadística  distinta.  Las  hipótesis  estadísticas  son  la   
  • 2. transformación  de  las  hipótesis  de  investigación,  nulas  y  alternativas  en  símbolos  estadísticos.  Algunas  revistas  académicas  solicitan  que  se  incluyan  estas  hipótesis  y  ayudan a conceptualizar ciertas pruebas revisadas en el capítulo 10 del texto impreso.  En ocasiones, el investigador traduce su hipótesis de investigación y nula (y cuando  se  formulan  hipótesis  alternativas,  también  éstas)  en  términos  estadísticos.  Básicamente hay tres tipos de hipótesis estadísticas, que corresponden a clasificaciones  de  las  hipótesis  de  investigación  y  nula:  1)  de  estimación,  2)  de  correlación  y  3)  de  diferencias de medias. A continuación mencionaremos y daremos ejemplos de cada una  de ellas.  Hipótesis estadísticas de estimación  Corresponden  a  las  que,  al  hablar  de  hipótesis  de  investigación,  se  les  denomina  hipótesis descriptivas de un dato que se pronostica. Sirven para evaluar la suposición de  un  investigador  respecto  del  valor  de  alguna  característica  en  una  muestra  de  individuos, otros seres vivos, sucesos u objetos, y en una población. Se fundamentan en  información  previa.  Supongamos  que,  basándose  en  ciertos  datos,  un  investigador  plantea  la  siguiente  hipótesis:  “el  promedio  mensual  de  casos  de  trastorno  psiconeurótico  caracterizados  por  reacción  asténica,  que  serán  atendidos  en  los  hospitales  de  la  ciudad  de  Linderbuck,  resultará  mayor  a  20”.  Además,  desea  transformar esta hipótesis de investigación en una hipótesis estadística. Lo primero que  debe  hacer  es  analizar  cuál  es  la  estadística  a  que  su  hipótesis  hace  referencia  (en  el  ejemplo se trata de un promedio o media mensual de casos atendidos). El segundo paso  consiste  en  encontrar  cómo  se  simboliza  esa  estadística  (promedio  se  simboliza  como  ).  El  tercer  paso  consiste  en  traducir  la  hipótesis  de  investigación  a  una  forma  estadística:    Hi:   > 20    (“el promedio mensual de casos atendidos será mayor a 20”.)  La hipótesis estadística nula sería la negación de la hipótesis anterior:    Ho:   < 20 (“el promedio mensual de casos atendidos será menor a 20”.)  y la hipótesis alternativa podría ser:    Ha:   = 20 (“el promedio mensual de casos… es igual a 20”.)   
  • 3. Después,  el  investigador  comparará  el  promedio  estimado  por  la  hipótesis  con  el  promedio actual de la muestra que seleccionó. La exactitud de su estimación se evalúa  con  esta  comparación.  Y  como  señalan  Black  y  Champion  (1976),  algunos  investigadores  consideran  las  hipótesis  estadísticas  de  estimación  como  hipótesis  de  diferencia,  pues  en  última  instancia  lo  que  se  evalúa  es  la  diferencia  entre  un  valor  planteado en la hipótesis y un valor observado en una muestra.  La  estimación  de  estas  hipótesis  no  se  limita  a  promedios,  ya  que  puede  incluirse  cualquier estadística: porcentajes, medianas, modas, etc. (Crosby et al., 2006).  Hipótesis estadísticas de correlación  Estas  hipótesis  tienen  por  objetivo  traducir  en  términos  estadísticos  una  correlación  entre  dos  o  más  variables.  El  símbolo  de  una  correlación  entre  dos  variables  es  “r”  (minúscula),  y  entre  más  de  dos  variables  “R”  (mayúscula).  La  siguiente  hipótesis:  “a  mayor  cohesión  en  un  grupo,  mayor  eficacia  en  el  logro  de  sus  metas  primarias”,  se  traduciría  tal como se muestra en el esquema.  Hi:                r                              x         y     ≠   0 (no es igual a cero o, lo que es lo mismo,  ambas                                                                                        variables están correlacionadas)                          La correlación                                    entre dos variables (cohesión y eficacia)    La hipótesis nula se traduciría:    Ho: rxy = 0 (Las dos variables no están correlacionadas; su correlación es cero.)    Otro ejemplo:    Hi: Rxyz ≠ 0 (La correlación entre las variables autonomía, variedad y motivación  intrínseca  no  es  igual  a  cero.  Es  decir,  las  tres  variables  “x”,  “y”,  “z”  están  asociadas).    Ho: Rxyz = 0  (No hay correlación)  Hipótesis estadísticas de la diferencia de medias u otros valores  En estas hipótesis se compara una estadística entre dos o más grupos. Supongamos que  un investigador plantea la siguiente pregunta de estudio: ¿difieren los periódicos Télex y  Noticias  en  cuanto  al  promedio  de  editoriales  mensuales  que  dedicaron,  durante  el   
  • 4. último año, al tema del terrorismo internacional?1 Su hipótesis de investigación podría  ser:  “existe  una  diferencia  entre  el  promedio  de  editoriales  mensuales  que  dedicó,  durante  el  último  año,  al  tema  del  terrorismo  internacional  el  diario  Télex,  y  el  que  dedicó el diario Noticias”. La estadística que se compara entre los grupos (editoriales de  Télex, un grupo, y editoriales de Noticias, otro grupo) es el promedio mensual ( ). La  hipótesis estadística se formularía así:        es diferente      Hi:  1  ≠   2 (promedio del grupo 2: editoriales de Noticias)      (promedio  del  grupo  uno:  editoriales  de    Télex)  La hipótesis nula:  Ho:  1  =  2  (“No  hay  diferencia  entre  los  promedios  de  los  dos  grupos  de  editoriales”.)  Con otra estadística (porcentaje) y tres grupos, se obtendrían hipótesis estadísticas  como las siguientes:    Hi: %1 ≠ %2 ≠ %3 (“Los porcentajes de los tres grupos son distintos”.)  Ho: %1 = %2 = %3 (“No hay diferencias”.)  PUNTUACIONES z  Puntuación z Medida  Las  puntuaciones  z  son  transformaciones  que  se  pueden  que indica la dirección y  hacer  a  los  valores  o  las  puntuaciones  obtenidas,  con  el  el grado en que un valor  individual se aleja de la  propósito  de  analizar  su  distancia  respecto  a  la  media,  en  media, en una escala de  unidades de desviación estándar. Una puntuación z nos indica  unidades de desviación  estándar.  la  dirección  y  el  grado  en  que  un  valor  individual  obtenido  se                                                                                 1  Nombres completamente ficticios   
  • 5. aleja de la media, en una escala de unidades de desviación estándar. Como mencionan  Nie  et  al.  (1975),  las  puntuaciones  z  son  el  método  más  comúnmente  utilizado  para  estandarizar la escala de una variable medida en un nivel por intervalos.    Su fórmula es:  donde X es la puntuación o el valor a transformar,  es la media de la distribución y s la  desviación  estándar  de  ésta.  El  resultado  z  es  la  puntuación  transformada  en  unidades  de desviación estándar.  Supongamos que en una distribución de frecuencias obtuvimos una media de 60 y  una  desviación  estándar  de  10,  y  deseamos  comparar  una  puntuación  de  “50”  con  el  resto  de  la  distribución.  Entonces,  transformamos  esta  puntuación  o  tal  valor  en  una  puntuación z. Tenemos que:  X = 50 = 60  s = 10 La puntuación z correspondiente a un valor de “50” es:      Podemos decir que el valor “50” se localiza a una desviación estándar por debajo de  la media de la distribución (el valor “30” está a tres desviaciones estándar por debajo de  la media).  Estandarizar  los  valores  permite  comparar  puntuaciones  de  dos  distribuciones  diferentes  (la  forma  de  medición  es  la  misma,  aunque  se  trata  de  distribuciones  distintas).  Por  ejemplo,  podemos  contrastar  una  distribución  obtenida  en  una   
  • 6. preprueba  con  otra  obtenida  en  una  posprueba  (en  un  contexto  experimental).  Supongamos  que  se  trata  de  un  estímulo  que  incrementa  la  productividad.  Un  trabajador obtuvo en la preprueba una productividad de 130 (la media del grupo fue de  122.5 y la desviación estándar de 10). Y en la posprueba obtuvo 135 (la media del grupo  fue de 140 y la desviación estándar de 9.8). ¿Mejoró la productividad del trabajador? En  apariencia,  la  mejoría  no  es  considerable.  Sin  transformar  las  dos  calificaciones  en  puntuaciones z, no es posible asegurarlo porque los valores no pertenecen a la misma  distribución.  Entonces  transformamos  ambos  valores  a  puntuaciones  z,  los  pasamos  a  una escala común donde la comparación es válida. El valor de 130 en productividad en  términos de unidades de desviación estándar es igual a:    130 − 122.5 z= = 0.75 10.0 Y el valor de 135 corresponde a una puntuación z de:    135 − 140 z= = −0.51 9.8 Como  observamos,  en  términos  absolutos  135  es  una  mejor  puntuación  que  130,  pero no en términos relativos (en relación con sus respectivas distribuciones).  La  distribución  de  puntuaciones  z  no  cambia  la  forma  de  la  distribución  original,  pero  sí  modifica  las  unidades  originales  a  “unidades  de  desviación  estándar”  (Wright,  1979). La distribución de puntuaciones z tiene una media de 0 (cero) y una desviación  estándar de 1 (uno). La figura 8.1 muestra la distribución de puntuaciones z.   
  • 7.           Figura 8.1 Distribución de puntuaciones z  Las puntuaciones z también sirven para comparar mediciones de distintas pruebas  o escalas aplicadas a los mismos participantes (los valores obtenidos en cada escala se  transforman  en  puntuaciones  z  y  se  comparan)  (Delbaere  et  al.,  2007).  No  debe  olvidarse que los elementos de la fórmula específicamente son la media y la desviación  estándar que corresponden al valor a transformar (de su misma distribución). También,  las  puntuaciones  z  sirven  para  analizar  distancias  entre  puntuaciones  de  una  misma  distribución  y  áreas  de  la  curva  que  abarcan  tales  distancias,  o  para  sopesar  el  desempeño de un grupo de participantes en varias pruebas. Las puntuaciones z son un  elemento descriptivo adicional que se agrega para analizar nuestros datos.  ESTIMACIÓN DE PARÁMETROS:   UN EJEMPLO CON LA MEDIA POBLACIONAL    En  el  capítulo  10  del  texto  impreso  se  mencionó  que  una  de  las  funciones  de  la  estadística inferencial es la estimación de parámetros, pues bien, al calcular la media de  nuestra muestra y si no estamos muy seguros de su representatividad podemos seguir  un  procedimiento  para  ver  si  nuestra  hipótesis  respecto  a  la  media  poblacional  es   
  • 8. aceptada  o  rechazada.2  Lo  anterior  es  para  responder  a  la  siguiente  pregunta:  ¿qué  hacemos  para  ver  si  nuestra  hipótesis  sobre  la  media  poblacional  es  aceptada  o  rechazada?  Pero  antes  de  estudiar  el  procedimiento,  es  necesario  hacer  las  siguientes  consideraciones:  a)   La  distribución  muestral  es  una  distribución  normal  de  puntuaciones  z,  es  decir, la base de la curva son unidades de desviación estándar.  b)   Las  puntuaciones  z  son  distancias  que  indican  áreas  bajo  la  distribución  normal. En este caso, áreas de probabilidad.  c)   El  área  de  riesgo  es  tomada  como  el  área  de  rechazo  de  la  hipótesis;  por  el  contrario, el área de confianza, como el área de aceptación de la hipótesis.  d)   Se habla de una hipótesis acerca del parámetro (en este caso, media  poblacional).  Si partimos de estas consideraciones, el procedimiento es:  1.   Sobre  bases  firmes  (revisión  de  la  literatura  e  información  disponible),  establecer  una  hipótesis  acerca  del  parámetro  poblacional.  Por  ejemplo:  el  promedio de horas diarias que se exponen los niños de la ciudad de Valladolid  a la televisión en fin de semana es de 3.0 horas.  2.   Definir el nivel de significancia. Por ejemplo, .05.  3.   Recolectar  los  datos  en  una  muestra  representativa.  Vamos  a  suponer  que  obtuvimos una media de 2.9 horas y una desviación estándar de 1.2 horas; la  muestra incluyó 312 niños.  4.   Estimar  la  desviación  estándar  de  la  distribución  muestral  de  la  media  utilizando la siguiente fórmula:                                                                                   2  En este ejemplo se utiliza la media, tal vez el caso más conocido, pero puede ser cualquier otro parámetro  poblacional.   
  • 9. Donde    es  la  desviación  estándar  de  la  distribución  muestral  de  la  media,  s  representa la desviación estándar de la muestra y n es el tamaño de la muestra.  En el ejemplo:      5.   Transformar  la  media  de  la  muestra  en  una  puntuación  z,  en  el  contexto  de  la  distribución  muestral,  con  una  variación  de  la  fórmula  ya  conocida  para  obtener  puntuaciones z:    donde X es la media de la muestra (recordemos que la distribución muestral es de  medias y no de puntuaciones),   es la media hipotética de la distribución muestral  (parámetro  poblacional),    es  la  desviación  estándar  de  la  distribución  muestral de medias. Así, tenemos:    2.9 − 3.0 z= = −1.47 0.0679     6.    En la tabla de áreas  bajo la curva normal (ver apéndice, 4 tabla 1 de este CD), buscar  aquella puntuación z que deje a 25% por encima de ella, que es 1.96. En la tabla del  apéndice  4  se  presenta  la  distribución  de  puntuaciones  z,  sólo  la  mitad,  pues  debemos  recordar  que  es  una    distribución  simétrica  y  se  aplica  igual  para  ambos  lados de la media. Así se incluye en los  textos de estadística. Se busca 2.5%, porque  la tabla sólo abarca la mitad de la distribución y el riesgo que estamos afrontando es  de  5%  (2.5%  del  extremo  de  cada  lado).  La  tabla  mencionada  contiene  cuatro  columnas:  la  primera  indica  puntuaciones  z,  la  segunda  expresa  la  distancia  de    la  puntuación z a la media. La tercera, el área que está por de bajo de esa puntuación   
  • 10. desde el comienzo de la distribución, como se muestra en la gráfica:         z    Y la cuarta, del área que está por encima de esa puntuación:      z          Las  áreas  se  expresan  en  proporciones.  Lo  que  buscamos  es  una  puntuación z  que deje por encima un área de 0.0250 o 2.5% (la encontramos en la cuarta columna  de la tabla); esta puntuación z es de 1.96. Siempre que  nuestro nivel de significancia  sea 0.05, tomamos la puntuación z de 1.96.    7. Comparar la media de la  muestra transformada a puntuación z con el valor 1.96; si  es menor, aceptar la hipótesis; si es mayor, rechazarla. Veamos el ejemplo:    Media de la muestra transformada a z        Nivel de significancia del 0.05          1.47            1.96      Decisión: Aceptar la hipótesis a un nivel de significancia de 0.05 (95% a favor y 5% de  riesgo de cometer un error).    Si la media obtenida   al transformarse en z,  Hubiera sido 3.25,    7.46 o un valor mayor  Rechazar la hipótesis    Por ejemplo :  Media de la muestra = 2.0   
  • 11. Desviación estándar de la muestra = 0.65              n = 700                      S  = 0.0246                z = 40.65    La media está situada a más de 40  desviaciones estándar de al media; se localiza en la   zona  crítica (más allá de 1.96 desviaciones estándar). Rechazar la hipótesis.  ¿POR QUÉ ES IMPORTANTE OTRO CONCEPTOPARA LA  ESTIMACIÓN DE PARÁMETROS: EL INTERVALO DE CONFIANZA?    Se ha hablado de la distribución muestral por lo que respecta a la prueba de hipótesis,  pero otro procedimiento de la estadística inferencial es construir un intervalo donde se  localiza  un  parámetro  (Wiersma  y  Jurs,  2008).  Por  ejemplo,  en  lugar  de  pretender  probar una hipótesis acerca de la media poblacional, puede buscarse un intervalo donde  se  ubique  dicha  media.  Lo  anterior  requiere  un  nivel  de  confianza,  al  igual  que  en  la  prueba  de  hipótesis  inferenciales.  El  nivel  de  confianza  es  al  intervalo  de  confianza  lo  que  el  nivel  de  significancia  es  a  la  prueba  de  hipótesis.  Es  decir,  se  trata  de  una  probabilidad definida de que un parámetro se va a ubicar en un determinado intervalo.  Recordemos que los niveles de confianza –expresados en porcentajes– más comunes en  la investigación son 0.95 y 0.99 (.05 y .01). Su sentido es similar al ya comentado, si es  de  0.95;  quiere  decir  que  tenemos  95%  en  favor  de  que  el  parámetro  se  localice  en  el  intervalo estimado, contra 5% de elegir un intervalo equivocado. El nivel de 0.99 señala  99% de probabilidad de seleccionar el intervalo adecuado. Tales niveles de confianza se  expresan  en  unidades  de  desviación  estándar.  Una  vez  más  se  acude  a  la  distribución  muestral, concretamente a la tabla de áreas bajo la curva normal (apéndice 4, tabla 1 de  este  CD  anexo  o  en  STATS®  “Áreas  bajo  la  curva  normal”)3,  y  se  elige  la  puntuación  z  correspondiente  al  nivel  de  confianza  seleccionado.  Una  vez  hecho  esto,  se  aplica  la  siguiente fórmula:                                                                                   3  También STATS® contiene esta tabla.   
  • 12. Puntuación z que  Desviación estándar de  expresa el nivel de  la distribución muestral  Intervalo de confianza = estadígrafo +   confianza elegido  correspondiente    En la fórmula, el estadígrafo es la estadística calculada en la muestra, la puntuación  z  es  1.96  con  un  nivel  de  0.95  y  de  2.58  con  un  nivel  de  0.99,  en  tanto  que  el  error  estándar depende del estadígrafo en cuestión. Veámoslo con el ejemplo de la media en  el caso de la exposición diaria a la televisión (en fin de semana) por parte de los niños  de Valladolid:    Media = 2.9 horas  s = 1.2 horas    (desviación estándar de la distribución muestral de la media).    Nivel de confianza       = 0.95 (z = 1.96)  Intervalo de confianza     = 2.9 ± (1.96) (0.0679)            = 2.9 ± (0.133)  Intervalo  de  confianza:  la  media  poblacional  está  entre  2.767  y  3.033  horas,  con  95% de probabilidades de no cometer error.  CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD  (FIABILIDAD) ALFA‐CRONBACH  En los capítulos 9 y 10 se definió el coeficiente alfa de Cronbach (α), así como sus usos e  interpretación. Los programas de análisis estadístico como SPSS, Minitab, SAS y otros, lo  incluyen  y  calculan  instantáneamente.  Pero  para  quienes  no  tienen  acceso  a  estos  programas,  presentamos  la  forma  de  obtenerlos.  De  acuerdo  con  Carmines  y  Zeller  (1988,  pp.  44  y  45),  así  como  Corbetta  (2003),  existen  tres  procedimientos  para  determinar el coeficiente “α” o alfa:  1.  Sobre  la  base  de  la  varianza  de  los  ítems,  con  la  aplicación  de  la  siguiente  fórmula:  
  • 13. N α= ⎡ N − 1⎤ ⎢ ( ) ⎡ 1 − ∑ s 2 Yi ⎤ ⎥ ⎣ ⎦ s2 x ⎢ ⎣ ⎥ ⎦ En  donde  N  representa  el  número  de  ítems  de  la  escala,  ∑ s (Yi )   es  igual  a  la  2 sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la escala.    2.  Sobre la base de la matriz de correlación de los ítems, el procedimiento sería:      a)  Se aplica la escala.    b)  Se obtienen los resultados.    c)  Se  calculan  los  coeficientes  de  correlación  r  de  Pearson  entre  todos  los  ítems  (todos contra todos de par en par).    d)  Se elabora la matriz de correlación con los coeficientes obtenidos. Por ejemplo:    Ítems     1  2  3  4  1  —  0.451  0.399  0.585  2   ya fue calculado  —  0.489  0.501  3  ya fue calculado  ya fue calculado  —  0.541  4  ya fue calculado  ya fue calculado  ya fue calculado  —    Los  coeficientes  que  se  mencionan  como  “ya  fue  calculado”,  se  ubican  en  la  parte  superior  de  las  líneas  horizontales  (guiones).  Es  decir,  cada  coeficiente  se  incluye  una  sola vez y se excluyen los coeficientes que vinculan al ítem o puntuación consigo misma  (1 con 1, 2 con 2, 3 con 3 y 4 con 4).  e)  Se calcula   (promedio de las correlaciones).   
  • 14. ( es  la  sumatoria  de  los  valores  de  las  correlaciones  y  NP  el  número  de correlaciones no repetidas o no excluidas). f)  Se aplica la fórmula siguiente:     Np   α=   1 + p (N − 1)     Donde N es el número de ítems y   el promedio de las correlaciones entre ítems.  En el ejemplo:  α = 0.798 α = 0.80 (cerrando)  Es  un  coeficiente  aceptable  y  recordemos  que  todos  los  ítems  de  la  escala  deben  estar medidos en intervalos o razón.  3.  Mediante otra fórmula que se basa en la correlación promedio (Corbetta, 2003,  p. 238).   
  • 15. Se usa la siguiente fórmula:                                  nr α= 1 + r(n − 1) Donde  n  representa  el  número  de  ítems  o  elementos  de  la  escala  y  r  es  su  correlación promedio.  SUSTENTO DEL ANÁLISIS DE VARIANZA UNIDIRECCIONAL  En  el  capítulo  10  del  texto  impreso,  se  dijo  que  el  ANOVA  unidireccional  produce  un  valor F, el cual se basa en una distribución muestral, conocida como distribución F, y tal  valor  compara  las  variaciones  en  las  puntuaciones  debidas  a  dos  diferentes  fuentes:  variaciones entre los grupos que se contrastan y variaciones dentro de los grupos.  Si los grupos difieren realmente entre sí, sus puntuaciones variarán más de lo que  puedan variar las puntuaciones entre los integrantes de un mismo grupo. Veámoslo con  un ejemplo cotidiano. Si tenemos tres familias A, B y C. La familia A está integrada por  Felipe, Angélica, Elena y José Luis. La familia B está compuesta por Chester, Pilar, Íñigo,  Alonso  y  Carlos.  Y  la  familia  C  está  integrada  por  Rodrigo,  Laura  y  Roberto.  ¿Qué  esperamos? Pues que los integrantes de una familia se parezcan más entre sí que a los  miembros de otra familia. Esto se graficaría como en la figura 8.2.   
  • 16.     Figura 8.2 Ejemplo de las variaciones de los grupos comparados    Es  decir,  esperamos  homogeneidad  intrafamilias  y  heterogeneidad  interfamilias.  ¿Qué sucedería si los miembros de las familias se parecieran más a los integrantes de las  otras familias que a los de la suya propia? Quiere decir que no hay diferencia entre los  grupos (en el ejemplo, familias).  Esta misma lógica se aplica a la razón F, la cual nos indica si las diferencias entre los  grupos son mayores que las diferencias intragrupos (dentro de éstos). Estas diferencias  se  miden  en  términos  de  varianza.  La  varianza  es  una  medida  de  dispersión  o  variabilidad alrededor de la media y se calcula en términos de desviaciones elevadas al  cuadrado. Recuerde que la desviación estándar es un promedio de desviaciones respecto  a  la  media  X − X   y  la  varianza  es  un  promedio  de  desviaciones  respecto  a  la  media  ( ) . La varianza por eso se simboliza como S  y su fórmula  2 elevadas al cuadrado X − X 2 ∑( X − X ) 2 es  n .  En  consecuencia,  la  razón  F,  que  es  una  razón  de  varianzas,  se  expresa así:     
  • 17.   En  donde  la  media  cuadrática  implica  un  promedio  de  varianzas  elevadas  al  cuadrado.  La  media  cuadrática  entre  los  grupos  se  obtiene  al  calcular  la  media  de  las  puntuaciones de todos los grupos (media total), después se obtiene la desviación de la  media de cada grupo respecto a la media total y se eleva al cuadrado cada una de estas  desviaciones, y luego se suman. Finalmente se sopesa el número de individuos en cada  grupo y la media cuadrática se obtiene con base en los grados de libertad intergrupales  (no se calcula con base en el número de puntuaciones). La media cuadrática dentro de  los grupos se calcula obteniendo primero la desviación de cada puntuación respecto a la  media  de  su  grupo;  posteriormente  esta  fuente  de  variación  se  suma  y  combina  para  obtener una media de la varianza intragrupal para todas las observaciones, tomando en  cuenta los grados de libertad totales (Wright, 1979; Doncaster y Davey, 2007).  Las fórmulas de la media cuadrática son:    º Los grados de libertad entre grupos =   (donde K es el número de grupos).  Los grados de libertad intragrupos =  n − K  (n es el tamaño de la muestra, la suma  de los individuos de todos los grupos, y K recordemos que es el número de grupos).   Pues  bien,  cuando  F  resulta  significativa,  quiere  decir  que  los  grupos  difieren  “significativamente”  entre  sí.  Es  decir,  se  acepta  la  hipótesis  de  investigación  y  se  rechaza la hipótesis nula.  Cuando se efectúa el análisis de varianza por medio de un programa computacional  estadístico, se genera una tabla de resultados con los elementos de la tabla 8.1.   
  • 18. Tabla 8.1 Elementos para interpretar un análisis de varianza   unidireccional realizado en SPSS    Sumas de  Grados de  Medias      Fuente de  cuadrados  libertad  cuadráticas    Significancia  variación  (Sums of  (Degrees of  (Mean  Razón F  de F   (Source)  squares)  freedom)  squares)  (F‐ratio)  (F prob.)  Entre  SS entre +  gl entre  SS entre/gl  α  grupos      entre    (between        groups)        Intragrupos  SS intra  gl intra  SS intra/gl  (within      intra  groups)        Total  SS entre  gl entre +    SS intra  gl intra  En Minitab se dan los siguientes elementos:  Fuente  GL (grados     SC  (suma de    MC (media      F  (valor)  P (sig.)              de libertad)    cuadrados)    cuadrática)  El valor alfa o probabilidad a elegir una vez más es 0.05 o 0.01. Si es menor que 0.05  es  significativo  en  este  nivel,  y  si  es  menor  que  0.01  también  es  significativo  en  este  nivel. Cuando el programa o paquete estadístico no incluye la significancia se acude a la  tabla 3 del apéndice 4 (tabla de la distribución F o en STATS® a “Valores de “F” al nivel  de  confianza  de  .05  y  .01”).  Esta  tabla  contiene  una  lista  de  razones  significativas  (razones  F)  que  debemos  obtener  para  aceptar  la  hipótesis  de  investigación  en  los  niveles de confianza de 0.05 y 0.01. Al igual que en caso de la razón t, el valor exacto de  F  que  debemos  obtener  depende  de  sus  grados  de  libertad  asociados.  Por  lo  tanto,  la  utilización de la tabla se inicia al buscar los dos valores gl, los grados de libertad entre los  grupos  y  los  grados  de  libertad  intragrupos.  Los  grados  de  libertad  entre  grupos  se  indican  en  la  parte  superior  de  la  página,  mientras  que  los  grados  de  libertad  intragrupos  se  han  colocado  al  lado  izquierdo  de  la  tabla.  El  cuerpo  de  la  tabla  de  la  distribución  F  presenta  razones  F  significativas  en  los  niveles  de  confianza  de  0.05  y  0.01.     
  • 19. Si F  =  1.12  gl entre  =  2  gl intra  =  60    Este valor F se compara con el valor que aparece en la tabla de la distribución F que  es  3.15  y  como  el  valor  F  calculado  es  menor  al  de  dicha  tabla,  rechazaríamos  la  hipótesis de investigación y aceptaríamos la hipótesis nula. Para que el valor F calculado  sea significativo debe ser igual o mayor al de la tabla.     ANÁLISIS MULTIVARIADO  En  el  capítulo  10  del  libro,  cuando  se  analizaron  los  principales  métodos  estadísticos  paramétricos,  concretamente,  después  de  revisar  el  ANOVA  unidireccional,  nos  preguntábamos:  ¿pero  qué  ocurre  cuando  tenemos  diversas  variables  independientes  y  una  dependiente,  varias  independientes  y  dependientes?  Tal  como  observábamos  en  diagramas como el que se muestra en la figura 8.3.  Autoestima de  la persona  Sentido  Edad  de vida  de la  persona  Género  Religión  Figura 8.3 Ejemplo con cuatro variables independientes y una dependiente.  La respuesta era: entonces, requerimos de otros métodos estadísticos. Éstos son los  que  revisaremos  a  continuación  y  una  vez  más,  sobre  la  base  de  que  existen  computadoras  y  programas  como  el  SPSS,  del  mismo  modo  centrándonos  en  los   
  • 20. elementos fundamentales de interpretación.   ¿Qué son los métodos de análisis multivariado?  Los  métodos  de  análisis  multivariado  son  aquellos  en  que  se  analiza  la  relación  entre  diversas  variables  independientes  y  al  menos  una  dependiente.  Son  métodos  más  complejos que requieren del uso de computadoras para efectuar los cálculos necesarios  (normalmente se enseñan a nivel posgrado).   ¿Qué es el análisis factorial de varianza?   ANOVA (análisis de varianza de k direcciones o varios factores)  Definición:  Es  una  prueba  estadística  para  evaluar  el  efecto  de  dos  o  más  variables  independientes sobre una variable dependiente.  Responde a esquemas como el que se muestra en la figura 8.4.          X1    X2  Y  Xk  Figura 8.4 Esquema de un análisis factorial de varianza  Constituye una extensión del análisis de varianza unidireccional, solamente que incluye  más  de  una  variable  independiente.  Evalúa  los  efectos  por  separado  de  cada  variable  independiente y los efectos conjuntos de dos o más variables independientes.  Variables: dos o más variables independientes y una dependiente.   
  • 21. Nivel de medición de las variables: la variable dependiente (criterio) debe estar medida  en un nivel por intervalos o razón, y las variables independientes (factores) pueden  estar en cualquier nivel de medición, pero expresadas de manera categórica.  Interpretación y ejemplo  Hi:  “la  similitud  en  valores,  la  atracción  física  y  el  grado  de  realimentación  positiva  son  variables que inciden en la satisfacción sobre la relación en parejas de novios”.    Contexto:  Muestra  de  parejas  de  adultos  jóvenes  (23‐29  años)  de  Santiago  de  Chile,  pertenecientes a estratos económicos altos (n = 400).    El  ANOVA  efectuado  mediante  un  paquete  estadístico  computacional  como  SPSS  produce los siguientes elementos básicos:  •  Fuente  de  la  variación  (source  of  variation).  Es  el  factor  que  origina  variación  en  la  dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos.  •  Efectos  principales  (main  effects).  Es  el  efecto  de  cada  variable  independiente  por  separado; no está contaminado del efecto de otras variables independientes ni de error.  Suele proporcionarse la suma de todos los efectos principales.  •  Interacciones  de  dos  direcciones  (2‐way  interactions).  Representa  el  efecto  conjunto  de  dos  variables  independientes,  aislado  de  los  demás  posibles  efectos  de  las  variables  independientes  (individuales  o  en  conjuntos).  Suele  proporcionarse  la  suma  de  los  efectos de todas estas interacciones.  •  Interacciones  de  tres  direcciones  (3‐way  interactions).  Constituye  el  efecto  conjunto  de  tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de  los efectos de todas estas interacciones.  •  Puede  haber  efecto  de  K‐direcciones,  esto  depende  del  número  de  variables  independientes.  En nuestro ejemplo, tenemos los resultados que se muestran en la tabla 8.2.   
  • 22. Tabla 8.2 Ejemplo de resultados en el ANOVA    VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN  Fuente de variación  Suma de  Grados de  Medias  Razón  Significancia  (SOURCE OF VARIATION)  cuadrados  libertad  cuadráticas  de F O P  (SUMS OF  (DEGREES OF  (MEAN  SQUARES)  FREEDOM)  SQUARES)  Efectos principales  —  —  —  22.51  0.001**     (main effects)  Similitud  —  —  —  31.18  0.001**  Atracción  —  —  —  21.02  0.001**  Realimentación  —  —  —  11.84  0.004**  Interacción de dos  —  —  —      direcciones (2‐way      interactions)  7.65  0.010*  Similitud  —  —  —  4.32  0.040*  Atracción            Similitud  —  —  —  2.18  0.110  Realimentación            Atracción  —  —  —  1.56  0.190  Interacción de tres  —  —  —  8.01  0.020*  direcciones (3‐way  interaction)  Similitud            Atracción  —  —  —      Realimentación            —Residual  —  —  —      —Total  —  —  —      Nota:  A los estudiantes que se inician en el ANOVA normalmente les interesa saber si las razones “F”  resultaron o no significativas; por tanto, sólo se incluyen estos valores. Por lo que es a ellos a quienes  los  autores recomiendan concentrarse en  dichos valores y evitar confusiones. Desde luego, el investigador  experimentado acostumbra estudiar todos los valores.  ** Razón “F” significativa al nivel del 0.01 (p < 0.01)  *   Razón “F” significativa al nivel del 0.05 (p < 0.05)  Como  podemos  ver  en  la  tabla  8.2,  la  similitud,  la  atracción  y  la  realimentación  tienen un efecto significativo sobre la satisfacción en la relación. Respecto a los efectos  de  dos  variables  independientes  conjuntas,  sólo  la  similitud  y  la  atracción  tienen  un  efecto,  hay  un  efecto  conjunto  de  las  tres  variables  independientes.  La  hipótesis  de  investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo  5 del presente disco: diseños experimentales: segunda parte: series cronológicas, factoriales y  cuasiexperimentos  (en  el  apartado  sobre  diseños  factoriales)  se  explica  la  noción  de  interacción  entre  variables  independientes.  Cabe  agregar  que  el  ANOVA  es  un  método  estadístico propio para los diseños experimentales factoriales.     
  • 23. ¿Qué es el análisis de covarianza?  Definición:  es  un  método  estadístico  que  analiza  la  relación  entre  una  variable  dependiente y dos o más independientes, con el que se elimina o controla el efecto de al  menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la  influencia  de  una  variable  independiente,  la  cual  con  frecuencia  es  una  característica  antecedente que puede variar entre los grupos (Mertens, 2005; Babbie, 2009) o influir  los resultados y afectar la claridad de las interpretaciones.  Perspectivas o usos: Wildt y Ahtola (1978, pp. 8‐9) destacan tres perspectivas para el  análisis de covarianza:    A.     Perspectiva  experimental.  Se  aplica  a  aquellas  situaciones  en  que  el  interés  del  investigador  se  centra  en  las  diferencias  observadas  en  la  variable  dependiente,  por  medio  de  las  categorías  de  la  variable  independiente  (o  variables  independientes).  Pero  el  experimentador  asume  que  hay  otras  variables  independientes  cuantitativas  que  contaminan  la  relación  y  cuya  influencia  debe  ser controlada (figura 8.5).        Variables  X1     independientes  X2  categóricas    Xk      Y  Variable     dependiente        Variables      independientes  Z 1  cuantitativas  Z 2    continuas  Zk        Figura 8.5 Ejemplo de variables independientes que afectan a una dependiente     
  • 24. Y  el  investigador  únicamente  se  interesa  por  conocer  la  relación  entre  las  variables  independientes  categóricas  y  la  variable  dependiente.  Desea  al  mismo  tiempo remover y controlar el efecto de las variables independientes cuantitativas  no categóricas (continuas). Es decir, desea tener un esquema como el de la figura  8.6.      X1   X2     Xk     Y    Remover o  Z1 controlar    Z2   Zk        Figura 8.6 Ejemplo de control de variables independientes no categóricas.    El  objetivo  es  “purificar  la  relación  entre  las  independientes  categóricas  y  la  dependiente, mediante el control del efecto de las independientes no categóricas o  continuas”.  Ejemplos  de  variables  independientes  categóricas  serían:  género  (masculino,  femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos  a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos).  Los  niveles  de  medición  nominal  y  ordinal  son  categóricos  en  sí  mismos,  mientras  que  los  niveles  de  intervalos  y  razón  deben  transformarse  en  categorías  más  discretas. Estos últimos son en sí: cuantitativos, continuos y de categorías múltiples.  Por ejemplo, el ingreso en su “estado natural” (pesos, dólares, euros, etc.) varía de la  categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías.   
  • 25.   Variable categórica — unas cuantas categorías o un rango medio.  Variable continua — muchas categorías (a veces una infinidad).  A  dichas  variables  independientes  cuantitativas  continuas,  cuya  influencia  se  controla, se les denomina “covariables”. Una covariable se incluye en el análisis para  remover su efecto sobre la variable dependiente, e incrementar el conocimiento de  la  relación  entre  las  variables  independientes  categóricas  de  interés  y  la  dependiente, lo cual aumenta la precisión del análisis(Doncaster y Davey, 2007).  En esta perspectiva, el análisis de covarianza puede ser concebido primero como  un  ajuste  en  la  variable  dependiente  respecto  a  diferencias  en  la  covariable  o  las  covariables  y,  posteriormente,  como  una  evaluación  de  la  relación  entre  las  variables  independientes  categóricas  y  los  valores  ajustados  de  la  variable  dependiente  (Wildt  y  Ahtola,  1978).  En  términos  de  Creswell  (2005):  el  procedimiento  “ajusta”  las  puntuaciones  en  la  dependiente  para  dar  cuenta  de  la  covarianza  (por  decirlo  en  términos  sencillos:  “hace  equivalentes  a  los  grupos  en  la(s)  covariable(s)”  y  controla  influencias  potenciales  que  pueden  afectar  a  la  variable dependiente).  B.   Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas  instancias en las cuales el interés principal se centra en analizar la relación entre la  variable  dependiente  y  la  covariable  (variable  cuantitativa  continua)  o  las  covariables.  Aquí  el  enfoque  es  distinto;  la  influencia  que  se  remueve  es  la  de  las  variables  independientes  categóricas.  Primero  se  controla  el  efecto  (en  este  caso  “contaminante”) de estas variables y después se analiza el efecto “purificado” de las  covariables.  C.   Perspectiva  de  regresión.  En  esta  tercera  perspectiva,  tanto  las  variables  independientes  categóricas  como  las  covariables  resultan  de  interés  para  el  investigador,  quien  puede  desear  examinar  el  efecto  de  cada  variable  independiente (covariables y no covariables, todas) y después ajustar o corregir los  efectos de las demás variables independientes.  En cualquier caso, el análisis de covarianza elimina influencias no deseadas sobre la  variable  dependiente.  Se  puede  utilizar  en  contextos  experimentales  y  no   
  • 26. experimentales.  La  mayoría  de  las  veces  la  función  del  ANCOVA  es  “remover”  la  varianza compartida entre  una  o  más  covariables  y  la  dependiente,  de  este  modo,  se  valora  en  su  justa  dimensión  la  relación  causal  entre  la(s)  variable(s)  independiente(s)  de  interés  y  la  dependiente  (Creswell,  2005).  Veámoslo  conceptualmente pero de forma gráfica con un ejemplo simple:      EJEMPLO    Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computación, por medio  de un nuevo método para su enseñanza a niños. La hipótesis es: “el nuevo método de enseñanza de  la computación (MA‐RH) provocará un mayor aprendizaje en los niños que un método tradicional”.     Entonces,  implementa  el  siguiente  experimento:  a  un  grupo  de  infantes  lo  expone  al  nuevo  método  de  enseñanza  de  computación  (MA‐RH);  el  otro  grupo  aprende  con  el  método  tradicional;  finalmente, un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación.  La  variable  independiente  es  el  tipo  de  método  con  tres  categorías  o  niveles  (método  nuevo,  método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida  por una prueba estandarizada a nivel de intervalos). Se tiene un esquema como el de la figura 8.7.    Tipo de método (X)  Aprendizaje (Y)        El investigador sabe que el aprendizaje se puede deber a muchas razones, además del método. Es decir, el  aprendizaje varía por diversos motivos, lo cual se representa en forma de conjuntos de la siguiente manera:             Variable  Variable    independiente:  dependiente:  método (X)  aprendizaje (Y)            Varianza del aprendizaje no  explicada (que no se debe al  Varianza en común entre  método sino a otros factores)  método y aprendizaje   
  • 27.     Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje    (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento  y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables    que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos    intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la  varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la    relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir (hace variar al  aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.            Variable  dependiente:    Variable  aprendizaje (Y)  independiente:    método (X)        El nivel educativo  tecnológico de los    padres (COVARIABLE)      Varianza en común: entre  método y aprendizaje      Varianza compartida entre el nivel   educativo de los padres y el aprendizaje (la    cual se controla con el ANCOVA)    Entre más covariables se controle, más se explicará sobre la varianza común entre el método y el    aprendizaje.     Figura 8.7 Ejemplo del control de las covariables (con una covariable).               
  • 28.     Lo que el investigador desea también se puede expresar   gráficamente así:      Tipo de método  Aprendizaje      ANCOVA    Nivel educativo    tecnológico de los  padres (covariable)  Controlar influencia de la covariable      Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:    1.  Incrementar la precisión en experimentos con asignación al azar.  2.  Eliminar  influencias  extrañas  o  contaminantes  que  pueden  resultar  cuando  las  pruebas  o  los  individuos  no  son  asignados  al  azar  a  las  diferentes  condiciones  experimentales (grupos de un experimento).  3.  Eliminar  efectos  de  variables  que  confundan  o  distorsionen  la  interpretación  de  resultados en estudios no experimentales.      Nivel  de  medición  de  las  variables:  la  variable  dependiente  siempre  está  medida  por  intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel.   Interpretación:  depende  de  cada  caso  específico,  ya  que  el  análisis  de  covarianza  efectuado  mediante  un  programa  estadístico  computacional,  produce  un  cuadro  de  resultados  muy  parecido  al  del  análisis  de  varianza.  Los  elementos  más  comunes  pueden observarse en la tabla 8.3.             
  • 29.   Tabla 8.3 Ejemplo de elementos comunes de un análisis de covarianza    Fuente  de  Sumas de  Sumas de  Grados de  Medias  Razón  Significancia  de  variación  cuadrados  cuadrados  libertad  cuadráticas  F (F)  F (Sig.)  (Source  of  y  ajustadas  (Degrees  variation)  productos  (Adjusted  of  cruzados  sum of  freedom)  (Sum of  squares)  squares  and cross  products)        La  razón  F  es,  igual  que  en  el  análisis  de  varianza,  una  razón  de  varianzas.  El  razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo  cuadro de la distribución F (tabla 3, apéndice 4 o en STATS® a “Valores de “F” al nivel de  confianza  de  .05  y  .01”).  Solamente  que  las  inferencias  y  conclusiones  se  hacen  al  considerar que las medias de la variable dependiente, a través de las categorías de las  variables  independientes,  se  han  ajustado,  de  este  modo  eliminan  el  efecto  de  la  covariable o covariables.      EJEMPLO   Diseño de investigación que utiliza el análisis de covarianza   Hi: “los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte  de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que  reciban  retroalimentación  sobre  el  desempeño  por  escrito,  y  más  aún  que  los  trabajadores que no reciban ningún tipo de retroalimentación”.        Hi:   1 > 2 > 3       (verbal)                     (por escrito)              (ausencia)   
  • 30.         El investigador plantea un diseño experimental para intentar probar su hipótesis.  Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del  experimento.  El  diseño  sería  con  grupos  intactos  (cuasiexperimental)  y  se  esquematizaría así:        G1  X1    1          G2  X2          G3  —          2    Asimismo,  el  investigador  presupone  que  hay  un  factor  que  puede  contaminar  los  resultados  (actuar  como  fuente  de  invalidación  interna):  la  motivación.  Diferencias  iniciales  en  motivación  pueden  invalidar  el  estudio.  Como  la  asignación  al  azar  está  ausente,  no  se  sabe  si  los  resultados  se  ven  influidos  por  dicho  factor.  Entonces,  el  3  experimentador  decide  eliminar  o  controlar  el  efecto  de  la  motivación  sobre  la  productividad  para  conocer  los  efectos  de  la  variable  independiente:  tipo  de  retroalimentación.  La  motivación  se  convierte  en  covariable.  El  esquema  es  el  que  se  muestra en la figura 8.8.        Retroalimentación (variable  Productividad (variable  independiente categórica)  dependiente)        ANCOVA    Motivación  (covariable)     
  • 31.   Figura 8.8 Ejemplo donde la motivación es covariable      Cabe  destacar  que,  para  introducir  una  covariable  en  el  análisis,  de  preferencia  debe  medirse antes del inicio del experimento.  El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se debe a la  covariable.  Ajusta  la  varianza  de  la  variable  dependiente  en  las  categorías  de  la  independiente,  al  basarse  en  la  covariable.  En  el  ejemplo,  ajusta  la  varianza  de  la  productividad  debida  a  la  motivación,  en  las  categorías  experimentales  (tratamientos  o  grupos).  El  ajuste  se  realiza  sobre  la  base  de  la  correlación  entre  la  covariable  y  la  dependiente. Esto se muestra esquemáticamente en la tabla 8.4.      Tabla 8.4 Ejemplo de un diseño de investigación que utiliza el análisis de covarianza como  herramienta para ajustar diferencias en motivación entre los grupos    Covariable  Variable  Variable  independiente  dependiente  Calificación en    Puntuaciones en  motivación  Tipo de  productividad ajustadas,  realimentación  tomando en cuenta la  covariable  G1  0  X1  0  G2  0  X2  0  G3  0  —  0        Una  vez  realizado  el  análisis  de  covarianza,  se  evalúa  si  F  es  o  no  significativa.  Cuando F resulta significativa se acepta la hipótesis de investigación.  Si el resultado fuera:  G1 = 35   
  • 32. G2 = 36  La  correlación  entre  la  calificación  en  motivación  y  las  puntuaciones  en  productividad es la base para el ajuste.      G3 = 38    Gl entre = K – 1 = 3 – 1 = 2    Gl intra = N – K = 107    F = 1.70  Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y  nuestra  razón  F  a  1.70  es  menor  a  este  valor.  Por  tanto,  rechazamos  la  hipótesis  de  investigación  y  aceptamos  la  hipótesis  nula.  Esto  se  contrasta  y  profundiza  con  las  medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias  obtenidas  en  el  experimento  por  cada  grupo,  sino  las  ajustadas  con  base  en  la  covariable).  Recordemos que SPSS y Minitab nos proporcionan automáticamente la significancia  de F.    ¿Qué es la regresión múltiple?  Es un método para analizar el efecto de dos o más variables independientes sobre una  dependiente.  Asimismo,  constituye  una  extensión  de  la  regresión  lineal  sólo  que  con  mayor número de variables independientes. Es decir, sirve para predecir el valor de una  variable  dependiente,  cuando  se  conoce  el  valor  y  la  influencia  de  las  variables  independientes  incluidas  en  el  análisis.  Si  queremos  conocer  el  efecto  que  ejercen  las  variables: a) satisfacción sobre los ingresos percibidos, b) antigüedad en la empresa, c)  motivación  intrínseca  en  el  trabajo  y  d)  percepción  del  crecimiento  y  desarrollo  personal  en  el  trabajo;  sobre  la  variable  “permanencia  en  la  empresa”  (duración  o  estancia),  el  modelo  de  regresión  múltiple  es  el  adecuado  para  aplicarlo  a  los  datos  obtenidos. Otro ejemplo sería el siguiente:     
  • 33. VARIABLES INDEPENDIENTES      VARIABLE  DEPENDIENTE  Diseño de estrategias de    cooperación entre maestros para la    enseñanza en las clases.        Grado de utilización de la  tecnología computacional en el    aula.    Desempeño escolar   de los alumnos    Grado de involucramiento de los    padres en las estrategias de  enseñanza.        Grado de cooperación y trabajo en    equipo por parte de los alumnos  para realizar las tareas.      Figura 8.9 Esquema de un modelo con una variable dependiente y varias independientes,  donde se conoce el efecto de cada una de éstas      Es decir, el modelo de regresión múltiple nos indica:  • La relación entre cada variable independiente y la única dependiente (cómo cambios  en la independiente se vinculan con cambios en la dependiente).  • La relación entre todas las variables independientes (en conjunto) y la dependiente  (cómo cambios en las independientes se vinculan con cambios en la dependiente).  • La predicción de la dependiente a partir de las independientes.  • La correlación entre las variables independientes (colinealidad).  Las  variables  independientes  se  denominan  “predictoras”4  y  anteceden  temporalmente a la variable dependiente o criterio.  La  información  básica  que  proporciona  la  regresión  múltiple  es  el  coeficiente  de  correlación múltiple (R) y la ecuación de regresión.                                                                               4 Término anglosajón.   
  • 34. Coeficiente  de  correlación  múltiple  (R).  Señala  la  correlación  entre  la  variable  dependiente y todas las variables independientes tomadas en conjunto.  El coeficiente puede variar de cero a uno; cuanto más alto sea su valor, las variables  independientes  estarán  más  correlacionadas  con  la  variable  dependiente  y  explicarán  en  mayor  medida  sus  fluctuaciones  (varianza);  en  consecuencia,  son  factores  más  efectivos para predecir el comportamiento de esta última.   En el capítulo 10 del libro, se comentó el coeficiente de correlación de Pearson y se  mencionó que cuando el coeficiente r se eleva al cuadrado (r2), se obtiene el coeficiente  de  determinación  y  el  resultado  indica  la  varianza  de  factores  comunes,  esto  es,  el  porcentaje de la variación de una variable debido a la variación de la otra y viceversa (o  cuánto explica o determina una variable la variación de la otra). Pues bien, algo similar  ocurre con el coeficiente de correlación múltiple, solamente que tenemos más variables  a considerar. Cuando el  coeficiente R  se  eleva al cuadrado  (R2), se  produce  el  llamado  coeficiente de determinación o correlación parcial, que nos señala la varianza explicada  de  la  variable  dependiente  por  todas  las  independientes  (dicho  de  otra  forma,  el  porcentaje de variación en la dependiente es debido a las independientes consideradas).  Veámoslo gráficamente en la figura 8.10 con dos independientes y una dependiente,  a fin de que resulte menos complejo de entender.          Variable independiente  Variable  1  independiente 2              R2 (expresa en    porcentaje la varianza  Variable  compartida por las tres    dependiente   variables)        Figura 8.10     Esquema de un coeficiente de determinación o correlación parcial   
  • 35. Este  coeficiente  (R2)  resulta  útil  también  para  determinar  la  cantidad  de  varianza  que  una  variable  interviniente  explica  tanto  de  la  variable  independiente  como  de  la  dependiente, de este modo, se puede remover la varianza compartida de la interviniente  con la variable independiente o la dependiente (Creswell, 2005; Sengupta, 2009), que es  algo similar a lo que se efectúa con el análisis de covarianza.   Tal sería el caso de una relación del siguiente tipo:        Autoestima del estudiante  relación negativa   Consumo de estupefacientes  (independiente)  (dependiente)      Reforzamiento de los    valores del estudiante    por parte de sus tutores  (interviniente)  relación negativa         Figura 8.11 Ejemplo del coeficiente de determinación (correlación parcial)    Si resumimos lo visto en el capítulo 10 del libro sobre correlación y regresión lineal  y lo expuesto hasta aquí, tenemos los coeficientes que se resumen en la tabla 8.5.      Tabla 8.5 Resumen de coeficientes de correlación bivariada y múltiple  Coeficiente  Símbolo  Información producida  Pearson  Grado  de  asociación  entre  dos  variables  r  (oscila entre 0 y 1).  Coeficiente de  Varianza de factores comunes (porcentaje  r2  determinación   de la variación de una variable debido a la  variación  de  la  otra  variable  y  viceversa).  Oscila entre 0 y 100%.  Múltiple  Correlación entre la variable dependiente  R   
  • 36. y  todas  las  variables  independientes  tomadas en conjunto. Oscila entre 0 y 1.  Determinación  Varianza  explicada  de  la  dependiente  por  R2  (correlación parcial)  todas  las  independientes.  Oscila  entre   0 y 100%.    Otra  información  relevante  producida  por  el  análisis  de  regresión  múltiple  son  los  valores  “beta”  (β  o  b)  que  indican  el  peso  o  la  influencia  que  tiene  cada  variable  independiente  sobre  la  dependiente,  al  controlar  la  varianza  de  todas  las  demás  independientes.  Cada  peso  beta  es  un  coeficiente  que  señala  la  magnitud  de  la  predicción  de  una  variable  independiente  para  una  variable  dependiente  (criterio),  después  de  remover  los  efectos  de  todas  las  demás  independientes.  Los  valores  beta  están estandarizados, es decir, no importa que cada variable predictora esté medida en  una  escala  diferente  (como  ocurría  con  las  puntuaciones  z)  y  se  interpretan  como  el  coeficiente de Pearson, de – 1.00 a + 1.00 (Creswell, 2005).  También  el  análisis  proporciona  coeficientes  de  correlación  bivariados  entre  la  dependiente y cada independiente (Shaw, 2009).  Para predecir valores de la variable dependiente se aplica la ecuación de regresión  múltiple:    y = a + b1X1 + b2X2 + b3X3 + … bkXk    Donde a es una constante de regresión para el conjunto de puntuaciones obtenidas,  b1, b2, b3,…bk son los pesos “beta” de las variables independientes. Mientras que X1, X2,  X3 y …Xk son valores de las variables independientes que fija el investigador para hacer  la predicción.  La  variable  dependiente  debe  estar  medida  en  un  nivel  por  intervalos  o  de  razón.  Las independientes, en cualquier nivel de medición (el modelo estandariza mediciones).  Cuando  se  utilizan  variables  categóricas  (nominales  u  ordinales,  como  género,  grupo  étnico,  nivel  jerárquico,  etc.)  se  transforman  en  variables  “dummy”  y  se  introducen  al  modelo  como  predictores.  Los  códigos  dummy  son  series  de  números  asignados  para   
  • 37. indicar  la  pertenencia  a  un  grupo  en  cualquier  categoría  exhaustiva  y  mutuamente  excluyente.  De  acuerdo  con  Mertens  (2005),  la  cantidad  de  varianza  que  cada  independiente  aporta  para  la  variable  dependiente  puede  tener  cambios  con  diferentes  órdenes  de  entrada de las variables independientes. Al respecto no hay reglas, se usa la lógica del  investigador o criterios como los siguientes:    - Ingresar  las  variables  de  acuerdo  con  la  fuerza  de  su  correlación  con  la  variable dependiente, de la más alta a la más baja.  - Seguir el orden en que se han introducido en estudios previos.  - Proceder de acuerdo con la teoría.  - Orden  cronológico  (tiempo  en  que  se  introducen  las  variables  en  un  experimento  o  al  medirse,  si  es  que  su  medición  fue  por  etapas,  de  la  primera a la última).    Los  resultados  más  relevantes  que  produce  SPSS  sobre  la  regresión  múltiple  se  muestran en las tablas 8.6, 8.7 y en la figura 8.12, que corresponden a un estudio para  predecir  el  clima  laboral  (criterio  o  dependiente)  sobre  la  base  de  las  siguientes  variables independientes (Hernández Sampieri, 2005):      • Normalización (formalización de políticas en documentos).  • Avance  del  proceso  de  calidad  en  el  departamento  (un  nuevo  esquema  de  trabajo introducido en el 2004).  • Innovación departamental.   • Identificación  del  trabajo  individual  en  los  resultados  generales  de  la  organización.  • Comunicación  (percepción  del  grado  en  que  la  información  relevante  de  la  empresa les es transmitida a los empleados de su departamento).  • Desempeño (índice de productividad del empleado).   • Motivación general.  • Antigüedad en la empresa (en meses).    
  • 38. Satisfacción general en el trabajo.   • Liderazgo (percepción del superior inmediato como líder).  • Cultura (arraigo de la cultura organizacional definida por la dirección de la  empresa).  • Pago (salario).     Primero. Se presentan las variables introducidas en el modelo de regresión:    Tabla 8.6 Variables introducidas en el ejemplo de regresión múltiple  Variables introducidas /eliminadas  Modelo  Variables  Variables  Método (b)  introducidas (a)  eliminadas    Pago      Innovación    Antigüedad    Motivación    Normalización    Proceso de calidad  Introducir  Cultura  Identificación  Desempeño  Liderazgo  Satisfacción  Comunicación  a. Todas las variables solicitadas introducidas  b. Variable dependiente: clima    Segundo.  Se  presentan  resultados  de  varianzas  (ANOVA),  los  cuales  omitimos,  y  los  coeficientes beta y estadísticas de colinealidad (tabla 8.7).           
  • 39. Hora  Nombre del participante  Condición experimental  Codificador  Fecha  Categoría  Subcategoría  0’  10’’  20’’  30’’  40’’  50’’  1’  10’’  20’’  30’’  40’’  50’’  2’  10’’  20’’  30’’  40’’  50’’  3’  Distancia  Alejamiento (0)                                        física  Acercamiento (2)                                        Estático (1)                                        Movimientos  Tensión (0)                                        corporales  Relajación (2)                                         Ninguno (1)                                        Conducta  Al sujeto (1)                                        visual    A otra parte (0)                                        Conducta  F. completas (1)                                        verbal  F. dicótomas (0)                                        Silencios (0)                                        Nota: Se agregaron las subcategorías “estático” en la categoría “distancia física” y “ninguno” en la categoría “movimientos corporales”.      Figura 7.11 Primer ejemplo de un formato de registro o codificación      66
  • 40.     Figura 7.12 Segundo ejemplo de un formato de registro o codificación    El ejemplo de la figura   7.12  es  un  formato  para  registrar  conductas  inapropiadas  en  la  clase  y  analizar  cuáles  son  las  que  se  presentan  con  mayor  frecuencia  y  el  número  de  estudiantes  involucrados (Creswell, 2005).   Los  números  (columnas)  representan  episodios  de  conducta  inapropiada  en  la  clase  (cada  vez  que  ocurre).  Se  coloca  en  la  fila  “CI”  (conducta  inapropiada)  la  letra  inicial de la conducta (ejemplo: O, ofensa verbal; H, hablar en clase…), y “1” si son otras.  Asimismo, en la fila “N” se indica el número de estudiantes involucrados en el episodio.  67
  • 41. La  hoja  de  codificación,  formato  o  guía  debe  acompañarse  de  las  instrucciones  para  su  llenado  o  registros  y  la  mención  de  las  unidades  de  observación,  así  como  el  tiempo  que  durará  ésta.  Debe  evitarse  un  instrumento  que  sea  tan  complejo  que  sea  difícil de codificar y utilizarse en la realidad.    7.  Determinar  el  papel  de  los  observadores.  ¿Qué  tan  cercanos  deben  estar  el  observador  y  los  observados?  A  este  respecto  mucho  se  ha  escrito  y  los  roles  varían desde una distancia prudentemente lejana, hasta una cercanía completa.  Anastas  (2005)  y  también  Polster  y  Collins  (2007)  plantean  dos  roles  fundamentales de la relación observador‐observados: a) participante (donde hay  relación  entre  el  observador  y  las  personas  observadas)  y  b)  no  participante  (la  relación es mínima —simplemente por el hecho de que los individuos saben que  están siendo observados— o puede ser nula, si los individuos no saben que están  siendo observados).  La  ética  de  la  investigación  marca  que  siempre  que  va  a  observarse  a  un  ser  humano,  se  debe  obtener  su  consentimiento;  asimismo,  no  se  deben  invadir  sus  esferas privadas (baños, recámaras, etc.). Anastas (2005) está de acuerdo con esta  consideración,  aunque  marca  una  excepción:  cuando  se  observan  conductas  inocuas que pudieran ocurrir de manera natural en situaciones públicas y cuando  las personas observadas no son identificadas o afectadas por los observadores. En  última instancia, si el investigador busca evitar la “reactividad” en el proceso (que  la  presencia  de  los  observadores  provoque  reacciones  poco  o  nada  naturales  en  los participantes), una vez que se efectúan las observaciones, debe solicitársele a  cada sujeto su autorización, mantener su nombre en el anonimato, nunca mostrar  las filmaciones o registros y respetar su negativa, si es el caso.  Jorgensen  (1989)  sugiere  tres  actuaciones:  a)  participante  activo,  el  observador  interactúa  plenamente  con  los  observados,  tiene  un  papel  de  miembro, es uno más de ellos (por ejemplo, si se trata de observar el compromiso  de trabajadores en los grupos de calidad, el observador es un miembro del grupo  con  funciones  específicas),  b)  participante  privilegiado,  no  es  un  miembro  del  grupo,  pero  tiene  acceso  a  información  amplia  y  privada,  los  observados  lo  conocen y le tienen confianza y c) observador limitado, no tiene más que el papel  68
  • 42. de  observador  externo.  Rogers  y  Bouey  (2005)  los  clasifican  en  el  siguiente  continuo:      Participante completo:  Participante  Observador  Observador  total interacción, su  observador: su rol  participante: su rol  completo: nula    primario es participar,  primario es observar,  participación, se  rol primario es  participar y generar la  pero casi a la par  aunque tiene ciertas  limita a observar    interacción.  observa.  participaciones.      Patton (2001) sugiere que el observador debe ubicarse en varios continuos para  establecer su papel (que es una ubicación aproximada y no exacta):      Sin  que  de  ninguna  manera  sea  una  norma,  cuando  la  observación  cuantitativa trabaja con personas, regularmente es no participante, encubierta o  69
  • 43. intermedia, de corta estancia y enfocada. Mientras que la observación cualitativa  es participante, abierta, prolongada y general.  8.  Seleccionar  a  los  observadores­codificadores.  Puesto  que  son  las  personas  que  habrán  de  codificar  la  conducta,  deben  conocer  las  variables,  categorías  y  subcategorías. Las habilidades más importantes de un buen observador son:    • Selectividad para registrar lo que observa, de acuerdo con reglas.  • Uso  de  todos  los  sentidos,  particularmente  ante  lo  que  no  se  esperaba  encontrar.  • Capacidad  para  seguir  el  sistema  de  registro  que  involucra  el  procesamiento de información.    9. Proporcionar  entrenamiento  a  observadores­codificadores  (en  las  variables,  categorías, subcategorías, unidades de análisis y el procedimiento para codificar,  así como sobre las diferentes maneras como puede manifestarse una categoría o  subcategoría  de  conducta).  Debido  a  que,  en  algún  grado,  la  observación  involucra  hacer  juicios,  el  entrenamiento  debe  apoyar  la  estandarización  de  procedimientos y, por ende, la objetividad.  10. Efectuar  la  prueba  piloto  y  calcular  la  confiabilidad  de  los  observadores  (intraobservador  e  interobservadores).  En  la  prueba  piloto  se  evalúa  todo  lo  relativo  al  proceso  de  observación.  Desde  la  iluminación  en  el  ambiente  (ejemplo, cámara de Gesell), el sonido y los equipos de filmación; hasta el lugar  donde se coloquen los observadores, las instrucciones y la guía de observación o  registro.  Gracias  a  la  prueba  piloto  nos  podemos  dar  cuenta  de  problemas  potenciales y corregirlos (por ejemplo, si vamos a observar conductas agresivas  en niños y nada más hemos trabajado con adultos, nos percataremos de que la  agresión no se manifiesta igual en adultos que en niños o adolescentes. De este  modo,  durante  la  prueba  piloto  podemos  registrar  comportamientos  agresivos  no  contemplados,  que  se  agregarán  como  subcategorías  en  el  instrumento  de  observación  definitivo).  Esto  se  hace  con  una  muestra  del  repertorio  de  conductas o actos a considerar. Con respecto a la confiabilidad, recordemos que  debe  demostrarse  y  no  asumirse  y  se  determina  para  evaluar  si  los  70
  • 44. observadores  están  registrando  coherentemente  (confiabilidad  individual)  y  si  están  registrando  entre  sí  de  manera  similar  los  mismos  eventos  o  conductas  (confiabilidad  interobservadores).  Los  procedimientos  y  las  fórmulas  pueden  ser  las  mismas  que  las  vistas  en  el  apartado  sobre  el  análisis  de  contenido;  lo  único que cambia es la palabra “codificadores”, “codificación”, “codificadas”, por  “observadores”, “observación”, “observadas”. Por ejemplo:            Haynes  (1978,  p.  160)  proporciona  otra  fórmula  para  calcular  la  confiabilidad entre observadores o el grado de acuerdo interobservadores (Ao).        Donde  Ia  es  el  número  total  de  acuerdos  entre  observadores,  e  Id  es  el  número total de desacuerdos entre observadores. Un “acuerdo” se define como la  codificación  de  una  unidad  de  análisis  en  una  misma  categoría  por  distintos  observadores. Se interpreta como cualquier coeficiente de confiabilidad (0 a l).  Es  muy  importante  al  establecer  la  confiabilidad,  evitar  que  los  observadores  “copien”  o  vean  el  trabajo  de  sus  compañeros,  ya  que  esto  puede  ocurrir.  Anastas  (2005)  y  Grinnell,  Williams  y  Unrau  (2009)  consideran  como  una  confiabilidad  interobservadores  mínima  aceptable  0.85  u  85%.  Si  se  elige  un  instrumento  ya  desarrollado,  al  igual  que  en  otros  métodos  de  medición,  debe  demostrarse  que  en  los  estudios  donde  se  aplicó  resultó  válido  y  confiable,  y  adaptarse a las condiciones de nuestra investigación.  71
  • 45. Para  establecer  la  validez  de  contenido,  se  analiza  el  dominio  de  nuestras  categorías  y  subcategorías  contra  el  universo  de  posibles  conductas  que  pueden  manifestarse. La validez de criterio muchas veces se establece usando otra técnica  (por  ejemplo,  la  hostilidad,  que  se  infiere  de  observar  actos  agresivos,  puede  validarse mediante una escala que mida tal variable).    2. Llevar a cabo la codificación por observación.  3. Vaciar los datos de las hojas o formatos de codificación y obtener totales para cada  categoría.  4. Realizar los análisis apropiados.  CODIFICACIÓN EN EL ANÁLISIS DE CONTENIDO Y LA OBSERVACIÓN   Una vez recolectados los datos del análisis de contenido y/o la observación, también  éstos deben codificarse, es decir, asignar códigos (generalmente numéricos) a las  categorías y/o subcategorías. Por ejemplo, en el caso del estudio de Naves y Poplawsky  (1984), la codificación es la que se muestra en la tabla 7.10 (que corresponde al primer  ejemplo de un formato de registro o codificación, figura 7. 11).    Tabla 7.10 Ejemplo de codificación en el caso del estudio de Naves y Poplawsky      Variable  Categorías  Subcategorías  Códigos  Columnas  – Tratamiento  – Grupo cultural    1  1  experimental  – Grupo sociopsicológico    2    – Conducta    – Distancia física  – Alejamiento   0    2    – Acercamiento   2        – Estático   1              – Movimientos corporales  – Tensión  0  3      – Relajación   2        – Ninguno   1    – Codificador          – Conducta visual  – Al sujeto    1  4    – A otra parte  0    – Conducta verbal  – Frases completas  1  5    – Frases dicótomas o  0      silencios      72
  • 46.         – LRE  ―  1  6  – MRM    2    – APY  3  Desde luego, Naves y Poplawsky (1984) para las categorías de “conducta de evitación” obtenían esta  codificación cada 10 segundos (cada unidad de análisis), y sumaban el número de 2 (dos) y 1 (uno) y  lo transformaban en porcentaje. Aquí suponemos que toda la interacción con el supuesto deficiente  mental puede categorizarse y subcategorizarse. Recordemos que eran 30 participantes.    Y la matriz de SPSS o equivalente sería la de la figura 7.13 (desde luego, solamente  se incluyen 10 casos a manera de ejemplo).        Figura 7.13 Matriz o vista de los datos para la codificación de la tabla 7.10 (Naves y  Poplawsky)      RECOPILACIÓN Y ANÁLISIS DE DATOS SECUNDARIOS    La  recopilación  y  análisis  de  datos  secundarios  se  fundamenta  en  información  disponible  recolectada  por  otras  personas  distintas  al  investigador.  Esta  técnica  para  recabar los datos puede subdividirse en: a) datos estadísticos provenientes de fuentes  oficiales y b) datos para metaanálisis. En ambos casos se acude a bases de información  que pueden encontrarse en una o varias fuentes y que son útiles para los propósitos del  estudio.  La  diferencia  entre  estos  dos  tipos  estriba  en  que  los  primeros  recogen  73
  • 47. estadísticas  (tasas  de  defunción  o  mortalidad  y  nacimiento,  número  de  hectáreas  de  riego, cifras de egreso en los distintos niveles del sistema escolar, número de camas de  los  hospitales,  número  de  monumentos  históricos,  producto  interno  bruto,  número  de  instalaciones  deportivas  y  clases,  así  como  número  de  cada  una  y  tamaño  en  metros  cuadrados, extensión de la red de alcantarillado, índice de inflación, monto de la deuda  externa pública y privada, etc.). En cambio, el metaanálisis recopila estudios efectuados  por otros sobre el planteamiento del problema, los evalúa y puede volver a analizar sus  datos  e  integrarlos  en  una  base  mayor  de  información;  o  bien,  adicionarlos  y  compararlos.   Krysik (2005) considera tres tipos de datos secundarios: datos obtenidos del nivel  “micro”, datos agregados y datos cualitativos micro.    a)   Datos  obtenidos  del  nivel  “micro”:  derivados  de  unidades  de  análisis  individuales  como  personas,  organizaciones  u  hogares  (número  de  habitantes  por  vivienda,  número  de  trabajadores  de  la  empresa,  preferencias  electorales,  satisfacción  laboral de los trabajadores, etc.). La mayoría de las veces los datos se recolectan  por medio de encuestas. Por ejemplo, los censos económicos (vistos en el capítulo  de encuestas o surveys de este CD) generan esta clase de datos, al igual que los de  población.       La  encuesta  nacional  de  adicciones  (implementada  anualmente  en  varios  países  latinoamericanos)  es  otro  caso  y  recolecta  —entre  otros  datos—  los  siguientes:1    1. Personas económicamente activas en el sistema familiar.  2. Distribución del tiempo libre del estudiante.  3. Convivencia del alumno en el hogar (padres y otros parientes).   4. Estructura del sistema matrimonial de los tutores del estudiante (padres  casados, divorciados, separados, etcétera).  5. Ocupación de las personas económicamente activas en el hogar.   6. Persona(s)  con  quien(es)  los  estudiantes  se  comunican  más  dentro  del  hogar.  1  Por ejemplo, en México la publica periódicamente el Consejo Nacional Contra las Adicciones (CONADIC).  74
  • 48. 7. Actividades  deportivas  del  estudiante  (tipos  y  periodicidad  de  cada  actividad deportiva, tiempos de dedicación, entre otros).  8. Conducta  de  fumar  (inicio,  frecuencia  de  la  conducta  de  fumar,  consumo  diario de cigarrillos).  9. Ingesta de alcohol (inicio, periodicidad, consumo semanal).  10. Percepción  proyectiva  del  consumo  de  estupefacientes  o  drogas  ilegales  (se  responde  a  la  pregunta:  ¿A  cuántos  de  tus  compañeros  de  escuela  has  visto consumir droga?, ¿a cuántos de tus amigos, fuera de la escuela?).  11. Conocimiento del tipo de droga que se consume (cuestionamiento: Señala  la droga que sabes consumen en este plantel… Señala la droga que sabes se  consume en tu vecindario…).  12. Preferencia  de  consumo  en  el  entorno  inmediato  por  tipo  de  estupefaciente (fuera de la escuela).  13. Percepción  del  encuestado  respecto  de  si  es  un  problema  el  consumo  de  estupefacientes.  14. Percepción  respecto  de  si  se  pueden  conseguir  las  drogas  o  estupefacientes dentro de la escuela.  15. Percepción  respecto  de  si  se  consume  droga  o  sustancias  ilegales  dentro  de la escuela.  16. Percepción respecto de si el consumo de estupefacientes es un problema  en su entorno externo.  17. Preferencia de consumo por tipo de estupefaciente en la escuela.  18. Actitud ante el consumo de estupefacientes por una amistad.  19. Manifestación de haber consumido algún estupefaciente.  20. Edad de inicio de consumo.  21. Figura que invitó a experimentar el consumo.  22. Tipo de estupefaciente o droga consumida por primera vez.   23. Consumo de diferentes clases de estupefacientes.  24. Preferencia individual de consumo por tipo de estupefaciente.  25. Periodicidad del consumo.  26. Motivo(s) del consumo.  75
  • 49. 27. Acciones  recomendadas  por  los  encuestados  para  reducir  el  consumo,  evitarlo o prevenirlo.  28. Conciencia del consumo de estupefaciente.  29. Fuente más impactante de conocimiento del problema social que implica  el consumo de estupefacientes.  30. Comentarios abiertos (cualitativo).    Pero el investigador, aunque no generó estos datos, tiene acceso directo a ellos (a  la  información  individual  y  original;  a  los  cuestionarios,  registros,  etc.)  y,  por  lo  tanto,  los  puede  volver  a  analizar  (incluso  a  veces  puede  identificar  a  los  encuestados  o  sus  perfiles).    b)  Datos  agregados:  Consisten  en  datos  individuales  que  ya  se  han  procesado  y  conjuntado  con  otros  en  cifras  estadísticas,  tablas  o  cuadros.  En  éstos,  las  características  de  las  unidades  de  análisis  no  pueden  ser  identificadas  (por  ejemplo:  el  investigador  recibe  el  dato  sobre  el  promedio  de  satisfacción  laboral  en una escala o la tasa de desempleo y obviamente no puede reanalizar los datos,  sólo utilizarlos para los fines que convengan).    Estos datos se pueden obtener de:    1.   Oficinas y agencias gubernamentales y oficiales (Ministerio de Educación,  Ciencia  y  Tecnología  de  Argentina;  Ministerio  de  Educación  y  Ciencia  de  España;  Dirección  de  Impuestos  y  Aduanas  Nacionales  de  Colombia;  Instituto  Nacional  de  Estadística  de  Bolivia;  Ministerio  de  Industria,  Turismo,  Integración  y  Negociaciones  de  Perú;  Banco  Central  de  Venezuela; etcétera).  2.   Organizaciones  privadas  (Cámara  de  Comercio  de  Santiago  de  Chile,  Consejo  de  Fundaciones  Privadas  de  Guatemala,  Fundación  Cultural  Española para el Fomento de la Artesanía, Centro de Estudios Económicos  del Sector Privado en México, Fundación Ford, entre otras).  Algunas  bases  de  datos  privadas  contienen  archivos  periodísticos,  como  por  ejemplo:  U.S.  News  Archives  on  the  Web  (periódicos  en  Estados  76
  • 50. Unidos), Reuters y Europrensa (Universidad Complutense de Madrid), etc.  Los  periódicos  más  importantes  del  mundo  generalmente  poseen  su  propia base de datos.  3.   Organizaciones  no  gubernamentales  (Agencia  de  Cooperación  en  Ingeniería  Ambiental  o  ACIA,  Pro  Amazonia  "Selva  Para  la  Vida",  Alianza  Cívica  en  México,  Red  2002  de  Barcelona  para  el  apoyo  de  enfermos  de  SIDA, y otras).  4.   Organizaciones internacionales (Comisión Económica para América Latina  y  el  Caribe;  Organización  de  las  Naciones  Unidas  para  la  Educación,  la  Ciencia  y  la  Cultura,  UNESCO;  Organización  Mundial  de  la  Salud,  OMS;  Fondo de las Naciones Unidas para la Infancia, UNICEF; Fondo Monetario  Internacional, FMI; etcétera).    Las  primeras  tres  fuentes  genéricas  varían  en  cada  país,  por  lo  que  resultaría  impráctico  intentar  mencionarlas.  Por  ello,  cada  estudiante  o  profesor  debe  tener  en  mente  cuáles  son  y  qué  tipo  de  información  pueden  proporcionar.2  De los datos resulta fundamental conocer:3      El nombre y la filiación institucional de quien recolectó los datos.   El periodo de recopilación de los datos.   La muestra (método de selección, tamaño, características…).   El método de recolección de los datos, incluyendo el  instrumento, procedimiento, confiabilidad y validez, etcétera.   Localización (disponibilidad).    Y de ser posible:     Procedimientos de codificación.   Análisis practicados.   Sugerencias para el análisis.  2     Para  el  caso  de  España  recomendamos  a  Berganza  y  García  (2005)  y  a  Corbetta  (2003)  y  la  siguiente  página  web:  http://www.typicallyspanish.com/html/castellano/sociedad/gobierno/organizaciones_no_gubernament a  les/.  Para  las  organizaciones  no  gubernamentales  latinoamericanas,  por  ejemplo,  en  el  caso  del  medio  ambiente,  la  siguiente  dirección  en  internet  incluye  una  gran  cantidad  de  ellas:  http://www.ecoportal.net/content/view/  full/158  3   Aplica también a los datos “micro”.  77
  • 51.   c)   Datos  cualitativos  micro:  producidos  por  una  persona  y  recabados  por  otra.  Al  investigador  le  llega  el  dato  (cartas  recopiladas  por  otros,  transcripciones  de  entrevistas  hechas  por  psicólogos,  grabaciones  de  las  llamadas  de  pasajeros  que  iban  en  los  aviones  secuestrados  por  terroristas  en  los  atentados  a  las  torres  gemelas del World Trade Center en Nueva York, etc.). Tales datos pueden volver a  ser analizados por el investigador.  Las ventajas de los datos secundarios residen en que su costo es generalmente  el más barato de todos los métodos de recolección y a veces son la única opción  para  el  investigador  (Smith,  2008;  Sieppert,  McMurtry  y  McClelland,  2005),  además  pueden  replicarse  estudios  con  base  en  ellos.  Gran  cantidad  de  datos  secundarios  se  localiza  mediante  internet.  Sus  desventajas  potenciales  consisten  en  que  a  veces  no  son  accesibles,  no  están  estandarizados,  pueden  haberse  omitido variables importantes para nuestro estudio y es factible que den una falsa  impresión de ciertos subgrupos (los promedios de ingreso nacional per cápita, por  ejemplo, suelen resultar engañosos).    El proceso para utilizar datos secundarios en una investigación se resume en la  figura 7.14, adaptado de Sieppert et al. (2005) y Krysik (2005).        78
  • 52. Analizar la relación entre el  planteamiento del problema y  Evaluar la calidad de los datos:  los datos secundarios:       ‐ Muestra  ‐ ¿Son pertinentes para el  ‐ Confiabilidad  estudio?  ‐ Validez  ‐ ¿Representan  ‐ Método de recolección  adecuadamente una  ‐ Fuente de origen  operacionalización de nuestras    variables?  En el caso de datos    estadísticos, verificarlos  Preparar los datos para su  preferentemente en al menos  análisis.  dos fuentes confiables  (validación cruzada).      Figura 7.14 Proceso esencial para utilizar datos secundarios      Para el manejo de archivos se recomienda consultar a Webb, Campbell y Schwartz  (2000).  El metaanálisis  Esta  clase  de  procedimiento  de  recolección  y  análisis  de  los  datos  implica  sintetizar  resultados  de  investigación  por  medio  de  un  número  de  estudios  que  consideran  el  mismo planteamiento y variables (Wiersma y Jurs, 2008).   Los  pasos  de  un  metaanálisis  son  muy  similares  a  los  de  otros  estudios,  con  la  salvedad  de  que  ahora  la  unidad  de  análisis  ya  no  es  el  participante  o  caso,  sino  la  investigación realizada por otro(s) investigador(es). El reto es resumir los datos a partir  de los diferentes estudios de manera muy bien estructurada, que evite errores y facilite  su ulterior análisis.   Cabe señalar que el metaanálisis será más preciso entre más homogéneos sean los  estudios que se consideran, en cuanto a la pregunta de investigación, variables, método,  instrumentos de medición y análisis estadístico. Por lo tanto, el primer paso consiste en  ponderar si es posible combinarlos (nos referimos únicamente a estudios cuantitativos).  79
  • 53. Tal  consideración  nos  puede  llevar  a  un  sinfín  de  opciones,  desde  descubrir  que  hay  varios  estudios  que  son  totalmente  compatibles  y  pueden  mezclarse,  hasta  contrastar,  aquellos que sólo tienen un ítem en sus cuestionarios que nos sea de utilidad.  Existen  diferentes  propuestas  para  conjuntar  estadísticamente  los  resultados  de  distintos  estudios,  destacan  tres  fundamentalmente,  que  se  conocen  con  el  nombre  de  modelo de efectos fijos, modelo de efectos aleatorios y, por último, el modelo bayesiano  (Molinero, 2003).  En  el  modelo  de  efectos  fijos,  los  estudios  se  combinan  y  se  asume  que  no  existe  heterogeneidad  entre  ellos,  que  por  lo  tanto  todos  constituyen  estimaciones  de  un  efecto  real,  cuya  magnitud  se  desea  conocer.  Así  pues,  la  inferencia  realizada    se  condiciona a los estudios efectuados.     En  el  modelo  de  efectos  aleatorios  la  inferencia  se  fundamenta  en  suponer  que  los  estudios  incluidos  en  el  análisis  constituyen  una  muestra  aleatoria  del  universo  de  estudios  posibles,  y  sus  resultados  son  más  conservadores  al  tener  en  cuenta  una  fuente  extra  de  variación,  ya  que  se  incluyen  dos  fuentes  de  variación  potenciales:  la  existente dentro de los estudios y la variación entre los estudios (Molinero, 2003, p. 3).    La utilización de modelos bayesianos requiere de modelos estadísticos complejos  de varianza.  El  metaanálisis  constituye  un  intento  de  resolver  contradicciones  entre  los  resultados  de  diferentes  investigaciones  y  evaluar  patrones  comunes  en  distintos  estudios. Es un método sumamente importante para generar teoría.  Como  todo  método  inferencial,  tiene  sus  problemas  y  limitaciones.  Uno  de  los  principales  problemas  es  que  al  ser  un  estudio  que  generalmente  se  ejecuta  de  forma  retrospectiva,  tiene  una  posibilidad  mayor  de  introducir  sesgos  (error  sistemático).  Otros  retos  son  los  que  se  derivan  del  procedimiento  de  combinar  datos  de  múltiples  estudios,  entre  los  cuales  pudiera  haber  diferencias  en  cuanto  a  método  y  muestreo  (Smith, 2008).  El  procedimiento  general  de  un  metaanálisis  es  similar  al  de  los  datos  secundarios, pero se agregan algunos elementos como el análisis mismo (figura 7.15).      80
  • 54. Evaluar si el  Definir los criterios de  Analizar la relación entre el  metaanálisis puede  selección de los estudios  planteamiento del problema y los  responder al  que deben ser incluidos  estudios:    planteamiento del  en el análisis (criterios de    problema    inclusión y exclusión)  ‐ ¿Son pertinentes los estudios para  la investigación planteada?    ‐ ¿Qué tan homogéneos o    heterogéneos resultan y en qué sí  pueden conjuntarse y en qué no?            a) Elegir los aspectos, dimensiones  y/o variables en las cuales van a    conjuntarse o compararse.  Preparar los  Seleccionar los estudios  b) Evaluar la calidad de los estudios:    datos para su  que habrán de incluirse  ‐ Muestra    análisis    ‐ Confiabilidad  ‐ Validez    ‐ Método de recolección    ‐ Fuente de origen      Otros parámetros: vea el último  Analizar los  capítulo del CD    datos          Figura 7.15 Proceso esencial del metaanálisis      Algunas recomendaciones para el metaanálisis las proporcionan Céspedes (1995)  y Harpe (2009):    1.  Seleccionar investigadores independientes que lean, clasifiquen, codifiquen,  cuantifiquen  y  finalmente  evalúen  y  elijan  el  grupo  de  estudios  que  serán  incluidos en el metaanálisis (MA).  2.   Elaborar  una  guía  de  los  datos  que  deben  ser  recolectados  de  los  estudios  escogidos para ser procesados en el MA.  3.   Combinar  los  resultados  obtenidos  y  asegurar  la  calidad  de  los  datos  y  su  procesamiento estadístico adecuado.  4.  Preferentemente utilizar datos provenientes de muestras aleatorias.  81
  • 55.   El  análisis  estadístico  general  para  el  modelo  de  efectos  fijos  (no  existe  hetero‐ geneidad,  hay  homogeneidad  o  las  investigaciones  que  se  estiman  muestran  un  efecto  uniforme,  debido  al  uso  de  un  mismo  tratamiento),  se  utiliza  el  método  de  Mantel‐ Haentzel‐Peto.              Si  los  estudios  son  heterogéneos  al  mostrar  el  efecto  ante  un  tratamiento  (modelo  de  efectos  aleatorios),  se  utiliza  el  método  de  Cochran‐Dersimonian‐Laird  (Céspedes, 1995).  En  general,  se  obtiene  para  las  estadísticas  calculadas,  el  tamaño  del  efecto  (Nugent, 2009, Wiersma y Jurs, 2008, y Glass, 1976), el cual se revisó en el capítulo 10  del libro. Recordamos que es una medida de la “fuerza” de la diferencia de las medias u  otros  valores  considerados  (Creswell,  2005).  Resulta  ser  una  medida  en  unidades  de  desviación estándar. Su cálculo fue ejemplificado con la prueba t.  Existen diversos programas computacionales para el metaanálisis, entre los cuales  se encuentran los siguientes:    ‐ Easy MA [M. Cucherat]. Lyon, France:   University of Lyon. http://www.spc.univ‐lyon1.fr/~mcu/easyma   ‐ RevMan®:  The  Cochrane  Collaboration’s  Review  Manager.  The  Cochrane  Collaboration: http://www.cc‐ims.net/RevMan    ‐ BUGS y WinBUGS: http://www.mrc‐bsu.cam.ac.uk/bugs   ‐ SAS®  (programa  ya  comentado,  en  su  página  existe  un  programa  para  metaanálisis). http://www.sas.com  ‐ STATA ®. http://www.stata.com  ‐ Meta Win: http://www.metawinsoft.com    Y  otros  muchos  que  puede  buscar  vía  disparador  (o  motor  de  búsqueda)  en  internet.  Recuerde  que  las  direcciones  electrónicas  pueden  cambiar  en  cualquier  momento.  82
  • 56. EJEMPLOS DE ESTUDIOS   BASADOS EN DATOS SECUNDARIOS  Shu‐li  et  al.  (2008)  efectuaron  una  investigación  para  desarrollar  un  modelo  que  predijera la permanencia de personas ancianas en su hogar (en lugar de acudir a asilos,  por  ejemplo),  utilizando  datos  secundarios  de  9 879  individuos  de  la  base  de  datos  pública de Estados Unidos: “The National Home and Hospice Care Survey 2000 (NHHCS  2000)”.  Descubrieron  que  el  principal  predictor  de  la  permanencia  es  que  la  persona  viva  con  familiares.  Asimismo,  Smith  (2009)  se  fundamentó  en  análisis  de  datos  secundarios para estudiar las inequidades en la educación británica, específicamente la  exclusión de escuelas.   Hernández  Sampieri  et  al.  (2008)  realizaron  un  estudio  de  mercado  utilizando  datos secundarios con la finalidad de indagar sobre la conveniencia de abrir clínicas de  cirugía estética y plástica en México. Buscando en diversas fuentes de internet, medios  impresos (revistas y diarios de circulación nacional) y bases de datos, lograron ubicar a  las principales clínicas que operaban a nivel nacional y en las regiones y ciudades más  pobladas  del  país  (Ciudad  de  México,  Monterrey,  Guadalajara,  Tijuana,  Puebla),  establecer  los  precios  de  sus  servicios,  determinar  el  mercado  potencial  y  sus  características  (por  ejemplo,  número  de  cirugías  que  se  practicaron  durante  el  último  año,  interés  por  practicarse  una  cirugía  plástica,  preocupación  por  la  estética  personal…), evaluar las apelaciones de su publicidad y otras cuestiones. Haber realizado  una encuesta hubiera sido más preciso, pero también más costoso, de tal modo que se  hizo una investigación de acuerdo con el presupuesto del inversionista español. Incluso  le  proveyeron  de  un  análisis  del  marco  jurídico  mexicano  para  abrir  y  operar  tales  clínicas.  Estudio para el diagnóstico municipal  En  las  anteriores  ediciones  de  esta  obra,  se  integraba  un  ejemplo  para  diagnosticar  y  caracterizar  a  un  municipio,  con  el  fin  último  de  elaborar  su  plan  de  desarrollo.  Regularmente  estos  diagnósticos  son  estudios  mixtos,  pero  una  parte  muy  importante  de  sus  insumos  lo  constituyen  los  datos  secundarios,  que  se  generan  con  base  en  indicadores, los cuales se han desarrollado por diferentes organizaciones dedicadas a la  83
  • 57. investigación  municipal  (por  ejemplo:  el  Instituto  Vasco  de  Estadística;  el  Centro  de  Investigación y Desarrollo Económico de México (CIDE); el Instituto de Estadística de la  Comunidad  de  Madrid;  el  Sistema  Nacional  de  Indicadores  Municipales  (SINIM)  de  la  Unidad  de  Información  Municipal  del  Gobierno  de  Chile;  el  Instituto  Nacional  de  Estadística,  Geografía  e  Informática  en  México  (INEGI);  el  Instituto  Brasileiro  de  Geografia e Estadística; el Sistema Nacional de Información Municipal, CEDEMUN, de la  Secretaría  de  Gobernación  de  México;  la  Federación  Nacional  de  Departamentos  de  Colombia; el Departamento de Estadística del Ayuntamiento de Barcelona; etcétera).   Algunos indicadores se aplican a cualquier municipio y son relevantes para todas  las entidades poblacionales (número de habitantes, ingreso per cápita, ingresos totales  del  municipio,  gasto  total  del  municipio,  inversión  total,  etc.),  mientras  que  otros  indicadores  resultan  importantes  sólo  para  ciertos  municipios  (por  ejemplo,  los  indicadores  relativos  a  la  producción  agrícola  son  irrelevantes  para  un  municipio  completamente  urbano).  Por  ello,  en  cada  diagnóstico  municipal  deben  elegirse  los  indicadores (datos secundarios) significativos para la entidad en cuestión.  También, cada provincia, departamento, región o estado genera indicadores a su  nivel; lo mismo que las naciones.  En  este  CD:  Material  complementario→    Documentos→  Documento  1:  “Indicadores”,  se  incluyen  ejemplos  de  indicadores  secundarios  municipales  que  pudieran  recolectarse  para  un  diagnóstico  de  un  municipio,  con  el  fin  de  que  los  estudiantes  que  apenas  comienzan  en  estos  menesteres  de  la  metodología  de  la  investigación  los  puedan  comprender  sin  mayores  complicaciones  (se  cubren  unas  cuantas áreas, pero desde luego, no en su totalidad ni mucho menos). No son los únicos,  ya  que  hay  miles  de  ellos.  Están  agrupados  por  áreas  generales  (las  cuales  también  pueden  fluctuar  según  el  autor  u  otros  criterios).  Determinados  indicadores  pueden  formar  parte  de  dos  o  más  áreas.  Sin  polemizar  (porque  cuando  se  sopesan  pueden  generar  discusiones  severas),  se  presentan  a  continuación  como  muestras  de  datos  secundarios  y  fueron  en  particular  desarrollados  para  un  municipio  del  Estado  de  México, México. Sería interesante como ejercicio que en cada institución se propusieran  los que serían los más adecuados para su municipio.     84
  • 58. Errores en las mediciones  Esta  parte  se  escribe  porque  es  una  pregunta  que  se  nos  ha  hecho  constantemente  sobre los tipos de errores en la medición.   En cualquier instrumento de medición se tiene un grado de error (recordemos lo  señalado en el capítulo 9 del libro y al inicio de este capítulo).   Imaginemos  que  realizamos  la  evaluación  de  la  autoestima  en  un  grupo  de  estudiantes. Si la mido un día y la vuelvo a medir al día siguiente, y posteriormente a la  semana; podemos esperar que las puntuaciones sean las mismas en las tres mediciones.  La autoestima  como otros atributos no  varían  a  través  del  tiempo, a  menos  que  “algo”  los  haga  variar  (un  estímulo,  la  maduración  de  la  persona,  un  suceso  de  vida,  entre  otros). Es decir, si los estudiantes obtuvieron puntuaciones diferentes en las pruebas, su  desempeño se debió a la influencia de otro motivo distinto a su propia autoestima. Estas  otras  razones  provocan  error.  El  grado  en  que  un  instrumento  se  encuentra  libre  de  error  indica  su  confiabilidad.  Entre  más  fiable  resulta  un  instrumento,  el  investigador  puede acercarse a una verdadera estimación del atributo considerado. Tal “exactitud” se  obtiene al minimizar las fuentes de error en la medida de lo posible y con la estimación  del  grado  de  error  que  permanece.  Pues  bien,  hay  dos  tipos  de  errores  que  pueden  ocurrir:  sistemáticos  y  no  sistemáticos.  Los  primeros  maximizan  o  minimizan  el  desempeño de un instrumento y afectan a la validez (Mertens, 2005). En el ejemplo de  la autoestima, un método para desarrollarla o fortalecerla (por ejemplo, motivacional o  terapéutico) puede ser visto como una influencia sistemática en la variable o atributo. El  efecto del error sistemático en las respuestas es constante y puede predecirse. Pero los  errores  no  sistemáticos  (que  conciernen  a  los  investigadores)  varían  de  situación  en  situación  (aplicaciones  distintas)  y  en  consecuencia  no  pueden  predecirse  (o  es  sumamente complejo), pero sí prevenirse.   Estos  errores  pueden  caer  en  tres  categorías:  a)  personales  (dependen  de  cada  individuo,  como  el  estrés,  el  cansancio  o  la  motivación),  b)  condiciones  de  administración  del  instrumento  (instrucciones  distintas  a  los  respondientes,  temperatura ambiental, lenguaje, etc.) y c) modificaciones en los instrumentos o tareas  (por  ejemplo,  cambios  en  ítems  o  las  conductas  a  observar).  Normalmente,  la  confiabilidad  es  calculada  mediante  una  estadística  que  compara  el  desempeño  de  los  mismos individuos en tiempos diferentes o partes distintas del instrumento y que oscila  85
  • 59. entre cero y uno, su fin es precisamente ayudar al investigador a identificar el grado de  error que se presenta en la medición, en su consistencia interna; mediante la fiabilidad y  un análisis del investigador se deben hacer transparentes las fuentes de error.    BIBLIOGRAFÍA    Gall  ,  M.  D.,  Gall,  J.  P.  y  Borg,  W.  R.  (2003).    Educational  research:  An  introduction  (7a.   Ed.). Boston, MA, EE. UU.: Allyn and Bacon.  Lopez  S.  J.  y  Snyder,    C.  R.  (2003).  Positive  psychological  assessment  :  A  handbook  of  models and measures. Washington, DC, EE. UU. : American Psychological Association.  Roid,  G.  H.  (2003).  Stanford­Binet  intelligence  scales  (5a.    Ed.).  Itasca,  IL,  EE.  UU.:  Riverside Publishing.  Weller,  S.  C.  y  Romney,  A.  (1990).  Metric  scaling:  correspondence  analysis.    Thousand  Oaks, CA, EE. UU.: Sage.    86