1
DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA
UNIVERSIDAD DE GRANADA
TÉCNICAS CUANTITATIVAS 3
Grado en Marketing e Investigación de Mercados
MUESTREO
Teoría y ejercicios.
2
3
ÍNDICE
1. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.0 Definiciones y conceptos básicos . . . . . . . . . . . . . . . . . . . . . . .
1.1 Selección de una muestra aleatoria simple. Números aleatorios. . . . . . . .
1.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .
1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
1.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
1.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . .
1.3.1 Estimación de la media, proporción y total poblacionales. . . . . . .
1.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . .
2.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
2.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Asignación Óptima. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Asignación Proporcional. . . . . . . . . . . . . . . . . . . . . . . .
2.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
3.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
3.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
3.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
3.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
3.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . .
4.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . .
5.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . .
5.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
5
5
6
7
8
11
11
13
13
16
19
26
26
27
30
30
31
32
32
38
40
50
50
51
52
55
56
57
58
59
59
61
62
68
68
69
72
73
74
77
77
77
77
82
4
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Relación de Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formulario de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . .
Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
93
93
94
99
103
105
111
111
113
116
119
5
1. Muestreo aleatorio simple.
1.0 Definiciones y conceptos básicos.
1.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
1.2 Muestreo aleatorio simple en poblaciones infinitas.
1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
1.2.3 Determinación del tamaño muestral.
1.3 Muestreo aleatorio simple en poblaciones finitas.
1.3.1 Estimación de la media, proporción y total poblacionales.
1.3.2 Determinación del tamaño muestral.
1.0 Definiciones y conceptos básicos
Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de
una población, por ejemplo el consumo de determinados productos, la audiencia televisiva de
un programa, la intención de voto, ... Claramente la recogida de información sobre toda la
población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la
población, la muestra.
La muestra debe ser representativa, es decir, una versión a escala reducida de la población
que refleje las características de toda la población.
Para obtener una muestra representativa hay diferentes métodos. Los métodos de muestreo
más utilizados son:
 Muestreo aleatorio simple.
 Muestreo aleatorio estratificado.
 Muestreo sistemático.
 Muestreo por conglomerados.
El error de muestreo es el que surge al considerar una muestra y no examinar toda la
población. El error de muestreo puede ser controlado y medido mediante el diseño de la
muestra.
Otros errores, más difíciles de controlar, pueden ocurrir al estudiar una muestra. Estos otros
errores se llaman errores de no muestreo. En muchas muestras, el error de muestreo cometido
para esa muestra puede ser despreciable en comparación con los errores que no son de
muestreo.
6
Los errores de no muestreo más comunes son:
 Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no
puede ser elegida como parte de la muestra. Por ejemplo, si hacemos una encuesta por
los domicilios en horario de trabajo, estamos vetando que ciertos individuos puedan
ser elementos de la muestra.
 Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren
del valor verdadero, por ejemplo:
- Los individuos no reconocen la verdad porque pudiera estar mal visto.
- No comprenden las preguntas.
- La formulación y el orden de las preguntas pueden afectar a las respuestas
obtenidas.
- …
 No respuesta. La no respuesta de un individuo seleccionado para formar parte de la
muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección.
Puede ocurrir que las personas que respondan no representen a la población objetivo.
Los errores de no muestreo deben controlarse con acciones como reentrevistas, verificación de
los datos, …
Son muchas las razones para el uso del muestreo, entre otras destacamos:
 Evitar la destrucción de la población. En algunos casos, por ejemplo en el control de
calidad, la observación de los elementos lleva a su destrucción.
 Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se
pueden publicar de una manera programada. Por ejemplo las elecciones.
 Economía y precisión. El muestreo puede proporcionar información fiable con costes
mucho menores que los de un censo (toda la población). Un censo completo implica
mucho trabajo en la recolección de los datos y debido a su complejidad se pueden
cometer muchos errores. En una muestra, por su menor tamaño, se puede dedicar más
atención a la calidad de los datos.
1.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así
seleccionada se le llama muestra aleatoria simple.
7
La condición de que cada muestra tenga la misma probabilidad de ser seleccionada equivale a
que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la
selección de cada elemento de la muestra se debe hacer con un sorteo completamente
aleatorio. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se
conoce como tablas de números aleatorios que suelen aparecer en un apéndice al final de
muchos libros de estadística. Cada vez más, estas tablas de números aleatorios son sustituidas
por la generación de números aleatorios mediante programas de ordenador (Excel, SPSS,...).
Para asociar el valor de esos números aleatorios con los elementos de la población
necesitamos que ésta esté numerada, en caso contrario deberíamos formar una lista y
numerarla. Esto último, en muchos casos, no es tan sencillo. Una alternativa a la formación de
una lista numerada para la selección mediante números aleatorios de los elementos de la
muestra es el método de las rutas aleatorias. Según este método cada número aleatorio o
grupo de números aleatorios describe el camino hasta el elemento de la muestra. Veamos
cómo se aplicaría este método con un sencillo ejemplo:
Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el
distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el
número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha
planta.
En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica,
sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse
como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que
aparece en el lugar 36 de dicha página.
EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE
MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA. Utilizar
un método más sencillo para seleccionar la muestra, con el que fácilmente se obtengan
muchas observaciones, no garantiza una mejor información que una muestra aleatoria
simple con muchos menos datos.
1.2 Muestreo aleatorio simple en poblaciones infinitas.
Supongamos que la característica en estudio de la población está representada por la variable
Y (con media  y varianza 2
), una muestra aleatoria simple de tamaño n estará representada
por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.).
Nota: observaciones en poblaciones infinitas y también en poblaciones finitas, si se hacen con
reemplazamiento, nos conducen a variables i.i.d.
8
1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
Como estimador de la media de la población, , se utiliza la media muestral, y .
1
1 n
i
i
y y
n 
 
Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos
evaluar también su bondad.
Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza
   
2
E y V y
n

 
Como estimador de la varianza de la población, 2
 , se utiliza la cuasivarianza muestral, 2
S .
 
2
2
1
1
1
n
i
i
S y y
n 
 


que también tiene la propiedad de ser insesgado
 2 2
E S 
de forma que la varianza de la media muestral se estima de forma insesgada por

2
( )
S
V y
n

Cuando las variables Y, Y1, ..., Yn son dicotómicas o binomiales, sólo toman dos valores (0 y
1), su media  representa una proporción que se nota como p y el estimador de la misma, la
proporción muestral, por p

1
1
0,1
n
i i
i
p y y
n 
 
Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas
antes.
La varianza de la población es en este caso 2
pq  , donde q=1-p. Como antes, el estimador
insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a
 2
1
n
S pq
n


y la varianza estimada de la proporción muestral es
 
 
( )
1
pq
V p
n


9
Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más
sobre el comportamiento de la media muestral, aparte de lo ya mencionado.
Si 2 2
( , )Y N conocida   (0,1)
y
N
n



 
Si 2 2
( , )Y N desconocida   1 (0,1)n
y
t N
S
n



  
1( (0,1))nen la práctica para n 30, t N 
Si Y cualquier distribución (0,1)
y y
N
S
n n
 

 
  
(por el Teorema Central del Límite cuando n  , en la práctica para n>30)
Un caso particular del anterior es (1, )Y B p , variable dicotómica, donde p y p  
 
 

 
(0,1)
1 1
p p p p p p
N
pq n pq pq
n n n n
  
  
 
(en la práctica para n>30)
Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y ,
o dicotómicas, p ) sigue una distribución Normal o se puede aproximar por ella si el tamaño
de la muestra es suficientemente grande. De forma que podemos conocer la probabilidad de
que dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores
expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)
1,96 1,96 0,95
y
P
n


 
 
    
 
  
o en un caso más general
2 2
1
y
P Z Z
n
 



 
 
     
 
  
=nivel de significación 1-=nivel de confianza
10
Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor
1,962.
En todos los apuntes que siguen trabajaremos con un nivel de confianza del
95% y con
2
2Z  . En el formulario consideraremos distintos niveles de
confianza, por tanto distintos valores de
2
Z que notaremos cZ para
simplificar la notación.
De las probabilidades anteriores se puede hacer dos lecturas. La primera:
2 2 0,95 2 0,95P y P y
n n n
  
 
   
           
   
En esta expresión aparecen valores y expresiones fundamentales en las técnicas de estimación:
1-=0,95= nivel de confianza del 95%.
y  = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero
valor del parámetro que se quiere estimar, .
2
n

= cota o límite para el error de estimación, es el máximo error de estimación que se
puede estar cometiendo, con una confianza del 95%. En la práctica,  es desconocida y se
estima por S .
La segunda lectura:
2 2 0,95P y y
n n
 

 
     
 
expresa la confianza que tenemos de que el verdadero valor del parámetro  se encuentre
entre los extremos del intervalo 2 , 2y y
n n
  
  
 
.
Todo lo anterior se puede asegurar si el estimador sigue una distribución Normal (si el tamaño
de la muestra es suficientemente grande, n>30, está garantizado). Pero qué ocurre si no es así.
En ese caso la desigualdad de Tchebychev nos da la respuesta.
La desigualdad de Tchebychev asegura que si X es una variable aleatoria con media
( )E X  y varianza 2
( )V X  , sea cual sea su distribución de probabilidad
11
2
1
1P X k
k
       
Aplicando lo anterior a la media muestral para k=2 se obtiene
1
2 1 0,75
4
P y
n


 
     
 
resultado parecido al que obteníamos anteriormente
2 0,95P y
n


 
   
 
salvo que en este caso lo más que podemos asegurar es que dicha probabilidad es mayor que
0,75.
1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una
determinada muestra el estimador asociado, hacemos una estimación puntual.
Si dicha estimación puntual se acompaña de un margen de error (límite para el error de
estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de
confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el
intervalo de confianza para la media poblacional  con un nivel de confianza del 95% es
2 , 2
S S
y y
n n
 
  
 
En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de
que el verdadero valor de un parámetro de la población sea un valor dado, por ejemplo, se
quiere contrastar la hipótesis nula 0 0:H   con un nivel de significación del 5%. Lo
anterior equivale a comprobar si
0 2 , 2
S S
y y
n n

 
   
 
en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario.
1.2.3 Determinación del tamaño muestral.
Si se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una
estimación, 2 B
n

 , la cantidad de información necesaria para conseguirlo depende del
tamaño de la muestra según la siguiente expresión
12
2 2 2 2
2
2
4 ,
4
4
B
B n D
Bn D
  
    
En la práctica la varianza poblacional 2
 es desconocida. Si disponemos de 2
S de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2
 por 2
S .
Si no se dispone de información previa para estimar la varianza podemos usar que en variables
Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica
2
2
4 16
R R
   
La proporción poblacional p es la media  de una variable dicotómica ( (1, )Y B p ,
( )E Y p , ( )V Y pq ), luego el problema de determinar el tamaño muestral se hace de forma
análoga sustituyendo 2
 por pq
2
,
4
pq B
n D
D
 
En la práctica p se desconoce. Una aproximación se obtiene reemplazándolo por el valor
estimado p obtenido en muestras preliminares. Si no se cuenta con información anterior,
suponiendo
1
2
p  se obtiene un tamaño muestral conservador (mayor que el requerido para
obtener la cota del error de estimación fijada).
Ejemplo 1.1. Un hipermercado desea estimar la proporción de compras que los clientes pagan
con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las
cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.
b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la
proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas
compras deberíamos observar para asegurar que la anterior estimación se realiza con un
error inferior al 3%.
d) Este mismo hipermercado desea estimar también el valor medio de las compras
realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos se observa que
13
el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza
de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error
de estimación asociado.
Solución:
a)
   
 
1
1 35
0,175 200 1 0,175 0,825 ( ) 0,000726
200 1
n
i
i
pq
p y n q V p
n n
        


   2 ( ) 0,0539 12,11% , 22,89%B V p p  
b)
2
0,03 0,000225 641,6 642
4
B pq
B D n
D
     

c)
2
0,03 0,000225 0,5 1111,1 1112
4
B pq
B D p q n
D
       

d)
1
1 5600
35 160€
35
n
i
i
n y y
n 
   
 
2
2 625
625 ( ) 17,8571 2 ( ) 8,45€
35
S
S V y B V y
n
      
1.3 Muestreo aleatorio simple en poblaciones finitas.
Suponemos que la población es finita, tiene N elementos, y además que la muestra se
selecciona sin reemplazamiento (lo que suele ser habitual, en caso contrario estaríamos ante
el mismo modelo que el muestreo aleatorio simple en poblaciones infinitas con variables
i.i.d.)
1.3.1 Estimación de la media, proporción y total poblacionales.
Estimación de la media poblacional.
Para estimar la media poblacional, , se utiliza la media muestral

1
1 n
i
i
y y
n


  
Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra
14
   
2
1
N n
E y V y
n N


 
   
 
En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la
varianza de la población
 2 2 2 21
1
N N
E S E S
N N
 
 
  
  
De lo anterior se sigue que la varianza de la media muestral puede ser estimada
insesgadamente por

 
2
21 1
1
N N n S N n
V y S
N n N n N
       
      
     
expresión igual a la del caso de poblaciones infinitas, 
2
( )
S
V y
n
 
 
 
, salvo el coeficiente
N n
N
 
 
 
que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).
En la práctica el coeficiente c.p.f. suele despreciarse si está próximo a 1, 0,95
N n
N
 
 
 
o lo
que es equivalente si 5%n N . En muchos casos N no está claramente definido o se
desconoce, pero si N se supone suficientemente grande el c.p.f. se omite, 1
N n
N
 
 
 
.
Para calcular el límite para el error de estimación , con un 95% de confianza, se halla
2 ( )V y . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del
95% cuando trabajamos con el coeficiente 1,962. Pero en algunos casos, según la
desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor que un 75%.
Estimación del total poblacional.
Para estimar el total poblacional, , dado que N
N

     utilizaremos el estimador
1
n
i
i
N
N y y
n


   .
Para hallar su varianza usamos que 2
( ) ( )V kX k V X , por tanto:
Varianza estimada de 
  
2 2
2 2
( ) ( ) ( ) ( )
S N n S
V V N y N V y N N N n
n N n


    
15
Como en el caso de la media, el límite para el error de estimación con una confianza del 95%
está dado por 2 ( )V  . Valiendo comentarios análogos a los hechos anteriormente.
En lo sucesivo se dará solamente el valor de la varianza del estimador para los distintos tipos
de muestreo, omitiéndose el límite para el error de estimación.
Ejemplo 1.2. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa.
Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las
cuentas fue 1.040€y  y la cuasivarianza muestral es S2
=45.000€2
. Estime el promedio de la
deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de
confianza al 95%.
Solución:

2
1 45000 1000 300
( ) 105
300 1000
nS N n
V y
n N
  
   2 ( ) 2 105 20,49€V y  
   1.040 20,49 1.019,51 , 1.060,49
1000 1040 1.040.000€N y    
 2 ( ) 2 ( ) 1000 20,49 20.490€ ( 20.493,9)V N V y valor exacto    
   1.040.000 20.490 1.019.510 ,1.060.490 
Estimación de la proporción poblacional.
Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media
muestral con la siguiente notación en este caso

1
1
0,1
n
i i
i
p y y
n 
 
su varianza estimada, teniendo en cuenta que
 
2
1
n pq
S
n


, es igual a
 
 2
( )
1
S N n pq N n
V p
n N n N
 
 

Para estimar el total poblacional de una variable dicotómica usamos
N p      
 
2
( ) ( ) ( ) ( )
1
pq
V V N p N V p N N n
n
    


16
Ejemplo 1.3. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900
estudiantes para estimar
 La proporción que votarán a un determinado representante de centro.
 La proporción de ellos que tienen algún tipo de trabajo.
Sean , ( 1,...,100)i iy z i  las respuestas del i-ésimo estudiante seleccionado ( 0iy  cuando
responden NO, 1iy  cuando responden SI, análogamente para iz ).
Según la muestra
100 100
1 1
70 25i i
i i
y z
 
  
Usando los datos de la muestra, estime 1p (proporción de estudiantes que votarán a un
determinado representante), 2p (proporción de estudiantes con algún tipo de trabajo), 2
(número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación
correspondientes.
Solución:
 
100 100
1 1
1 20,70 (70%) 0,25 (25%)
100 100
i i
i i
y z
p p 
   
 
 
 
 
 
1 1 2 2
1 2( ) 0,0018855 ( ) 0,0016835
1 1
p q p qN n N n
V p V p
n N n N
 
   
 
   
1 22 ( ) 0,0868 (8,68%) 2 ( ) 0,0821 (8,21%)V p V p 
 2 22 900 0,25 225 2 ( ) 900 0,0821 73,89N p V         
1.3.2 Determinación del tamaño muestral.
El número de observaciones necesarias para estimar  con un límite para el error de
estimación de magnitud B se obtiene resolviendo 2 ( )V y B
 
2
2 ( )
4
B
V y B V y D   
2 2
2
( )
1 ( 1)
N n N
V y D n
n N N D
 


   
  
Para estimar el total poblacional con un límite para el error de estimación B, dado que
 2 ( ) 2 ( )V N V y B   , se llega a la misma expresión de n pero con
2
2
4
B
D
N

17
Habitualmente la varianza poblacional 2
 es desconocida. Si disponemos de 2
S de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2
 por 2
S .
Si no se dispone de información previa para estimar la varianza podemos usar que en variables
Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica
2
2
4 16
R R
   
La proporción poblacional p es la media  de una variable dicotómica ( (1, )Y B p ,
( )E Y p , ( )V Y pq ), luego el problema de determinar el tamaño muestral se hace de forma
análoga sustituyendo 2
 por pq, obteniéndose
( 1)
Npq
n
N D pq

 
2
4
B
D  (para la proporción)
2
2
4
B
D
N
 (para el total)
En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el
valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información
anterior, suponiendo
1
2
p  se obtiene un tamaño muestral conservador (mayor que el
requerido para obtener la cota del error de estimación fijada).
Ejemplo 1.4. Encuentre el tamaño de la muestra necesario para estimar el valor total de 1.000
cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta
con datos anteriores para estimar la varianza poblacional, se sabe que la mayoría de las
cuentas caen dentro del intervalo (600, 1.400).
Solución:
2 2
2
2 2
10.000
25 4 800 200 40.000
4 4 1.000
B
D
N
         

2
2
615,62 616
( 1)
N
n
N D


  
 

Si se realizan dos mediciones (o más) sobre cada elemento de la muestra, se calcularán los
tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada
estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos
límites.
18
Ejemplo 1.5. Los alumnos de TC3 de una facultad con 3.000 estudiantes desean realizar una
encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes
en sábado con un límite para el error de estimación del 10%. La información previa disponible
indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción
de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. Determínese
el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error
especificados.
Solución:
1p  proporción de estudiantes que prefieren los exámenes en sábado.
2 2
1
1
(0,10)
0,0025
4 4
B
D   
1 1
1
1 1 1
3.000 0,60 0,40
93,05 94
( 1) (2.999 0,0025) (0,60 0,40)
Np q
n
N D p q
 
   
    
2p proporción de estudiantes que apoyan al equipo decanal.
2 2
2
2
(0,05)
0,000625
4 4
B
D   
2 2
2
2 2 2
3.000 0,50 0,50
353,04 354
( 1) (2.999 0,000625) (0,50 0,50)
Np q
n
N D p q
 
   
    
para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de
la estimación de 1p disminuiría (con un 95% de confianza) hasta:
 
 
1 1
1
0,60 0,40 3.000 354
2 ( ) 2 2 0,0489 ( 4,9%)
1 353 3.000
p q N n
V p
n N
  
   

o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho
mayor
 
 
1 1
1
2 2 2
0,60 0,40 3.000 354
( ) 0,10
1 353 3.000
p q N n
z V p z z
n N
  
  
  

2 2
0,02445 0,10 4,09z z   
buscando en la tabla de la Normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad
comprendida entre (-4,09 , 4,09), se obtiene 0,99995684, es decir, prácticamente un nivel de
confianza del 100%. 
19
EJERCICIOS RESUELTOS
1. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el
valor medio de las compras por cliente.
VALOR en € 33,5 32 52 43 40 41 45 42,5 39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) ¿Podemos aceptar que la compra media es de 45€?
c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?
SOLUCIÓN:
a)  33,5 ... 39
40,89 €
9
y
 
  
    2 22 1
33,5 40,89 ... 39 40,89 35,67
9 1
S      


  
 
2
3,963 2 3,98 €
S
V y B V y
n
   
   40,89 3,98 ; 40,89 3,98 36,91; 44,87  
b) No, porque  45 36,91; 44,87
c)
2 2
2 2
35,67
35,67 36
1
4 4
S
n compras
B B

    
2. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente entre los más de cien mil
habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.
655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en
contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se
puede afirmar que la mayoría de los habitantes están en contra?
SOLUCIÓN:
 655
0,655 65,5%
1.000
p p   
 
  0,655 (1 0,655)
( ) 0,0002262012
1 999
pq
V p
n
 
  

 2 ( ) 0,0301 3,01%V p  
(65,5% 3,01% , 65,5% 3,01%) (62,49% , 68,51%)  
20
(62,49% , 68,51%) 50%p p sí se puede afirmar que la mayoría de los
habitantes están en contra
   
3. El Centro de Estadística desea estimar el salario medio de los trabajadores de los
invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato
fijo y los que tienen un contrato temporal. El salario de los contratos fijos está
comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos
temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño
muestral total y su asignación para que se estime el salario medio de los contratos fijos con
un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior
a 120€?
SOLUCIÓN:
iR
4
i
i
R

2
i
2.200-1.200=1000
1.700-500=1.200
250
300
62.500
90.000
2 2
1 1
1 2 2
11
62.500 62.500
25
10.000100
44 4
n
BD
 
    
2 2
2 2
2 2 2
22
90.000 90.000
25
14.400120
44 4
n
BD
 
    
1 2 50n n n  
4. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000
préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor
cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía.
¿cuál es el tamaño muestral necesario para estimar estos dos parámetros:
- la cuantía media de los prestamos cometiendo un error de estimación menor de 400
euros y
- la proporción de préstamos pendientes de amortizar más de la mitad de la deuda
cometiendo un error máximo del 5%?
SOLUCIÓN:
2.000N 
2
11.000 1.200 9.800 2450 6.002.500
4
R
R        
21
2 2
400
40.000
4 4
B
D   
2
2
139,65 140
( 1)
N
n
N D


  
 
2 2
0.05
0,000625
4 4
B
D   
0,5 333,47 334
( 1)
Npq
p q n
N D pq
    
 
Para conseguir estimar los dos parámetros con los niveles de error especificados
necesitamos un tamaño muestral igual al máximo de 140 y 334. 334n  .
5. Se desea estimar el salario medio de los empleados de una empresa y la proporción de
empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que
el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el
tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y
al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido
sea del 2%?
SOLUCIÓN:
2
110 1.800 1.500 300 75 5625
4
R
N R         
2 2
10
25
4 4
B
D   
2
2
74,1 75
( 1)
N
n
N D


  
 
2 2
0.02
0,0001
4 4
B
D   
0,5 105,4 106
( 1)
Npq
p q n
N D pq
    
 
6. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en
el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
22
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el
límite para el error de estimación.
b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite
para el error de estimación.
SOLUCIÓN:
a) 25 5N n 


2
14
2,8 70
5
12,7
( ) ( ) 25 20 1270
5
2 ( ) 71,2741
y N y
S
V N N n
n
B V



    
    
 



Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por
conglomerados. Véase ejercicio resuelto 4 del tema 5.
b)
 

 

2
0,4 10
5
0,24
( ) ( ) 25 20 30
1 4
2 ( ) 10,9545
p N p
pq
V N N n
n
B V



    
    

 



7. El consumo medio de combustible de los taxis de una ciudad es 5.6 litros cada 100 Km.
Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un
dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20
taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de
combustible por cada 100 Km. se recoge en la siguiente tabla
Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo
1 5,4 6 6,3 11 3,6 16 5,4
2 5,5 7 5,4 12 6,7 17 4,8
3 6,9 8 5 13 5,2 18 4,7
4 3,9 9 4,5 14 5,1 19 5,8
5 4,5 10 4,4 15 5,4 20 6,2
a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo
inferior a 5,6 litros/100 Km.
23
b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error
menor o igual que un 10%?
SOLUCIÓN:
a) 15 de los 20 taxis no superan el consumo de 5,6 litros/100 Km, por tanto
 15
0,75
20
p    
  0,75 0,25 580
( ) 0,00954
1 19 600
pq N n
V p
n N
 
  

 2 ( ) 0,1953V p 
   0,75 0,1953 , 0,75 0,1953 0,5547 , 0,9453    55,47% , 94,53%
b)
 
2
0,10
0,10 0,0025
4
B D  
   
600 0,75 0,25
66,77 67
( 1) 599 0,0025 0,75 0,25
Npq
n
N D pq
 
   
    
8. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para
estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra
para estas seis cuentas son los siguientes:
Dinero adeudado (€)
35,50
32,00
43,00
41,00
44,00
42,50
Estime el total del dinero adeudado y establezca un límite para el error de estimación.
SOLUCIÓN:
iy 2
iy
35,50
32,00
43,00
41,00
44,00
42,50
1260,25
1024,00
1849,00
1681,00
1936,00
1806,25
1
238,00
n
i
i
y

 2
1
9556,50
n
i
i
y


1
100
238=3966,6
6
n
i
i
N
N y y
n


  

24
 
2
2 1
22
2 1
1
1 1 238
9556,50 23,1667
1 1 5 6
n
in
i
in
i
i
i
y
y
n
S y y
n n



 
 
 
 
      
   




2
23,1667
2 ( ) 2 ( ) 2 100(100 6) 381,02
6
S
V N N n
n
     
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica
se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas
2
1, , , n nx x x y    de forma inmediata.
1n nx xs desviación típica S cuasidesviación típica     
9. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al
menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los
hogares de esa ciudad habita al menos una persona mayor de 65 años.
SOLUCIÓN: N=5000, n=300
    
 
 51
0,17 1 0,83 ( ) 0,00044359197 2 ( ) 0,0421
300 1
pq N n
p q p V p V p
n N

       

   25% 17% 4,21% 12,79%, 21,21% 
luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al
menos una persona mayor de 65 años.
10. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un
operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron
aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los
siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
25
SOLUCIÓN: ( )con las funciones del modo SD de la calculadora
N=45, n=5  
2
2
1 1
1 1
5,26 2,563
1
n n
i i
i i
y y S y y
n n 
    

 
   
2
( ) 0,4556 2 ( ) 1,35 : 3,91min., 6,61min.
S N n
V y V y Intervalo de confianza
n N

  
Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no
podemos aceptar esa hipótesis.
11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición
en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las
hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una
muestra aleatoria de 50 hojas se han observado los siguientes resultados:
50 50
2
1 1
1.450; 54.496i i
i i
Y Y
 
  
¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas
recogidas para la petición?
SOLUCIÓN: N=700, n=50
2
2 1
2 1
1
1 1450
29 254
50 1
n
in
i
in
i
i
i
y
y
n
y y S
n n



 
 
 
    




 
2
20.300 ( ) ( ) 2.311.400 2 ( ) 3.040,66
S
N y V N N n B V
n
          
   20.300 3.040,66 17.259,34 , 23.340,66
Previsión más optimista: 23.340
Previsión más pesimista: 17.259
26
2. Muestreo aleatorio estratificado.
2.1 Selección de una muestra aleatoria estratificada.
2.2 Estimación de la media, proporción y total poblacionales.
2.3 Determinación del tamaño muestral.
2.4 Asignación de la muestra.
2.4.1 Asignación Óptima.
2.4.2 Asignación de Neyman.
2.4.3 Asignación Proporcional.
2.5 Estratificación después de seleccionar la muestra.
2.1 Selección de una muestra aleatoria estratificada.
Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la
población en conjuntos que no presenten intersección, llamados estratos, y la selección
posterior de una muestra aleatoria simple en cada estrato.
Los estratos deben formarse de manera que los elementos de cada estrato sean lo más
homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las
diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los
estratos conduce a muestras con poca variabilidad entre las mediciones que producirán
pequeñas varianzas de los estimadores y por tanto menores límites para los errores de
estimación que con otros diseños de la muestra.
Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:
 A veces los estratos se corresponden con zonas compactas bien definidas con lo que se
reduce el coste de la muestra.
 Además de las estimaciones para toda la población, este muestreo permite hacer
estimaciones de los parámetros poblacionales para los estratos.
Antes de continuar fijemos la notación que va a utilizarse:
L  número de estratos
N  tamaño de la población n  tamaño de la muestra
iN  tamaño del estrato in  tamaño de la muestra del estrato i
1
L
i
i
N N

  1
L
i
i
n n

 
i  media poblacional del estrato i iy  media muestral del estrato i
i  total poblacional del estrato i
2
i varianza poblacional del estrato i 2
iS  cuasivarianza muestral del estrato i
27
ip  proporción poblacional del estrato i 
ip  proporción muestral del estrato i
ic coste de una observación del estrato i
2.2 Estimación de la media, proporción y total poblacionales.
En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato
i iN y es un estimador insesgado del total i , estimaremos
1
L
i
i
 

  por
1
L
st i i
i
N y

  y la
media poblacional
N

  mediante
1
1 L
ist i
i
y N y
N 
 
NOTA: sty y en general ( y = media muestral de las n observaciones)
st   en general ( N y  = estimador del total según un m.a. simple.)
Varianza estimada de sty
 
2
2 2
2 2
1 1
1 1
( ) ( )
L L
i i i
i ist i
i i i i
S N n
V y N V y N
N N n N 

  
Se obtiene aplicando que la varianza de la suma de variables independientes es la suma de
sus varianzas y que 2
( ) ( )V kX k V X .
Varianza estimada de st
 
2
2 2
1
( ) ( )
L
i i i
st ist
i i i
S N n
V N V y N
n N



  
En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así
como sus varianzas toman valores similares a los anteriores, salvo las diferencias ya
comentadas en la lección anterior.
Estimador de la proporción poblacional p
 
1
1 L
ist i
i
p N p
N 
 
Varianza estimada de 
stp
   
 
2 2
2 2
1 1
1 1
( ) ( )
1
L L
i i i i
i ist i
i i i i
p q N n
V p N V p N
N N n N 

 

 
Estimador del total poblacional 
 
1
L
st ist i
i
N p N p

  
28
Varianza estimada de st
  
 
2 2
1
( ) ( )
1
L
i i i i
st ist
i i i
p q N n
V N V p N
n N



 


Ejemplo 2.1. Se está interesado en determinar la audiencia de la publicidad televisiva en una
cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el
número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está
formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia
televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa
publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares y decide seleccionar
muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la
siguiente tabla:
BARRIO A BARRIO B BARRIO C
36
39
38
28
29
34
38
37
41
37
26
32
29
35
41
20
30
14
41
39
25 14
15
21
20
24
22
17
11
14
Estime el tiempo medio que se ve la televisión y el límite para el error de estimación, en horas por
semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Solución: en primer lugar se calculan las medias y cuasivarianzas muestrales en cada estrato
2 2 2
1 2 31 2 3
2
34,67 / 28,17 / 17,56 / 23,24 112,57 19,28
28,23 92,74
y horas semana y h s y h s S S S
y S
     
 
A partir de estos valores calculamos las varianzas de los estimadores de la media en cada
estrato y los límites para los errores de dichas estimaciones
1 2 3 1 2 3210 84 126 420N N N N N N N      
1 2 3 1 2 315 6 9 30n n n n n n n      
29
  
22 2
3 3 31 1 1 2 2 2
1 2 3
1 1 2 2 3 3
( ) 1,44 ( ) 17,42 ( ) 1,99
S N nS N n S N n
V y V y V y
n N n N n N
 
     
  
1 2 32 ( ) 2,40 / 2 ( ) 8,35 / 2 ( ) 2,82 /V y h s V y h s V y h s  
Para el conjunto de todos los hogares el estimador de la media es
3
1
1
28,23 /ist i
i
y N y h s
N 
 
y la varianza de este estimador la podemos calcular basándonos en las varianzas de los
estimadores de la media en cada estrato mediante
 
3
2
2
1
1
( ) ( ) 1,24ist i
i
V y N V y
N 
 
o, si se prefiere, utilizando

23
2
2
1
1
( ) i i i
ist
i i i
S N n
V y N
N n N

 
el error para la estimación de la media para todos los hogares está dado por
2 ( ) 2,22 /stV y h s 
Ejemplo 2.2. En el caso anterior, también se desea saber qué proporción de hogares ven un
determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios
del mismo. La respuesta a la pregunta de si ven dicho programa en los hogares de la muestra
anterior se recoge a continuación:
BARRIO A BARRIO B BARRIO C
SI
SI
NO
NO
SI
NO
SI
NO
SI
NO
SI
SI
NO
NO
NO
SI
NO
SI
SI
SI
SI NO
SI
SI
NO
SI
SI
SI
SI
NO
Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el
programa.
Solución: en primer lugar se calculan las proporciones muestrales en cada estrato
  
1 2 3
7 5 6
0,4667 0,8333 0,6667
15 6 9
p p p     
La estimación puntual de la proporción de hogares del municipio donde se ve el programa es
 
3
1
1
0,60ist i
i
p N p
N 
 
la varianza y error de estimación asociados son
 
 
 
3
2
2
1
1
( ) 0,00748 2 ( ) 0,173
1
i i i i
ist st
i i i
p q N n
V p N V p
N n N

  


y el intervalo de confianza expresado en porcentajes es
30
   60% 17,3% 42,7%, 77,3% 
2.3 Determinación del tamaño muestral.
El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene
dado por 2 ( )stV y B donde
2
2
2
1
1
( )
1
L
i i i
ist
i i i
N n
V y N
N n N





 .
No podemos despejar el valor de todos los in de una sola ecuación a menos que conozcamos
la relación entre los in y n . Hay diversas formas de asignar el tamaño muestral n en los
diferentes estratos (problema de la asignación de la muestra que estudiaremos a
continuación), sustituyendo i in n en ( )stV y se puede despejar n en función de los i
obteniendo el tamaño muestral aproximado que se requiere para estimar  con un límite para
el error de estimación B.
2 2
1
2 2
1
L
i i
i i
L
i i
i
N
n
N D N









2
4
B
D  y la misma expresión vale para el total tomando
2
2
4
B
D
N
 .
Al igual que en el m.a.s. para poder usar la anterior ecuación necesitamos conocer las
varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden
usar las cuasivarianzas muestrales de una muestra previa o basarnos en el rango de variación
de las observaciones dentro de cada estrato.
En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que
en este caso particular 2
i i ip q 
2
1
2
1
L
i i i
i i
L
i i i
i
N p q
n
N D N p q






2
4
B
D  (para estimar p) y la misma expresión vale para el total tomando
2
2
4
B
D
N
 .
2.4 Asignación de la muestra.
Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.
El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza
pequeña (por tanto, pequeño error de estimación) al menor coste posible.
31
El mejor esquema de asignación está influido por:
 El número total de elementos en cada estrato.
 La variabilidad de las observaciones en cada estrato.
 El coste de obtener una observación en cada estrato.
2.4.1 Asignación Óptima.
La asignación que minimiza el coste para un límite para el error de estimación fijado, B, se
denomina asignación Óptima y está dada por
1
j j
j
j L
i i
i i
N
c
N
c






sustituyendo los j en la expresión que obteníamos antes para n se tiene el tamaño total de la
muestra según la asignación Óptima
1 1
2 2
1
L L
i i
i i i
i i i
L
i i
i
N
N c
c
n
N D N



 



 

En el caso dicotómico las anteriores expresiones toman los valores
1
j j
j
j
j L
i i
i
i i
p q
N
c
p q
N
c




1 1
2
1
L L
i i
i i i i i
i i i
L
i i i
i
p q
N p q c N
c
n
N D N p q
 



 

2
4
B
D  (para estimar la media o p),
2
2
4
B
D
N
 (para estimar el total).
En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación
para un coste total fijo de obtención de la muestra, C. En este caso la asignación Óptima
también es la respuesta y el tamaño total de la muestra, n, viene dado por:
1
1
L
i i
i i
L
i i i
i
N
C
c
n
N c







32
Análogamente para el caso dicotómico sustituyendo i i ip q  .
2.4.2 Asignación de Neyman.
Cuando los costes de observación de cada estrato son los mismos, las expresiones de la
asignación Óptima se simplifican y transforman en:
Caso numérico
1
j j
j L
i i
i
N
N






2
1
2 2
1
( )L
i i
i
L
i i
i
N
n
N D N








Caso dicotómico
1
j j j
j L
i i i
i
N p q
N p q




2
1
2
1
( )L
i i i
i
L
i i i
i
N p q
n
N D N p q






A este tipo de asignación se le denomina de Neyman que coincide con la asignación Óptima
solamente cuando los costes de observación son iguales en todos los estratos. Esta asignación
se utiliza aún cuando los costes de observación no son idénticos, a veces, sencillamente no se
conocen.
2.4.3 Asignación Proporcional.
Si además de los costes, coincide el valor de las varianzas en cada uno de los estratos, las
expresiones de la asignación Óptima y de Neyman se simplifican y reducen a
Caso numérico
j
j
N
N
 
2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N








33
Caso dicotómico
j
j
N
N
 
1
1
1
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N






La asignación Proporcional puede y suele utilizarse cuando las varianzas y costes de
observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las
ventajas que presenta frente a los anteriores tipos de asignaciones:
Cuando se utiliza la asignación Proporcional el estimador sty coincide con la media muestral
de la muestra que reúne a todas las muestras de cada estrato, sty y (análogamente para 
stp
y el total).
Cuando se observa más de una variable en cada unidad muestral para estimar más de un
parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño
muestral. Con la asignación Proporcional y tomando como n el máximo de los valores
encontrados para cada estimación se resuelve el problema como puede verse en el siguiente
ejemplo:
En la asignación Óptima y en la de Neyman los i dependen de las varianzas y pueden ser
distintos de una variable a otra
1ª estimación: 1 1 2 2100 0,10 10 0,90 90n n n       
2ª estimación: 1 1 2 240 0,50 20 0,50 20n n n       
Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos
del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación
fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato.
En la asignación Proporcional no ocurre lo anterior pues los j
j
N
N
  son iguales para todas
las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de
error requeridos tenemos lo siguiente
1ª estimación: 1 1 2 2100 0,30 30 0,70 70n n n       
2ª estimación: 1 1 2 240 0,30 12 0,70 28n n n       
tomando como n el máximo de los dos (y en general para k variables), se tiene garantizado
que se cumple con los límites para el error fijados para todas las estimaciones.
34
Ejemplo 2.3 Continuando con el ejemplo 2.1
a) ¿Qué tipo de asignación se ha utilizado?
Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio
que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio
B y 4€ para el barrio C.
b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la
semana que se ve la televisión en los hogares del municipio con un error inferior a 1
hora. (Tómese los anteriores datos como una muestra previa para estimar los
parámetros necesarios).
c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la
muestra y la asignación que minimizan el error de estimación. (Como en el apartado
anterior, tómese los datos de la tabla como una muestra previa para estimar las
varianzas de los estratos).
Solución:
a) Podemos comprobar que se cumple i i
i i
N N
n n i
N N

 
   
 
o equivalentemente que
i in N
i
n N
 
15 210 6 84 9 126
0,5 0,2 0,3
30 420 30 420 30 420
     
luego la asignación utilizada ha sido la Proporcional.
b) Según los datos anteriores estimamos las varianzas de cada estrato por
  2 2 2
2 2 2
1 2 31 2 323,24 112,56 19,28S S S       
iN i ic i i iN c
i i
i
N
c

2
i iN 
210
84
126
4,8208
10,6094
4,3909
1
3
2
1012,368
2673,5688
1106,5068
1012,368
297,0632
276,6267
4880,4
9455,04
2429,28
420 4792,4436 1586,0579 16764,72
2
1
0,25
4 4
B
D   
 
3 3
1 1
3 2
2 2
1
4792,4436 1586,0579
124,89
420 0,25 16764,72
i i
i i i
i i i
i i
i
N
N c
c
n
N D N



 


  
 
 

35
1 1
1
1 2 33
1
0,6383 0,1873 0,1744
i i
i i
N
c
N
c

  


   

1 1 2 2 3 379,71 80 23,39 24 21,78 22n n n n n n          
80 24 22 126n    
c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio
3
1
3
1
600
600 1586,0679
198,57
4792,4436
i i
i i
i i i
i
N
c
n
N c





  


y la asignación de la muestra en cada estrato está dada por la asignación Óptima
1 2 30,6383 126,75 126 0,1873 37,19 37 0,1744 34,63 34n n n n n n        
126 37 34 197n    
o bien resolviendo la ecuación
1 1 2 2 3 3 600c n c n c n  
donde i in n
1 1 2 2 3 3 600c n c n c n    
1 1 2 2 3 3
600 600
198,57
3,0216
n
c c c  
  
 
A partir de n se obtienen los i in n según la asignación Óptima. 
Ejemplo 2.4 Continuando con el ejemplo 2.2
a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un
error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de
las observaciones es el mismo para todos los casos al no ser necesarios los traslados.
Tómese los anteriores datos como una muestra previa para estimar los parámetros
necesarios)
b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna
información previa sobre la proporción de hogares donde se ve el programa.
36
Solución: a)
iN ip iq i i iN p q i i iN p q
210
84
126
0,4667
0,8333
0,6667
0,5333
0,1667
0,3333
52,2671
11,6685
27,9986
104,7669
31,3075
59,3955
420 91,9342 195,4699
2 2
0,05
0,000625
4 4
B
D   
 
23
2
1
3 2
2
1
195,4699
188,98
420 0,000625 91,9342
( )i i i
i
i i i
i
N p q
n
N D N p q


  
 


1 1 1
1 1 3
1
104,7669
188,98 101,29 102
195,4699
i i i
i
N p q
n n n
N p q


    

análogamente 2 330,27 31 57,42 58 102 31 58 191n n n        
b)
iN ip iq i i iN p q
210
84
126
0,5
0,5
0,5
0,5
0,5
0,5
52,5
21
31,5
420 105
 
1
1
105
204,878
1051
420 0,000625
420
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N


  
 


1
210
204,878 102,439 103
420
n    análogamente 2 340,98 41 61,46 62n n   
103 41 62 206n     
El muestreo estratificado no siempre conduce a un estimador con menor error de
estimación, esto suele ocurrir cuando los estratos no están formados por elementos
suficientemente homogéneos. Muchas veces es debido a que predomina el deseo de obtener
estimaciones en cada estrato (por ejemplo, en un estudio regional también se quieren obtener
estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores.
Este problema queda bien ilustrado con el siguiente ejemplo.
Ejemplo 2.5 Un distribuidor de productos de limpieza desea conocer el consumo por hogar
durante un año de un determinado producto en una comarca formada por cuatro municipios.
37
Para estimar de paso también el consumo en cada municipio decide usar muestreo
estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de
la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el
25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y
obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste
del muestreo es el mismo en cada municipio, decide aplicar asignación Proporcional, la cual
conduce a
1
1 20 0,20 4
N
n n
N
    de forma similar 2 3 46 5 5n n n   .
Obteniendo los resultados de la tabla siguiente (consumo expresado en euros).
Estrato 1 Estrato 2 Estrato 3 Estrato 4
470
510
500
550
490
500
470
520
550
500
540
480
500
470
470
450
560
460
440
580
2
11 507,5 1091,67y S  2
22 505 750y S  2
33 492 870y S  2
44 498 4420y S 
Estime el consumo anual medio por hogar y fije un límite para el error de estimación.
Solución: 31 2 4
0,20 0,30 0,25 0,25
NN N N
N N N N
   
       
4 4
1 1
1
0,20 507,5 0,30 505 0,25 492 0,25 498 500,5€i
ist i i
i i
N
y N y y
N N 
           
Obsérvese que cuando se utiliza la asignación Proporcional sty y , efectivamente
20
1
1 10010
500,5€
20
i
i
y y
n 
  
En la siguiente expresión consideramos los coeficientes correctores para poblaciones finitas en
cada estrato iguales a la unidad

22 2 2 24 4 2
2
2 2
1 1 1
1
( ) i i i i i i i
ist
i i ii i i i
S N n N S N S
V y N
N n N N n N n  
 
    
 
  
2 2 2 21091,67 750 870 4420
0,20 0,30 0,25 0,25 88,29
4 6 5 5
       
           
       
2 ( ) 18,79 €stV y 
38
Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20
hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media hubiera sido
20
1
1
500,5 €i
i
y y
n 
 
que coincide con el estimador del muestreo estratificado por las razones mencionadas
anteriormente, pero la varianza estimada y error de estimación asociados tomarían los valores
2
1 1520,79nS  

2
1 1520,79
( ) 76,04
20
nS N n
V y
n N
 
   , se supone 1
N n
N


2 ( ) 17,44 €V y 
Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto
es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del
cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al
tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los
medianos en otro, ..., es decir, formando los estratos con hogares que tengan un consumo
similar. 
2.5 Estratificación después de seleccionar la muestra.
A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (por ejemplo,
estratos según sexo y entrevista telefónica).
Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede
ser dividida en 1n masculinos y 2n femeninos después de que ha sido realizada. Entonces en
lugar de usar y para estimar  , podemos usar sty siempre que iN
N
sea conocido para todo i.
Obsérvese que en esta situación los in son aleatorios, ya que varían de una muestra a otra
aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en pleno sentido, pero
si iN
N
es conocido y 20in  i , entonces este método de estratificar después de la selección
es casi tan exacto como el muestreo aleatorio estratificado con asignación Proporcional. Este
método no debe usarse si iN
N
o una buena aproximación de su valor se desconocen.
39
Ejemplo 2.6 En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al
realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se
obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Valor total de las facturas cuasidesviación típica muestral
Eléctrica 60 5730 200
No eléctrica 40 2080 90
Obtenga una estimación del valor medio de la factura de electricidad en la ciudad y el límite
para el error de estimación.
Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica
(0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la
estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el
procedimiento se justifica pues tanto 1n como 2n superan 20.
1 2
5730 2080
95,5€ 52€
60 40
y y   
2 2
1 1
1
(0,30 95,5) (0,70 52) 65,05€i
ist i i
i i
N
y N y y
N N 
       

2 2 22 2
2
2 2
1 1
1
( ) i i i i i i i
ist
i ii i i i
S N n N S N n
V y N
N n N N n N 
 
  
omitiendo el coeficiente corrector por poblaciones finitas se tiene

22 2 2 2 22 2
2 2
2
1 1
200 90
( ) 0,30 0,70 159,225
60 40
i i i i
st
i ii i
N S N S
V y
N n N n 
     
         
    
 
2 ( )stV y =25,24€ 
A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la
proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador
ajustado mediante la estratificación después del muestreo.
Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y
la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio
de las facturas si se utiliza muestreo aleatorio simple y no se ajusta la estimación de la media
con la estraficación después de seleccionar la muestra:
5730 2080 7810
78,10€
60 40 100
y

  

40
Con el muestreo aleatorio simple sobrevaloraríamos el consumo medio de electricidad por
hogar (78,10>>65,05).
EJERCICIOS RESUELTOS
1. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una
encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares
de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar
llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga que las
varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el
límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si
los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los
hogares sin teléfono son entrevistados personalmente?
SOLUCIÓN:
1 1 1 1
1 1 1 1
20.000 3.028,624
1784,81
33.937,726
L L L L
i i i i i
i i i ii i i i
L L L L
i i i i i i i i i
i i i i
N N N N
C C C C
c c c c
n
N c N c N c N c
 

  
   
   

     
   
   
1 1
2 2
1 2
1.784,81 0,9397 1677,2 1677
1.784,81 0,0603 107,59 107
1784
n n
n n
n n n


    
    
  
O bien
1 1 2 2
1 1 2 2
20.000
20.000
9,397 1,809 11,206 20.000
20.000
1.784,8
11,206
c n c n
c n c n
n n n
n
 
 
 
  
 
Y a partir de n se obtienen n1 y n2 como antes.
iN ic i
i
N
c
i iN c i
9.000
1.000
10
30
2.846,05
182,574
28.460,5
5.477,226
2.846,05/3.028,624=0,9397
182,574/3.028,624=0,0603
10.000 3.028,624 33.937,726 1,0000
41
2. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen
fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3
a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de
hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose
los siguientes datos:
Número de hijos in


n
i
iy
1
2
iS
0-2 25 239 60’76
3-5 19 174 63’01
Mas de 5 16 78 78’24
Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y
dar el límite de error de estimación. Omitir el corrector por población finita.
SOLUCIÓN:
1 2 3
239 174 78
9,56 9,16 4,87
25 19 16
y y y     
     
1 1
1
0,425 9,56 0,30 9,16 0,275 4,87 8,15
L L
i
ist i i
i i
N
y N y y
N N 
         

22 2 2 2 2
2 2
2 2 2
1 1 1 1
2 2 2
1 1
1 ( )
60,77 63,01 78,24
0,425 0,30 0,275 1,107
25 19 16
L L L L
i i i i i i i i i i
i ist
i i i ii i i i i i
N n S N n S N S N S
Si V y N N
N N n N N n N n N n   
   
       
 
     
        
     
   
2 1,107 2,1
3. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro
barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los
miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5
(totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la
tabla adjunta:
Barrio
1 2 3 4
iN 240 190 350 220
in 25 25 25 25
iy 3,5 3,6 3,9 3,8
iS 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del
nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos
pertenecerían al barrio 3. (Suponga iguales los costes de observación)
42
SOLUCIÓN:
a)

2
2
2
1 1 1
1 1
1000 3,725 ( ) 0,00973
L L L
i i i
i i ist i st
i i i i i
S N n
N N y N y V y N
N N n N  

       
  2 ( ) 0,1973 3,5277 , 3,9223stB V y   
b)
3 3
3 3 4
1
350 1,2
100 100
(240 0,8) (190 0,9) (350 1,2) (220 0,7)
100 0,4482 44,82 45
i i
i
N
n n
N





   
      
   

4. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las
empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar
el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas
empresas. Se clasifican las empresas en función de su tamaño. El número de empresas de
cada tipo, el coste de obtención de esta información en cada empresa así como los valores
mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la
siguiente tabla (los costes y gastos están expresados en euros)
Tipo de
empresa
Número de
empresas
Costes de
observación
Gastos de reparación
Mínimo Media Máximo
A 100 16 400 500 600
B 500 9 240 300 360
C 700 4 70 100 130
Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas
empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de
estimación asociado?
SOLUCIÓN:
La asignación que minimiza la cota del error de estimación para un coste fijo es la
asignación Óptima.
Usamos que R4 y por tanto estimamos que
4
R
  .
iN ic ic iR i
i i
i
N
c

i
100
500
700
16
9
4
4
3
2
600-400
360-240
130-70
50
30
15
1250
5000
5250
0’1087
0’4348
0’4565
11500 1
600 = 16n1 + 9n2 + 4n3 ( ni = in ) 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n
n = 600/7’4784 = 80’231
n1 = 1n = 8’72  8 n2 = 2n = 34’88  34 n3 = 3n = 36’63  36
43
C = (168) + (934) + (436) = 578 < 600
5. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la
encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono
del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los
encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una
estratificación después de seleccionar la muestra obteniéndose los siguientes datos
HOMBRES MUJERES
iN 2.500 2.700
in 100 400
iy 120 250
2
iS 9.000 16.000
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado después de seleccionar la muestra.
SOLUCIÓN:
iN in iy
2
iS i iN y i i
i
N n
N
 2
2 i i i
i
i i
S N n
N
n N

2.500
2.700
100
400
120
250
9.000
16.000
300.000
675.000
0,96
0,85185
540.000.000
248.399.460
5.200 500 975.000 788.399.460
1
1 975.000
187,5
5.200
L
ist i
i
y N y
N 
  

2
2
2 2
1
1 788.399.460
( ) 29,16
5.200
L
i i i
ist
i i i
S N n
V y N
N n N

   2 29,16 10,8
6. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar la proporción de individuos que ven un determinado programa
de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria
simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo
50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo
una estratificación después de seleccionar la muestra obteniéndose los siguientes datos
HOMBRES MUJERES
Encuestados 50 250
Ven el programa 12 130
Estime la proporción de la población que ven el programa de televisión y su cota de error,
mediante muestreo aleatorio estratificado después de seleccionar la muestra.
44
SOLUCIÓN:
   
1 2
12 130
0,24 0,52 1
50 250
i ip p q p     
       
1 1
1
0,50 0,24 0,50 0,52 0,38 38%
L L
i
ist i i st
i i
N
p N p p p
N N 
         
 
       22
2 2
2 2 2
1 1 1 1
2 2
1
1 1
( )
1 1 1 1
0,24 0,76 0,52 0,48
0,50 0,50 0,0011812146
49 249
i i
i
L L L L
i i i i i i i i i i i i
i ist
i i i ii i i i i
N n
Si
N
p q p q p q p qN n N N
V p N N
N n N N n N n N n   

 
  
     
    
    
     
   
   
 2 ( ) 0,0687 6,87%stV p  
7. Una corporación desea estimar el número total de horas perdidas debido a accidentes de
sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos
tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado,
formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas
mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres
grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo
diferencia entre los costes de observación de cada grupo, determine la mejor asignación
para una muestra de 40 empleados.
Obreros Técnicos Administrativos
2
iS 36 25 9
iN 132 92 27
SOLUCIÓN:
iN i iS  i iN  i
132
92
27
6
5
3
792
460
81
792 0,5941
1.333

460 0,3451
1.333

81 0,0608
1.333

1.333 1
Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales:
1
j j
j L
i i
i
N
N






1
2
3
40 0,5941 23,8 24
40 0,3451 13,8 14
40 0,0608 2,4 2 40
n
n
n n
   
   
    
45
8. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes
de observación y estimaciones de las proporciones
Tamaño del estrato Coste de observación Proporciones en %
ESTRATO 1 5000 9 90
ESTRATO 2 2000 25 55
ESTRATO 3 3000 16 70
Determine la mejor asignación para una muestra de 200 observaciones.
SOLUCIÓN:
iN ic 
ip 
iq  
i ip q  
i i i
i
N p q
c
i
5.000
2.000
3.000
3
5
4
0,90
0,55
0,70
0,10
0,45
0,30
0,3
0,4975
0,45826
500
199
343,695
500 0,4795
1.042,695

199 0,1909
1.042,695

343,695 0,3296
1.042,695

1.042,695 1
Donde se ha aplicado la asignación Óptima:
1
j j
j
j
j L
i i
i
i i
p q
N
c
p q
N
c




1
2
3
200 0,4795 95,9 96
200 0,1909 38,2 38
200 0,3296 65,9 66
200
n
n
n
n
   
   
   

9. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas
las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a
200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133
restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estimar la proporción
de piezas defectuosas de la factoría y dar el límite de error de estimación. Omita el
coeficiente corrector por población finita.
SOLUCIÓN:
Estrato iN in 
ip
 
1
i i
i
p q
n 
A
B
0.40 N
0.60 N
67
133
2/67=0.030
6/133=0.045
0.000441
0.000326
N 200
            
1
0.40 0.030 0.60 0.045 0.40 0.030 0.60 0.045 0.039 3.9%p N N
N
          
 
      2 2 2 2
2
1
0.40 0.000441 0.60 0.000326V p N N
N
      
    2 2
0.40 0.000441 0.60 0.000326 0.000188    
46
 2 0.000188 0.0274 2.74%B  
10. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres
categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas
pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto
almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las
categorías, resultando
Categoría Nº de piezas Peso en gramos
Pequeña 5 12, 14, 12, 15, 12
Mediana 6 16, 22, 24, 20, 20, 18
Grande 4 30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el número de
unidades que cada categoría debe aportar a la muestra para que el error en la estimación
del peso total no supere el medio kilo.
SOLUCIÓN:
Peso en gramos ( )con las funciones del modo SD de la calculadora
12, 14, 12, 15, 12 2
1 11,4142 2S S 
16, 22, 24, 20, 20, 18 2
2 22,8284 8S S 
30, 33, 31, 34 2
3 31,8257 3,3333S S 
iN i 2
i i iN  2
i iN 
1
j j
j L
i i
i
N
N






71,66i in 
300
500
200
1,4142
2,8284
1,8257
2
8
3,3333
424,26
1414,2
365,14
600
4000
666,66
0,1925
0,6418
0,1657
13,79 14
45,99 46
11,87 12
1000N  2203,6 5266,66 1 72n 
2
2
250.000
0,0625
4 4.000.000
B
D
N
  
2
1
2 2
1
71,66
( )L
i i
i
L
i i
i
N
n
N D N




 



11. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de
ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella
sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de
la operación de ensamble A y 40% de la operación de ensamble B. En una muestra
aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la
47
operación B. De entre los circuitos integrados muestreados de la operación A, 2 son
defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas.
a. Considerando únicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporción de los defectuosos en el lote, y establezca un
límite para el error de estimación.
b. Estratifique la muestra, después de la selección, en circuitos integrados
provenientes de la operación A y B, estime la proporción de los defectuosos en
la población, y fije un límite para el error de estimación.
c. ¿Qué respuesta encuentra más aceptable? ¿Por qué?
SOLUCIÓN:
a.  18
0,18 (18%)
100
p    
 
( ) 0,001491
1
pq
V p
n
 

   2 ( ) 0,0772 7,72%V p 
b.     
1 1
1 2 16
0,60 0,40 0,14 14%
20 80
L L
i
ist i i
i i
N
p N p p
N N 
   
       
   
 
 
     22
2
2 2
1 1 1
1
( )
1 1 1
L L L
i i i i i i i i i i
ist
i i ii i i i
p q p q p qN n N N
V p N
N n N N n N n  
 
    
   
  
   
2 20,10 0,90 0,20 0,80
0,60 0,40 0,00203
19 79
 
  
   2 ( ) 0,0901 9,01%stV p 
c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimación esté sesgada hacia el valor de B ( 
2 0,20p  ) frente al de A
( 
1 0,10p  ). En el apartado b. este hecho se corrige dando a 
1p y 
2p las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
12. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30
en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para
contrastar la posible demanda de este producto, lo introdujo en el menú de muestras
aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice
1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las
desviaciones típicas muestrales del número de pedidos de este producto recibidos por
restaurante en las tres ciudades durante una semana fueron:
48
1 1
2 2
3 3
21,2 12
13,3 11
26,1 9
y S
y S
y S
 
 
 
a. Estimar el número medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un límite del error de estimación.
b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
SOLUCIÓN:
a.
1
1 3834
19,17 /
200
L
ist i
i
y N y pedidos semana
N 
  
 
2
2
2
1
1
( ) 6,2965 2 ( ) 5,02 /
L
i i i
ist st
i i i
S N n
V y N V y pedidos semana
N n N

  
b.
iN i 2
i i iN  2
i iN 
1
j j
j L
i i
i
N
N






43,52i in 
100
70
30
12
11
9
144
121
81
1200
770
270
14400
8470
2430
0,5357
0,3438
0,1205
23,31 24
14,96 15
5,24 6
200N  2240 25300 1 45n 
2
9
2,25
4 4
B
D   
2
1
2 2
1
43,52
( )L
i i
i
L
i i
i
N
n
N D N




 



13. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al
realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los
siguientes resultados:
Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral
Eléctrica 24 972 202,396
No eléctrica 36 463 96,721
a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la
ciudad. Dé un límite para el error de estimación.
b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las
casas que no tienen calefacción eléctrica. Dé un límite para el error de
estimación.
49
SOLUCIÓN:
a.
iN in iy
2
iS i iN y i i
i
N n
N
 2
2 i i i
i
i i
S N n
N
n N

164
186
24
36
972
463
202,396
96,721
159.408
86.118
0,854
0,806
193.699,13
74.925,32
350 245.526 268.624,45
1
1 245.526
701,50
350
L
ist i
i
y N y
N 
  

2
2
2 2
1
1 268.624,45
( ) 2,19
350
L
i i i
ist
i i i
S N n
V y N
N n N

  
2 2,19 2,96
b.
2 463y 

2
2 2 2
2
2 2
96,721 186 36
( ) 2,17
36 186
S N n
V y
n N
 
  
2 2,17 2,94
50
3. Muestreo con información auxiliar.
3.1 Introducción.
3.2 Estimación de razón.
3.2.1 Estimación de la media y total poblacionales.
3.2.2 Determinación del tamaño muestral.
3.3 Estimación de regresión.
3.3.1 Estimación de la media y total poblacionales.
3.3.2 Determinación del tamaño muestral.
3.4 Estimación de diferencia.
3.4.1 Estimación de la media y total poblacionales.
3.4.2 Determinación del tamaño muestral.
3.1 Introducción.
Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar
que tengamos de una variable, como puede ser la media o el total poblacional, para estimar la
media o el total de la otra variable.
Notaremos por
Y Variable bajo estudio
X Variable que proporciona la información auxiliar
De las que tomaremos una muestra constituida por n pares de datos:
  ),(,...,, 11 nn yxyx
A partir de los datos muestrales se puede estimar la relación existente entre ambas
variables.
Pueden utilizarse distintos diseños de muestreo en la estimación con información auxiliar.
Aquí suponemos que se emplea el muestreo aleatorio simple.
La estimación con información auxiliar es importante cuando se pretende estimar el total sin
conocer el número de elementos de la población pero sí el valor total de la variable que
proporciona la información auxiliar.
Por ejemplo, debido a que existe una fuerte relación entre renta y ahorro, se puede estimar el
valor total de los ahorros de los individuos de una población si se conoce el valor total de las
rentas de dichos individuos. Así, si se sabe que por término medio el 10% de la renta se dedica
al ahorro y se conoce la renta total, el ahorro total se estima igual al 10% de la renta total.
Observemos que la estimación del total de ahorro se ha llevado a cabo sin necesidad de
conocer el número de individuos de la población, N.
51
Dependiendo de la relación entre las variables X e Y utilizaremos:
 Estimadores de razón  y bx o con otra notación y rx 
 Estimadores de regresión  y a bx 
 Estimadores de diferencia  y a x o con otra notación y d x   
Estos estimadores sólo se deben utilizar si entre las dos variables existe una fuerte relación
lineal positiva,
2
1
xyr .
3.2 Estimación de razón
Dada una población de tamaño N en la que se consideran las variables X e Y , se define la
razón como el cociente:
x
y
R



Es decir, la proporción del total de Y respecto del total de X . Puesto que yy N  y
xx N  , obtenemos
Y Y
X X
N
R
N
 
 
 
De estas definiciones se deduce que
xy
xy
R
R




Por tanto, si se conocen los valores de la media y el total de la variable X , para estimar la
media y el total de Y sólo hay que estimar el valor de R (que notaremos como R r ):
ˆ
ˆ
y x
y x
r
r
 
 


Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra
aleatoria simple:    1 1, ,..., ,n ny x y x , podemos estimar R tomando el cociente entre las
medias muestrales:
 ESTIMADOR DE LA RAZÓN: 1 1
1 1
1
1
n n
i i
i i
n n
i i
i i
y y
y n
r
x
x x
n
 
 
  
 
 
 VARIANZA ESTIMADA DE r :
2
2
1ˆ( ) r
x
S N n
V r
n N
 
  
 
,  



n
i
iir rxy
n
S
1
22
1
1
52
3.2.1 Estimación de la media y el total poblacionales
Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el
modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,
 , ,y bx en este contexto se nota b r dado su significado y rx  
 ESTIMADOR DE LA MEDIA: xy r ˆ
Para estimar yˆ necesitamos conocer el verdadero valor de x . No vale la estimación
x x 
 VARIANZA ESTIMADA DE yˆ :   




 

N
nN
n
S
rVV r
xy
2
2
)(ˆˆˆ 
 ESTIMADOR DEL TOTAL: xy r ˆ
 VARIANZA ESTIMADA DE yˆ :  
2 2 2
2
2
ˆ ˆˆ( ) ( ) x r r
y x
x
S N n S
V V r N N n
n N n

 

 
    
 
Si x y N son desconocidos no podemos utilizar la expresión anterior. Entonces si
1
N n
N
N

   y aproximando x por x se tiene 
2 2
2
( ) x r
y
S
V
nx

 
Comentarios sobre estos estimadores:
 Son estimadores sesgados.
 Cuando N es desconocido y si estimamos que Nn %5 , es decir que 95,0

N
nN
,
entonces 1

N
nN
. (Véase ejercicio resuelto 4)
 De la relación
N
x
x

  , se sigue que conociendo dos de estos elementos se puede
calcular el tercero. (Véase ejemplo 3.1:
3840
5,12 /
750
x ha socio
x N

    )
 A la hora de estimar el total, aunque conozcamos el tamaño de la población, cuando
existe una fuerte correlación entre las variables, se comporta mejor el muestreo con
información auxiliar  xy r ˆ que el muestreo aleatorio simple  yNˆ . (Véase
ejemplo 3.5)
53
Ejemplo 3.1
Mediante una tasación previa se desea estimar la producción media y la producción total de
los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de
3840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les
preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron:
Superficie Producción Superficie Producción
3,7 12 3 8
4,3 14 7 20
4,1 11 5,4 16
5 15 4,4 14
5,5 16 5,5 18
3,8 12 5 15
8 24 5,9 18
5,1 15 5,6 17
5,7 18 5 15
6 20 7,2 22
Estime la producción media y total mediante los estimadores de razón y muestreo aleatorio
simple. Calcule sus respectivos límites para el error de estimación y compárelos.
Solución
producción (toneladas, tm) uperficie plantada (hectáreas, ha)Y X S 
ix iy 2
ix 2
iy i ix y
3,7 12 13,69 144 44,4
4,3 14 18,49 196 60,2
4,1 11 16,81 121 45,1
5 15 25 225 75
5,5 16 30,25 256 88
3,8 12 14,44 144 45,6
8 24 64 576 192
5,1 15 26,01 225 76,5
5,7 18 32,49 324 102,6
6 20 36 400 120
3 8 9 64 24
7 20 49 400 140
5,4 16 29,16 256 86,4
4,4 14 19,36 196 61,6
5,5 18 30,25 324 99
5 15 25 225 75
5,9 18 34,81 324 106,2
5,6 17 31,36 289 95,2
5 15 25 225 75
7,2 22 51,84 484 158,4
TOTALES 105,2 320 581,96 5398 1770,2
54
Del enunciado y de la tabla anterior obtenemos:
20 750 socios 3840 haxn N   
2 2
1 1 1 1 1
105,2 320 581,96 5398 1770,2
n n n n n
i i i i i i
i i i i i
x y x y x y
    
        
 
2 22 2 2
1 1 1
1 105,2 1 1 581,96
5,26 5,26 1,4304
20 20
n n n
i x i i
i i i
x x s x x x x
n n n  
           
 
2 22 2 2
1 1 1
1 320 1 1 5398
16 16 13,9
20 20
n n n
i y i i
i i i
y y s y y y y
n n n  
           
    
1 1
1 1 1770,2
5,26 16 4,35
20
n n
xy i i i i
i i
s x x y y x y x y
n n 
         
Si queremos calcular las cuasivarianzas a partir de las varianzas:
2 2 2 220 20
1,4304 1,5057 13,9 14,6316
1 19 1 19
x x y y
n n
S s S s
n n
     
 
y hallando las raíces cuadradas obtenemos las desviaciones típicas  ,x ys s y las
cuasidesviaciones típicas  ,x yS S .
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se
simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas de forma
inmediata:
2
1n nx xx x x s desviación típica S cuasidesviación típica      
La relación entre las variables es alta,
4,35
0,9756
1,196 3,728
xy
xy
x y
s
r
s s
  

. Esto, junto con la
información auxiliar que disponemos de la variable X, justifica el uso de estimadores de
razón. Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de
superficie le corresponde una producción de 0 tm).
20
1
20
1
320
3,042 tm/ha
105,2
ˆ 3,042 3840 11680,6 tm
i
i
i
i
y x
y
r
x
r 


  
   


3840
5,12 /
750
x ha socio
x N

   
ˆ 3,042 5,12 15,57y xr tm/socio    
55
 
20 20 20 20
22 2 2 2
1 1 1 1
1 1
2 0,706
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
         
   
   
2
ˆ ˆˆ ˆ0,0344 2 0,37 tm/socior
y y
S N n
V B V
n N
 
 
     
 
2 2 2
2
2
ˆ ˆˆ ˆ( ) 19326,75 2 ( ) 278,04 tmx r r
y y
x
S N n S N n
V N B V
n N n N


 

    
        
   
o 750 750 0,37 277,5B B tm      (los dos procedimientos no coinciden por simples
errores de redondeo en el valor de B ).
A continuación lo estimaremos utilizando muestro aleatorio simple:
 
2
320 14,63 750 20ˆ16 / 0,712
20 20 750
S N n
y tm socio V y
n N
    
       
   
2 0,712 1,69 /B tm socio  
320
ˆ 750 12000
20
Ny tm   
 
2
2 2 14,63 750 20ˆ ˆ 750 400539,47
20 750
S N n
V N
n N

    
     
   
2 400539,47 1265,76B tm   o 750B B  
Observemos que el límite del error de estimación, tanto para la media como para el total, es
mucho mayor que el cometido utilizando estimadores de razón. 
3.2.2 Determinación del tamaño muestral
Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una
cota de error B
ND
N
n
r
r

 2
2


donde para estimar:
 la razón:
4
22
xB
D


 la media:
4
2
B
D 
 el total: 2
2
4N
B
D 
56
Comentarios:
 2
r se estima utilizando una muestra previa: 22
ˆ rr S .
 Si x es desconcocido, 22
ˆ xx 
Ejemplo 3.2 (continuación del ejemplo 3.1)
Supongamos que queremos reducir el límite para el error de estimación de la media a 0,25
tm/socio y el del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su
producción antes de realizar una nueva estimación?
Solución
MEDIA: 2
2
2
2
750 0,706
0,25
0,706 750
4
42,6 43 socios
4
r
r
N
n
B
N




 
  
 
  

TOTAL:
2 2
2 2 2
2 2
2
750 0,706
37,7 38 socios
200
0,706
4 4 4 750
r r
r r
N N
n
B B
N
N N
 
 

    
 
    
 
Necesitamos al menos 43 socios para cumplir con ambos niveles de error. 
3.3 Estimación de regresión
El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es
lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar
estimadores de regresión.
En el modelo lineal simple bXaY  , el método de mínimos cuadrados permite estimar a y
b de la siguiente forma:
  
 
1
2
2
1
n
i i
xy i
n
x
i
i
y y x x
s
b
s
x x
a y bx


 
 

 


donde
 
  
22 2 2
1 1
1 1
1 1
1 1
n n
x i i
i i
n n
xy i i i i
i i
s x x x x
n n
s x x y y x y x y
n n
 
 
   
    
 
 
57
3.3.1 Estimación de la media y el total poblacionales
 ESTIMADOR DE LA MEDIA:  ˆyL x x xa b y bx b y b x          
Para estimar ˆyL necesitamos conocer el verdadero valor de x . No vale la estimación
x x 
 VARIANZA ESTIMADA DE yLˆ :   




 

N
nN
n
S
V L
yL
2
ˆˆ 
siendo 2
LS la varianza residual en el modelo lineal simple:
     
2
2
2 2 2 2
2
1
1
1
2 2 2
n
xy
L i i y y xy
i x
sn n
S y y b x x s s r
n n s n
 
        
   

 ESTIMADOR DEL TOTAL: yLyL N ˆˆ 
En este caso para estimar el total es necesario conocer el tamaño de la población N. No
se puede estimar como ˆyL xa b   ya que la recta de regresión no pasa por el punto
 yx  , .
 VARIANZA ESTIMADA DE ˆyL :    yLyL VNV  ˆˆˆˆ 2

Ejemplo 3.3
Para un grupo de 1000 pequeños establecimientos se desea realizar un estudio sobre las ventas
diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros.
Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad
y ventas diarios. Los resultados son:
Gastos Ventas
3,7 120
4,3 140
4,1 135
5 150
5,5 160
3,8 120
8 160
5,1 150
5,7 125
6 130
0 80
7 150
5,4 150
4,4 120
5,5 140
5 150
5,9 150
6,6 170
58
Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el
límite para el error de estimación.
Solución
ventas diaria (euros) gastos diarios en publicidad (euros)Y X 
18 establecimientos 1000 establecimientos 5€xn N   
Tal y como se explicó en la resolución del ejemplo 3.1 obtenemos:
5,0556€ 138,889€x y 
2
1,6375 2,6814x xs s  
2
20,314 412,654y ys s  
27,7284xys 
La relación entre las variables es fuerte: 0,8336xyr  .
2
27,7284
10,341
2,6814
xy
x
s
b
s
      ˆ 138,889 10,341 5 5,0556 138,314€yL xy b x       
ˆ ˆ 138314€yL yLN  
 2 2 2
1 141,6
2
L y xy
n
S s r
n
  

 
2
ˆ ˆ 7,73L
yL
S N n
V
n N

 
  
 
 ˆ ˆ2 5,56yLB V   1000 5,56 5560€B N B      
3.3.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la
cota de error no supere el valor B
ND
N
n
L
L

 2
2


donde para estimar:
 la media:
4
2
B
D 
 el total: 2
2
4N
B
D 
2
L se estima utilizando una muestra previa: 22
ˆ LL S
Ejemplo 3.4 (continuación del ejemplo 3.3)
Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere
los 1000 euros ¿cuál debe ser el tamaño muestral?
59
Solución
2
2 2
2
2 2
1000 141,6
361,6 362
1000
141,6 1000
4 4 1000
L
L
N
n
B
N
N



   
 
   
 
establecimientos.

3.4 Estimación de diferencia
El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja)
cuando la relación entre las variables es lineal y la pendiente del modelo es uno.
 ( )y a x ó y y x x a y x d       
Comúnmente se emplea en procedimientos de auditoría.
3.4.1 Estimación de la media y el total poblacionales
 ESTIMADOR DE LA MEDIA:   dxy xxyD  ˆ xyd 
Para estimar ˆyD necesitamos conocer el verdadero valor de x . No vale la estimación
x x 
 VARIANZA ESTIMADA DE yDˆ :   




 

N
nN
n
S
V D
yD
2
ˆˆ 
     





n
i
i
n
i
iiD dd
n
dxy
n
S
1
2
1
22
1
1
1
1
, donde iii xyd  , por tanto 2
DS es la
cuasivarianza de los id .
 ESTIMADOR DEL TOTAL: yDyD N ˆˆ 
En este caso para estimar el total es necesario conocer el tamaño de la población N. No
se puede estimar como  ˆyL x xy x d       por análogas razones a las expuestas
en el estimador de regresión.
 VARIANZA ESTIMADA DE YDˆ :    yDyD VNV  ˆˆˆˆ 2

Ejemplo 3.5
Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se
tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una
muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
60
X=Ingresos Y=Gastos
470 405
650 585
710 650
300 240
475 410
505 435
610 550
380 320
540 480
520 460
Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo
aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el límite para el error
de estimación en cada caso.
Solución
gasto diario (euros) ingresos diarios (euros)Y X 
10 establecimientos 200 establecimientos 500€xn N   
Tal y como se explicó en la resolución del ejemplo 3.1 obtenemos:
516€ 453,5€x y 
2
115,797 13409x xs s  
2
115,738 13395,3y ys s  
2
14883,7yS  13396,5xys 
La relación entre las variables es muy fuerte: 2
0,99958 0,99916xy xyr r  .
MUESTREO ALEATORIO SIMPLE
2
y
ˆ ˆ453,5€ 90700€
Sˆ ˆˆ ˆV( ) 1413,94 B 2 V( ) 75,20€ B 200 B =15040,97€
y Ny
N n
n N
  
 
 
   
 
      
 
ESTIMADORES DE RAZÓN
ˆ ˆ0,879 200 100000 87900€ 439,5€x x y x y x
y
r r r
x
            
 
22 2 2 2
1 1 1 1
1 1
2 227,717
1 1
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
         
   
 
2
ˆ ˆ 21,63 9,3€r
y
S N n
V B
n N

 
    
 
=1860€B N B  
61
ESTIMADORES DE REGRESIÓN
2
13.396,5ˆ 0,99907
13.409
xy
x
s
b
s
    ˆˆ 437,515€yL xy b x     ˆ ˆ 87.503€yL yLN  
   
2
2 2 2 ˆ ˆ1 14,05 1,33
2
L
L y xy yL
n S N n
S s r V
n n N

 
     
  
2,3104€ 462,09€B B NB    
ESTIMADORES DE DIFERENCIA
62,5d   ˆ ˆ ˆ437,5€ 87500€yD x yD yDd N       
(con la calculadora hallamos 1n  sobre las diferencias id y lo elevamos al cuadrado)
 
2
2
1
1
12,5
1
n
D i
i
S d d
n 
  


   
2
ˆ ˆˆ ˆ1,1875 2 2,179 435,8899D
yD yD
S N n
V B V B NB
n N
   
 
      
 

3.4.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al
estimar la media y el total poblacionales
ND
N
n
D
D

 2
2


donde para estimar:
 la media:
4
2
B
D 
 el total: 2
2
4N
B
D 
2
D se estima utilizando una muestra previa: 22
ˆ DD S
Ejemplo 3.6 (continuación ejemplo 3.5)
Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un
error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral?
Solución
2
2 2
2
2
200 12,5
20 establecimientos
300
12,5
4 4 200
D
D
N
n
B
N
N



  
 


62
EJERCICIOS RESUELTOS
1. En una población de 500 hogares, para la que es conocido que el gasto total general
durante un año es de 15000000 €, se quiere estimar el gasto total en alimentación durante
un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona
los siguientes valores anuales en €:
Gasto en alimentación 12500 15000 10000 17500
Gasto general 24000 31000 20000 36000
Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo
de confianza.
SOLUCIÓN (trabajaremos en cientos de euros)
ix iy 2
ix 2
iy i ix y
240
310
200
360
125
150
100
175
57600
96100
40000
129600
15625
22500
10000
30625
30000
46500
20000
63000
1110 550 323300 78750 159500
1
1
550
500 4 0,4955 0,4955 150000 74325 €
1110
n
i
i
y xn
i
i
y
N n r r cientos de
x
 

        



7432500 €y 
 
2
2 2 2 2
1 1 1 1
1 1 62,2
2 20,73
1 1 3
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
          
   
 
2
( ) ( ) 1285,4667 2 ( ) 2267,568r
y y
S
V N N n V
n
     
 72057,432 ; 76592,568 €y en cientos de 
Para expresarlo en € hay que multiplicarlo por cien.
2. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.
El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del
barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por
vivienda. A partir de los datos siguientes:
25 25 25
2 2
1 1 1
9,1; 2,6; 2240; 169; 522i i i i
i i i
x y x y x y
  
      
Estime la razón personas/habitación en el barrio y establezca el límite para el error de
estimación con una confianza del 95%.
63
SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones
del formulario)
22 21
1
275 25 3,5 ./ . 2,6 6,76
n
i
i
yn
i
i
x
x
N n r pers hab y
yy


       


 
2
2 2 2 2
1 1 1 1
1 1
2 27,34375
1 1
n n n n
r i i i i i i
i i i i
S x ry x r y r x y
n n   
 
         
   
 
2
2
1 ( )
( ) 0,1471 2 ( ) 0,767r
y
N n S
V r V r
N n

  
3. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego
constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y metros
cúbicos utilizados en riego aparecen en la siguiente tabla
3
m 600 1800 750 900 1100 1400 950 700 1000 720
Hectáreas 50 150 60 70 100 120 80 60 90 60
Estime la media de 3
m /hectárea que utiliza la comunidad de regantes y la cota del error de
dicha estimación.
SOLUCIÓN:
Y = consumo de 3
m de agua, X = tamaño de la parcela en hectáreas
ix iy 2
ix 2
iy i ix y
50 600 2500 360000 30000
150 1800 22500 3240000 270000
60 750 3600 562500 45000
70 900 4900 810000 63000
100 1100 10000 1210000 110000
120 1400 14400 1960000 168000
80 950 6400 902500 76000
60 700 3600 490000 42000
90 1000 8100 1000000 90000
60 720 3600 518400 43200
840 9920 79600 11053400 937200
31
1
9920
11'81 /
840
n
i
i
n
i
i
y
r m hectarea
x


  


 
22 2 2 2
1 1 1 1
1 1
2
1 1
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
         
   
 
1
11053400 11102297'56 22136664 2114'84
9
   
64
 840
84
10
x x   

2
2 2
1 1 240 2114'84
( ) 0'02877
84 250 10
r
x
N n S
V r
N n

  
2 ( ) 0'3392V r 
4. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha
ciudad, vía declaración de la renta, ascienden a 1502530 euros mensuales. Se realiza una
encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen
en esta tabla.
Renta Consumo
1702,44 1204
1339,56 1000
981,06 800
2537,04 1800
1519,85 1200
3080,19 2600
1502,53 1080
1702,87 1240
1402,36 1000
1803,04 1400
2053,46 1484
3005,06 2000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razón. Obtenga el límite para el error de estimación.
SOLUCIÓN:
Denotemos por Y = consumo mensual X = ingresos mensuales
De la información muestral obtenemos
12 12
1 1
12 16808 euros 22629,46 eurosi i
i i
n y x
 
   
y como información auxiliar sabemos que 1502530x  euros.
Podemos comprobar que el coeficiente de correlación lineal es alto, 9677,0
yx
xy
xy
ss
s
r .
Esto junto con la información auxiliar nos permite utilizar muestreo con información
auxiliar, en concreto utilizaremos estimadores de razón.
65
12
1
1 2
1
0, 7 4 2 7
ˆ 1 1 1 6 0 0 2, 0 7 €
i
i
i
i
y x
y
r
x
r 


 
 


Para calcular
22
2
ˆ ˆ( ) x r
Y
x
S N n
V
n N



 
  
 
tenemos en cuenta que:
 
12
i 1
No conocemos , pero en la ciudad hay muchos hogares, observando < 5%i xN x 

 
 estimamos que < 5% 1
N n
n N
N

  
 1885,79€x x  
 
12 12 12 12
22 2 2 2
1 1 1 1
1 1
2 16479,7
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
          
   
ˆ ˆˆ ˆ( ) 871825002,67 2 ( ) 59053,37€Y YV B V    
5. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una
agencia de seguros, en el presente mes, han sido (en euros)
570 721 650 650 569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime
el total de ingresos y el límite para el error de estimación.
SOLUCIÓN:
N=250, n=5, 12764x  , X=gastos, Y=ingresos
( )con las funciones del modo SD de la calculadora : 2
632 4095,5Dd S 
 13396 €yD x d     3349000 €yD yDN  
   
2 2
2 2
( ) 50169875 € 2 ( ) 14166,14 €D D
yD yD
N n S S
V N N N n V
N n n
 

     
6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las
ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de
ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses
correspondiente al año anterior, ese total es de 128200 €. Una muestra aleatoria simple de
5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la
siguiente tabla:
66
Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual
1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza.
SOLUCIÓN:
N=123, n=5, 128200 €x  , X=ganancias del año anterior, Y=ganancias del año actual
( )con las funciones del modo SD de la calculadora :
5 5
2
1 1
5 5
2
1 1
882 4410 4495700
924 4620 4961400
i i
i i
i i
i i
x x x
y y y
 
 
  
  
 
 
1
1
1,047619
n
i
i
n
i
i
y
y
r
xx


  


134304,76 €y xr  
 
5 5 5 5
22 2 2 2
1 1 1 1
1 1
2 1640,25
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
         
   
   
2
( ) 4761314,071 2 ( ) 4364,09r
y y
S
V N N n V
n
     
 129940,67 ,138668,85y 
7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de
promoción regional sobre las ventas totales de un producto en particular. Una muestra
aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se
vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo
actual de tres meses y para el periodo de tres meses previo a la nueva campaña.
Tienda Ventas antes de
la campaña
Ventas
actuales
1 208 239
2 400 428
3 440 472
4 259 276
5 351 363
i ix y
335500
561600
2400000
1050600
372000
5
1
4719700i i
i
x y


67
Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño
de la muestra para estimar ˆy con un límite para el error de estimación de 2000€,
cuando se utiliza el estimador de razón.
SOLUCIÓN:
N=452, n’=5, X=ventas antes de la campaña, Y=ventas actuales
( )con las funciones del modo SD de la calculadora :
5 5
2
1 1
5 5
2
1 1
331,6 1658 587146
355,6 1778 671034
i i
i i
i i
i i
x x x
y y y
 
 
  
  
 
 
5
1
5
1
1,072376
i
i
i
i
y
y
r
xx


  


 
5 5 5 5
22 2 2 2
1 1 1 1
1 1
2 109,4775
' 1 ' 1
r i i i i i i
i i i i
S y rx y r x r x y
n n   
 
         
   
2
2
4,8947
4
B
D
N
  2
2
109,4775r rS  
2
2
21,3 22r
r
N
n
ND


  

i ix y
49712
171200
207680
71484
127413
5
1
627489i i
i
x y


68
4. Muestreo sistemático.
4.1 Selección de una muestra sistemática. Usos. Ventajas.
4.2 Estimación de la media, proporción y total poblacionales.
4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
4.4 Determinación del tamaño muestral.
4.1 Selección de una muestra sistemática. Usos. Ventajas.
En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una
muestra sistemática de “1 en k” es la que se extrae de la siguiente forma:
1. Se selecciona aleatoriamente un elemento (llamado punto de inicio o pivote) de los
primeros k elementos de la población.
2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de
tamaño n .
k se toma como el número entero menor o igual que el cociente
n
N
:
n
N
k  .
Nos podemos encontrar con las siguientes situaciones:
1.
n
N
k  entero. Entonces se obtienen exactamente n observaciones.
2.
n
N
no es entero. Por ejemplo si 103N y 5n , entonces 6,20
n
N
y tomamos
20k . Según el punto inicial nos podemos encontrar con:
a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos:
2º, 22º, 42º, 62º, 82º, 102º
Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Podríamos
elegir también el 102º y la muestra sería de tamaño 6.
b. Si se elige, por ejemplo, la observación 18º como la inicial, obtendríamos una
muestra de tamaño 5:
18º, 38º, 58º, 78º, 98º
3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma
que se asegure el número mínimo deseado de elementos de la muestra. N se estima
por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será
mayor o igual de lo requerido.
69
Ventajas del muestreo sistemático frente al muestreo aleatorio simple:
 En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a
menos errores del encuestador.
En el muestreo aleatorio simple podría ser un problema si dos números aleatorios fueran
consecutivos o muy próximos. Por ejemplo, sería difícil escoger una muestra aleatoria
simple de personas entre las que entran a un supermercado. Al seleccionar las personas
al azar podríamos encontrarnos que no hemos acabado de hacer la encuesta a un cliente
cuando el siguiente a encuestar ya ha pasado. Pero sí sería fácil coger 1 de cada 20
personas que pasen hasta completar la muestra.
 Frecuentemente, con igual tamaño de muestra, el muestreo sistemático proporciona
mejor información que el muestreo aleatorio simple. Esto se debe a que la muestra
sistemática se extiende uniformemente a lo largo de toda la población, mientras que en
el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se
concentre en una parte de la población y descuide otras.
Por ejemplo, supongamos que en una fábrica los primeros 3000 motores se fabrican
correctamente y los últimos 3000 son defectuosos por un desajuste en la línea de
montaje. Una muestra aleatoria simple podría seleccionar un gran número o incluso
todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El
muestreo sistemático, en cambio, selecciona el mismo número de motores de ambos
grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un
orden en la población, el muestreo sistemático es mejor que el muestreo aleatorio
simple.
Usos:
Este tipo de muestreo es muy utilizado por los planes de muestreo para el control de calidad
dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de apuntes
para comprobar y los investigadores de mercados cuando se enfrentan a personas en
movimiento.
4.2 Estimación de la media, proporción y el total poblacionales
 ESTIMADOR DE LA MEDIA POBLACIONAL: ( 1)
1
1
ˆ
n
sy i j k
j
y y
n
  

  
1 i k  i=punto de inicio o pivote
70
 VARIANZA ESTIMADA DE syy :   




 

N
nN
n
S
yV sy
2
ˆ
Comentarios.
- Si se desconoce el tamaño poblacional por su gran magnitud, entonces .1

N
nN
- Cuando N no es múltiplo exacto de n , el estimador es sesgado.
Como puede observarse, la varianza del estimador de la media se estima igual que en el
muestreo aleatorio simple (véase 4.3 Comparación con el muestreo aleatorio simple). Aunque
las varianzas de los estimadores no son realmente iguales, éstas son:
 
1
2



N
nN
n
yV

y     

11
2
 n
n
yV sy
donde  = coeficiente de correlación entre los elementos de una muestra sistemática.
El tamaño poblacional se desconoce en muchas situaciones prácticas en las que se usa el
muestreo sistemático. Cuando N es conocido también se puede estimar el total poblacional.
 ESTIMADOR DEL TOTAL POBLACIONAL: syyNˆ
 VARIANZA ESTIMADA DE ˆ :     




 

N
nN
n
S
NyVNV sy
2
22 ˆˆˆ 
Ejemplo 4.1
Los funcionarios de un museo están interesados en el número total de personas que visitaron
el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo
en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los
funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra
sistemática de 1 en 10 se resume en esta tabla
Día Nº personas que visitan el museo
3 160
13 350
23 225
 
173 290
18 18
2
1 1
4868 1321450i i
i i
y y
 
  
Use estos datos para estimar el número total de personas que visitaron el museo durante el
periodo especificado y el límite para el error de estimación.
71
Solución
180N 
4868
ˆ 180 48680
18
syNy    visitantes
 
2
4868
1321450
289,79
1
2
n
S
n
 
 
 
  

 ˆ ˆ 469461,18
2
2 S N - n
V τ = N
n N
 
 
 
B 1370,34  
Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son
análogas a las propiedades de la media muestral:
 ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: ( 1)
1
1
ˆ , 0,1
n
sy i j k i
j
p y y
n
 

 
1 i k  i=punto de inicio o pivote
 VARIANZA ESTIMADA DE sypˆ :   




 


N
nN
n
qp
pV
sysy
sy
1
ˆˆ
ˆˆ
Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio
simple.
Ejemplo 4.2
La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el
permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un
conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de
conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga
que 2800 autos pasan por el puesto de verificación durante el periodo de muestreo.
Automóvil Respuesta
1 1
8 1
15 0
 
2794 1
400
1
324i
i
y


Solución
81,0
400
324
ˆ  sysy yp
72
 
ˆ ˆ 0,81(1 0,81) 2800 400ˆ ˆ 0,000330612 0,0364
1 400 1 2800
sy sy
sy
p q N n
V p B
n N
     
       
    

Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse
dentro de cada estrato en lugar del muestreo aleatorio simple, aplicándose las fórmulas del
muestreo aleatorio estratificado, análogamente a como se han utilizado las del muestreo
aleatorio simple para aproximar el comportamiento del muestreo sistemático.
4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y
periódicas
Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo
sistemático se puede suponer igual a la del muestreo aleatorio simple.
Según las expresiones
 
1
2



N
nN
n
yV

y     

11
2
 n
n
yV sy
éstas serán similares cuando 1
1
N n
N



y 0  , pero en otros casos no.
Distinguimos los siguientes casos:
A. Población ordenada  0
Una población es ordenada cuando los elementos que la constituyen están ordenados
de acuerdo a los valores, crecientes o decrecientes, de una determinada característica.
En este caso es preferible el uso del muestreo sistemático, ya que la muestra se
extiende uniformemente a lo largo de toda la población:
0      yVyV sy 
Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor
cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza
menor que las de una muestra aleatoria simple (es posible que ésta última contenga
solo cantidades grandes o cantidades pequeñas).
Al utilizar las varianzas estimadas de los estimadores del muestreo aleatorio simple en
el muestreo sistemático conseguimos una estimación conservadora del error (mayor
que el error real que cometemos en el muestreo sistemático).
73
B. Población aleatoria  0
Se dice que una población es aleatoria cuando sus elementos están ordenados al azar.
En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo
sistemático ya que
0      yVyV sy  .
Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus
calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen
del apellido del estudiante.
C. Población periódica  0
Una población es periódica cuando los valores de la variable objeto de estudio tienen
una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que
0      yVyV sy  .
Por ejemplo:
a. Supongamos que tenemos una lista en la que los nombres de mujeres y
hombres se alternan. Una muestra sistemática con k par proporcionaría solo
una lista de mujeres o de hombres.
b. Ventas diarias de un supermercado a partir de una muestra sistemática con
7k .
Para evitar este problema, el investigador puede cambiar varias veces el punto de
inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y
comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del
muestreo aleatorio simple en el muestreo sistemático estaría justificado.
4.4 Determinación del tamaño muestral
El tamaño muestral requerido para estimar la media poblacional con un límite B para el error
de estimación se obtiene de las expresiones del muestreo aleatorio simple. Lo que conduce a
obtener muestras más grandes de las necesarias en poblaciones ordenadas y muestras más
pequeñas en poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de
inicio). En poblaciones aleatorias no tendremos problemas.
74
Tamaño muestral requerido para estimar  y  con un límite B para el error de estimación
2
2
)1( 



DN
N
n con
2
2
2
para estimar la media
4
para estimar el total
4
B
D
B
N



 



Tamaño muestral requerido para estimar p y  con un límite B para el error de estimación
Npq
n=
(N -1)D+ pq
con
2
2
2
para estimar p
4
para estimar el total
4
B
D
B
N



 



Ejemplo 4.3 (continuación del ejemplo 4.2)
En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5000 automóviles por
el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error
inferior al 2%.
Solución
  0,81 1 0,19p q p   
 
2 2
5000 0,81 (1 0,81)
1176,97 1177
0,02
( 1) (5000 1) 0,81 (1 0,81)
4 4
Npq
n automóviles
B
N pq
  
   
 
      
 
4,25
N
k
n
 
Si tomáramos k=5
5000
1000
5
n   . Tomando k=4
5000
1250 1177
4
n    . 
EJERCICIOS RESUELTOS
1. La gerencia de una compañía privada con 2000 empleados está interesada en estimar la
proporción de empleados que están a favor de una nueva política de inversión. Una muestra
sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día
de trabajo (las respuestas a favor se han representado como 1)
75
Empleado
muestreado
Respuesta
3 1
13 0
23 1
 
1993 1
200
1
110i
i
y


Se quiere volver a repetir el anterior estudio pero con un error de estimación inferior al 5%
(considerando la muestra anterior como una muestra previa para estimar los parámetros
necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k).
SOLUCIÓN
  
2
110 0,05
2000 0,55 1 0,45 0,000625
200 4
N p q p D       
330,7 331 6,04 6
( 1)
Npq N
n k k
N D pq n
      
 
2. Un auditor se enfrenta a una larga lista de 1000 cuentas por cobrar de una empresa. El
valor de cada una de estas cuentas no suele superar los 21000€. El auditor quiere estimar
el valor total de las deudas por cobrar con un error inferior a 1000000€ y con una
confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine
el valor de k.
SOLUCIÓN
2 2
2
2 2
21000 1000000
1000 21000 27562500 250000
4 4 1000
N R D     

2
2
99,39 100 10
( 1)
N N
n k
N D n


    
 
3. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000
individuos para Estados Unidos durante seis años seleccionados sistemáticamente.
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2073719 1973576 4047295 26,0
1960 2179708 2078142 4257850 23,7
1965 1927054 1833304 3760358 19,4
1970 1915378 1816008 3731386 18,4
1975 1613135 1531063 3144198 14,6
1980 1852616 1759642 3612258 15,9
Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
SOLUCIÓN
Desde 1955 hasta 1980, ambos inclusive, hay 26 años. 26N  .
76
1
1 1
ˆ 11.561.610 1.926.935
6
n
sy i
i
y y
n


   
2
37913412871,20S  (con las funciones estadísticas en el modo SD de la calculadora)
 
2
ˆ 4860693957,85sy
S N n
V y
n N
 
  
 
B 139437,35
4. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar
la cantidad media de llenado en latas de 33cl que salen de una línea de producción. Los
datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción
diaria de 1800 latas.
Cantidad de llenado en cl
33 32,5 33,5 33 32 31
Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un
error de estimación inferior a 0,42cl, considerando la muestra anterior como una muestra
previa para estimar los parámetros necesarios.
SOLUCIÓN: N=1800 n’=6
( )con las funciones estadísticas del modo SD de la calculadora : 2 2 2
' 1 ' 10,8n nS S  
2
0,0441
4
B
D  
2
2
1800
17,97 18 100
( 1) 18
N
n k
N D


    
 
5. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los
cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación
inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los
parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k).
SOLUCIÓN:
N=650 n’=65  47
0,7231 1 0,7231 0,2769
65
p q    
2
0,05 0,000625
4
B
B D  
650
214,8 215 3,02 3
( 1) 215
Npq
n k k
N D pq
     
 
77
5. Muestreo por conglomerados.
5.1 Necesidad y ventajas del muestreo por conglomerados.
5.2 Formación de los conglomerados. Conglomerados y estratos.
5.3 Estimación de la media, proporción y total poblacionales.
5.4 Determinación del tamaño muestral.
5.1 Necesidad y ventajas del muestreo por conglomerados.
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo
es una colección (o conglomerado) de elementos.
El muestreo por conglomerados es útil para obtener información en las siguientes situaciones:
 Es complicado disponer de una lista de los elementos de la población, mientras que es
fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase =
elemento, aulas = conglomerados)
 El coste de obtención de las observaciones es menor debido al agrupamiento de los
elementos.
5.2 Formación de los conglomerados. Conglomerados y estratos.
Los elementos de un conglomerado deben ser diferentes entre sí, así una muestra con pocos
conglomerados recogería gran cantidad de información sobre el parámetro poblacional. Si los
elementos dentro de un conglomerado presentan características similares, tomar varias
observaciones dentro de un conglomerado no aporta más información.
Recordemos que los estratos debían ser tan homogéneos como fuera posible y diferir tanto
como se pudiera uno de otro con respecto a la característica que está siendo esudiada. Los
conglomerados, sin embargo, deben ser tan heterogéneos dentro de ellos como sea posible y
muy similar uno a otro para que el muestreo por conglomerados esté indicado y proporcione
buenos resultados.
Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de
conglomerados.
5.3 Estimación de la media, proporción y total poblacionales.
Vamos a utilizar la siguiente notación:
N  conglomerados en la población. n  conglomerados en la muestra.
im  elementos en el conglomerado i
iy  suma de las observaciones en el conglomerado i
78
1
N
i
i
M m

  elementos en la población (con frecuencia es desconocido)
1
n
i
i
m m

  elementos en la muestra
1
1 N
i
i
M m
N 
  tamaño medio de los conglomerados de la población (con frecuencia es desconocido)
1
1 n
i
i
m m
n 
  tamaño medio de los conglomerados de la muestra (se utililza para estimar M ).
(A) Estimación de la media.
El estimador de la media poblacional  es la media y ,
 1
1
1
1
n
in
i
i n
i
i
i
y
y y
m
m
 


  



La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y
toma la forma de la varianza de un estimador de razón.

2
2
1
( ) cSN n
V y
N nM

 donde  
2
2
1
1
1
n
c i i
i
S y ym
n 
 


( M es estimado por m , si se desconoce)
La varianza estimada es sesgada y sería un buen estimador de ( )V y si n es grande ( 20n  ).
El sesgo desaparece cuando los tamaños de los conglomerados son iguales
( 1 2 ... Nm m m   ).
Notas:
 La expresión de 
2
2
1
( ) cSN n
V y
N nM

 no se suele simplificar como
   2
2
( ) c
N N n S
V y
M n

 para poder calcularla fácilmente cuando N y M sean desconocidos.
A veces N no se conoce debido a su gran tamaño y
N n
N

se aproxima por 1. Si M es
desconocido M debe ser estimada por m .
 Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción
poblacional p y de la proporción muestral p . En este caso al número total de elementos
79
en el conglomerado i que poseen la característica de interés se nota como ia en lugar de
iy como es habitual en variables numéricas. Así tendremos que
 1
1
n
i
i
n
i
i
a
p y
m


 


Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables
numéricas es válido para variables dicotómicas.
(B) Estimación del total.
De la relación entre la media y el total poblacional
M

  se sigue que M  , siendo el
estimador del total poblacional 
M y 
y la varianza estimada del mismo
 
2 22
2
2
( ) ( ) ( ) c cS SM
V M V y N N n
n nm
    
(sea cual sea el valor de M, éste no afecta a la varianza ni al error del estimador, aunque sí al
valor del estimador del total)
Como en la estimación del total con un estimador de razón, cuando M es desconocida y se
estima por m y
N n
N

se aproxima por 1 debido al gran tamaño de N, la varianza del
estimador del total se aproxima por
22
2
cSM
nm
.
(C) Estimación del total cuando se desconoce el tamaño de la población.
Frecuentemente el número de elementos en la población no es conocido en problemas donde
se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del
total M y  , debemos construir un estimador del total que no dependa de M . La cantidad
1
1 n
it
i
y y
n 
  , es el promedio de los totales de los conglomerados de la muestra y un estimador
insesgado del promedio de los N totales de los conglomerados de la población. Por el mismo
razonamiento empleado en el muestreo aleatorio simple, tN y es un estimador insesgado de la
suma de los totales de todos los conglomerados, o equivalentemente del total poblacional  .
80
En resumen
t tN y 
 
2
2
( ) ( ) ( ) t
t t
S
V N V y N N n
n
   
donde 
2
( ) t
t
SN n
V y
N n

  
2
2
1
1
1
n
t i t
i
S y y
n 
 

 1
1 n
it
i
y y
n 
 
Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños
están altamente correlacionados con los totales de los conglomerados, la varianza de t tN y 
es generalmente mayor que la varianza de M y  . Esto es debido a que el estimador
t tN y  no usa la información proporcionada por los tamaños de los conglomerados, im , y
por ello puede ser menos preciso.
Cuando los tamaños de los conglomerados son iguales, los dos estimadores del total
coinciden, además el estimador de la media, y , es un estimador insesgado de la media
poblacional y también es insesgado el estimador de su varianza, ( )V y (lo mismo vale para el
total).
Ejemplo 5.1 En una ciudad se quiere estimar la proporción de hogares interesados en contratar
el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de
viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de
si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en
la tabla:
Manzana Nº hogares en la manzana Nº hogares interesados
1 8 2
2 7 2
3 9 3
4 6 3
5 5 3
a) Estime la proporción de hogares interesados en contratar el sistema de televisión
digital. Calcule el límite para el error de estimación.
b) Con un intervalo de confianza estime el número de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es
1500.
81
SOLUCIÓN
Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la
notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el
muestreo por conglomerados, tanto para variables numéricas como dicotómicas.
im iy 2
im 2
iy i im y
8 2 64 4 16
7 2 49 4 14
9 3 81 9 27
6 3 36 9 18
5 3 25 9 15
35 13 255 35 90
a) N=200 n=5
 1
1
13
0,3714 37,14%
35
n
i
i
n
i
i
y
p y p
m


    


 
2 22 2 2
1 1 1 1
1 1 3,3222
2 0,8306
1 1 4
n n n n
c i i i i i i
i i i i
S y ym y y y m y m
n n   
 
          
   
Ya que M es desconocido, M debe ser estimada por m
1
1 35
7 /
5
n
i
i
m m hogares manzana
n 
  

2
2
1
( ) 0,003305cSN n
V y
N nm

  2 ( ) 0,115 11,5%V y 
b)
1
1 13
2,6
5
n
it
i
y y
n 
   520t tN y  
 
2
2 2
1 12 1
1
0,3
1 1
n nn
i ii t
i ii
t
y yy y
n
S
n n
 
 
  
   
 
 

2
( )
( ) 2.340t
t
N N n S
V
n


 
2 ( ) 96,75tV    423,25 ; 616,75
c)
557,14M y   1500
7,5
200
M   
2
2
1
( ) 0,0028795cSN n
V y
N nM

 
Obsérve que al conocer M , la estimación de ( )V y es diferente de la obtenida en a).
 2
( ) ( ) 6478,8V M V y   2 ( ) 160,98V    396,16 ; 718,12
82
El límite para el error de estimación es más pequeño en b) que en c), debido a que los tamaños
de los conglomerados no están correlacionados con los totales de los conglomerados
( 2
0,08myr  ). En otras palabras, los tamaños de los conglomerados proporcionan poca
información sobre los totales de los conglomerados. 
5.4 Determinación del tamaño muestral.
Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de
conglomerados n para conseguir un determinado límite para el error de estimación B
2
2
c
c
N
n
ND




donde 2
c se estima mediante  
2
2
1
1
1
n
c i i
i
S y ym
n 
 

 de una muestra previa, siendo
22
4
B M
D  para la estimación de la media y
2
2
4
B
D
N
 para la estimación del total.
Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y
tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa.
Cuando se utiliza tN y para estimar el total, el número de conglomerados en la muestra para
obtener un determinado límite para el error de estimación B viene dado por
2
2
t
t
N
n
ND




2
2
4
B
D
N
 y 2
t se estima mediante  
2
2
1
1
1
n
t i t
i
S y y
n 
 

 de una muestra previa.
Ejemplo 5.2 Suponiendo que los datos del ejemplo 5.1 representan una muestra previa, cómo
debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un
límite para el error de estimación del 1%.
SOLUCIÓN
2
0,8306cS 
1
1 35
7
5
n
i
i
M m m
n 
   
22 2 2
0,01 7
0,001225
4 4
B M
D

  
2
2
154,4 155c
c
N
n
ND


  


83
EJERCICIOS RESUELTOS
1. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el
número de libros comprados cada mes en una localidad. Se selecciona una localidad con
6200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la
cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias,
obteniéndose los siguientes resultados:
Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimación
inferior a 140 unidades.
SOLUCIÓN
im iy 2
im 2
iy i im y
10
8
11
7
13
9
15
8
100
64
121
49
169
81
225
64
130
72
165
56
36 45 334 539 423
2
1
2
1
6200 700 1,25 0,01
4
n
i
i
n
i
i
y
B
M N y D
N
m


     


 
2
22 2 2 2
1 1 1 1
1 1
2 1,125
1 1
n n n n
c c i i i i i i
i i i i
S y ym y y m y m y
n n

   
 
          
   
2
2
96,92 97c
c
N
n
ND


  

2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la
proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas.
Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los
empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta
tabla:
manzana libros comprados cada mes por familia
1 1 2 1 0 3 2 1 0 1 2
2 1 0 2 2 0 0 1 3
3 2 1 1 1 1 0 2 1 2 2 2
4 1 1 0 2 1 0 3
84
Planta Nº empleados Nº empleados que apoyan la nueva política
1 51 42
2 62 53
3 49 40
4 73 45
5 101 63
a. Estime la proporción de empleados en la industria que apoyan la nueva política de
jubilación y establezca un límite para el error de estimación.
b. La industria modificó su política de jubilación después de obtener los resultados de la
encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política
modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el
error de estimación? Use los datos anteriores para aproximar los resultados de la nueva
encuesta.
SOLUCIÓN:
a) 57 5N n 
im iy 2
im 2
iy i im y
51
62
49
73
101
42
53
40
45
63
2601
3844
2401
5329
10201
1764
2809
1600
2025
3969
2142
3286
1960
3285
6363
336 243 24376 12167 17036
 1
1
243
0,7232 72,32%
336
n
i
i
n
i
i
y
p p
m


    



   
2 2
2 2 2
1 1 1 1
1 1
2 68,7
1 1
n n n n
c i i i i i i
i i i i
S y pm y p y m p m
n n   
 
         
   
2
2 2 336
4515,84
5
M m
 
   
 
 
2
2
1
( ) 0,00278cSN n
V p
N nM

   2 ( ) 0,1054 10,54%V p  
b)
22 2
2 20,05 4515,84
2,8224
4 4
c c
B M
D S

   
2
2
17,06 18c
c
N
n
ND


  

3. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde
no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la
encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares
y el sociólogo decide que cada bloque rectangular va a ser considerado como un
conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene
85
tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a
cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se
realizan las entrevistas, obteniéndose estos datos:
Conglomerado (i) Nº de residentes (mi)
Ingreso total por
conglomerado en € (yi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
151 residentes 1329000 €
a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de
estimación.
b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de
estimación, suponiendo que M es desconocido.
c) Suponiendo que existen 2500 residentes en la ciudad, estime el ingreso total de todos los
residentes de la ciudad mediante un intervalo de confianza.
NOTA: Repetir este ejemplo con todos los im iguales (por ejemplo, 6im i  ,
supongamos conocido 6 415 2490M    ) y estime el total por los dos métodos
estudiados  t tM y N y    . Observe como coinciden las dos estimaciones así como
la varianza del estimador y el límite para el error de estimación.
86
d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en
una encuesta futura para estimar el ingreso promedio por persona con un límite para el
error de estimación de 500€.
SOLUCIÓN:
a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta
por la dificultad de trabajar con cantidades muy grandes)
n=25 N=415
 1
1
1329000
8801,32 € /
151
n
i
i
n
i
i
y
y residente
m
 

   


2 2
1
96000 ... 82039000000
n
i
i
y

   2 2
1
8 ... 1047
n
i
i
m

  
 
1
96000 8 ... 8403000
n
i i
i
y m

   
 
2 22 2 2
1 1 1 1
1 1 15227502247
2 634501213,40
1 1 24
n n n n
c i i i i i i
i i i i
S y ym y y y m y m
n n   
 
          
   
Ya que M es desconocido, M debe ser estimada por m ,
1
1 151
6,04 /
25
n
i
i
m m residente bloque
n 
  

2
2
1
( ) 653785,19cSN n
V y
N nM

  2 ( ) 1.617,14€V y 
b)
1
1 1329000
53160 € /
25
n
it
i
y y bloque
n 
   22061400 €t tN y  
 
2
2 2
2
1 12
1
1 1
82039000000 (1329000)
1 25
1 1 24
11389360000
474556666,6
24
n n
i in
i i
t i t
i
y y
n
S y y
n n
 

 
  
     
 
 
 


2
( ) ( ) 3072279860000t
t
S
V N N n
n
    2 ( ) 3505584,04 €tV  
87
c)
2500
415 25 6,0241
415
N n M    22003311,26€M y  

2
2
2
1
634501213,40 ( ) 657240,9482c
c
SN n
S V y
N nM

  
 2
( ) ( ) 4107755926250V M V y   2 ( ) 4053519,92V  
 17949791,34€ ; 26056831,18€
Como puede observarse el límite para el error de estimación es más pequeño en b) que en
c) debido a que los tamaños de los conglomerados no están altamente correlacionados con
los totales de los conglomerados en este ejemplo ( 2
0,0919myr  ). En otras palabras, los
tamaños de los conglomerados proporcionan poca información referente a los totales de
los conglomerados.
d) 2
634501213,40cS 
22 2 2
500 6,04
2280100
4 4
B M
D

  
2
2
166,58 167c
c
N
n
ND


  

4. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas
en el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
6 0 8 No
7 1 21 Si
8 0 4 No
9 4 35 No
10 6 92 Si
(a) Estime el número de bajas en el último año en las empresas del pueblo y el límite del
error de estimación.
(b) Estime la proporción de empresas que usarían los servicios ofertados y el límite del
error de estimación.
88
SOLUCIÓN:
a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde
no se conoce el número total de empleados para toda la población, por tanto para estimar
el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales
las empresas.
iy
 
2
i ty y
1
2
9
0
2
0
1
0
4
6
2,25
0,25
42,25
6,25
0,25
6,25
2,25
6,25
2,25
12,25
25 80,5
25
2,5 /
10
ty bajas empresa  85 2,5 212,5t bajas   
  2 280,5 85 10 8,94
8,94 ( ) 0,7892157 ( ) 85 ( ) 5702,08
9 85 10
tt t tS V y V V y
 
        
 



2 5702.08 151,02B bajas  
b)
 4
0,40 (40%)
10
p  
  85 10 0,4 0,6
( ) 0,02353
85 10 1
V p
 
 

2 0,02353 0,3068 (30,68%)B  
5. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por
hogar de una ciudad formada por 3600 hogares. Se selecciona una muestra aleatoria de 3
barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios
de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1 55 2210
2 60 2390
3 63 2430
Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el
error de estimación.
89
SOLUCIÓN:
i im y
121550
143400
153090
1
418040
n
i i
i
m y


3600
60 3 60
60
N n M   
2 2
1 1 1 1
178 10594 7030 16501100
n n n n
i i i i
i i i i
m m y y
   
      
 1
1
39,49 €
n
i
i
n
i
i
y
y
m
 

  


 
2 22 2 2
1 1 1 1
1 1
2 2612,04
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n   
 
         
   
 
2
2
1
( ) 0,23 2 ( ) 0,96 €cN n S
V y V y
N nM

  
6. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 3 de
los 40 paquetes envasados en una hora, cada uno de los cuales contiene 4 envases, y se
mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla
adjunta:
Paquete nº Volumen envasado en cl
1 33,5 32,5 31 34
2 32,5 32 33 32,5
3 30,5 33 33 33,5
Estime el volumen medio de los envases y la cota del error de estimación.
SOLUCIÓN:
N=40, n=3,
( )con las funciones del modo SD de la calculadora :
3 3
2
1 1
4 12 48i i
i i
M m m m
 
    
3 3
2
1 1
130,33 391 50961i it
i i
y y y
 
   
im iy i im y
4
4
4
131
130
130
524
520
520
3
1
1564i i
i
m y


90

3
1
3
1
32,5833
i
i t
i
i
y
y
y cl
mm
 

   


 
3 3 3 32 22 2 2
1 1 1 1
1 1
2 0,3333
1 1
c i i i i i i
i i i i
S y ym y y m y m y
n n   
 
         
   
 
2
2
1
( ) 0,006423 2 ( ) 0,1603cSN n
V y V y cl
N nM

  
7. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el
número de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el número de sierras son:
Industria Nº sierras Costo total de reparación
para el mes pasado (€)
1 3 50
2 7 110
3 11 230
4 9 140
5 2 60
Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error
de estimación.
SOLUCIÓN: N=100 n=5
( )con las funciones del modo SD de la calculadora :
 2
1 1
6,4 32 264
n n
i i
i i
M m m m
 
    
2
1 1
118 590 90700
n n
i it
i i
y y y
 
   
i im y
150
770
2530
1260
120
1
4830
n
i i
i
m y


91

5
1
5
1
18,4375 €
i
i t
i
i
y
y
y
mm
 

   


 
2 22 2 2
1 1 1 1
1 1
2 584,57
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n   
 
         
   
 
2
2
1
( ) 2,7116 2 ( ) 3,2934 €cSN n
V y V y
N nM

  
8. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A. Ya
que la selección y entrevista de una muestra aleatoria simple de votantes registrados es
muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados.
Se selecciona una muestra aleatoria de 5 distritos de un total de 495. El periódico quiere
hacer la estimación el día de la elección, pero antes de que se haya hecho el recuento final
de los votos. Los reporteros son enviados a los lugares de votación de cada distrito en la
muestra, para obtener la información pertinente directamente de los votantes. Los
resultados se muestran en la tabla:
Nº votantes Nº votantes que apoyan A
1290 680
1170 631
840 475
1620 935
1381 472
Estime la proporción de votantes que apoyan al candidato A y el límite para el error de
estimación.
SOLUCIÓN:
N=495 n=5
( )con las funciones del modo SD de la calculadora :
 2
1 1
2
1 1
1260,2 6301 8270161
638,6 3193 2183195
n n
i i
i i
n n
i it
i i
M m m m
y y y
 
 
   
  
 
 
i im y
877200
738270
399000
1514700
651832
1
4181002
n
i i
i
m y


92
   
5
1
5
1
0,506745 50,67%
i
i t
i
i
y
y
p
mm
 

   


 
2 22 2 2
1 1 1 1
1 1
2 17372,505
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n   
 
         
   
    
2
2
1
( ) 0,00216573 2 ( ) 0,0930748 9,31%cSN n
V p V y
N nM

  
93
RELACIÓN DE EJERCICIOS
1. Muestreo Aleatorio Simple
1. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000
niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que
había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de
iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían
progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:
Niño
Número de caries
en seis meses
1 0
2 4
3 2
4 3
5 2
6 0
7 3
8 4
9 1
10 1
¿Se puede decir que la incidencia media de las caries ha disminuido?
Solución:   No 94,2,06,12,2
2. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200
pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria
simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con
los resultados siguientes: 1,2y segundos y 4,0S segundos. Estime la media poblacional
y establezca un límite para el error de estimación.
Solución: 1697,0;1,2ˆ  B
3. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos
una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite
para el error de estimación.
Solución: 0958,0;1833,0ˆ  Bp
94
4. Un investigador está interesado en estimar el número total de árboles mayores de un cierto
tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para
estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100
parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el
número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre fue
2,25y árboles, con una cuasivarianza muestral de 1362
S . Estime el número total de
árboles de tamaño grande en la plantación. Establezca un límite para el error de estimación.
Solución: 9408,379.3;800.37ˆ  B
5. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para
estimar el número total de árboles grandes en la plantación, con un límite para el error de
estimación de 1.500 árboles.
Solución: 400413,399 n
6. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene
14.848 familias. El número de personas por familia en la muestra obtenida fue el siguiente:
5 6 3 3 2 3 3 3 4 4 3 2 7 4 3
5 4 4 3 3 4 3 3 1 2 4 3 4 2 4
Estimar el número total de personas en la zona, construyendo un intervalo de confianza al
95%.
Solución:  04,104.58,09,842.44
2. Muestreo Aleatorio Estratificado
1. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al
por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es
complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio
de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una
muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos
son separados en facturas al por mayor y al por menor después del muestreo, con los
siguientes resultados en €:
Por mayor Por menor
Valor total facturas=36400€
1 1170 520€ 210€n y S  
Valor total facturas=8400€
2 2230 280€ 90€n y S  
95
Estime el valor medio de las facturas de la empresa, y fije un límite para el error de
estimación.
Solución: 376€; 28,14€sty B 
2. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de
dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera
independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años
y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del
número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a
continuación.
Carreras de 2 años Carreras de 4 años
Media 154,3 411,8
Desviación típica 87,3 219,9
a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar
un límite de error de estimación.
b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las
universidades la asignatura de estadística para economistas era impartida por
miembros del departamento de economía. En la muestra se halló que en 7 de las
universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro
años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es
impartida por profesores del departamento de economía. Dar un límite de error de
estimación.
Solución: (a) 84,594.57;731.480ˆ  Bst (b) 0826,0;2058,0ˆ  Bpst
3. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208
profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los
profesores están realmente en sus despachos durante las horas de tutorías. Decide
investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos
estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus
horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de
los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza
para la proporción de profesores que permanecen en sus despachos durante las horas de
tutorías.
Solución: 0685,0;7214,0ˆ  Bpst
4. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La
población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
96
respectivamente. Basándose en una experiencia previa, se estima que las desviaciones
típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el
tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar
cometiendo un error de como mucho 5 euros.
Solución: 55,80;83,19;31,22;83,19;59,18 4321  nnnnn
5. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención
diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con
niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que
en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90%
de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas
instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€
para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la
actualidad utilizan las instalaciones y 145 que no lo hacen.
a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la
proporción poblacional con un límite de 0,05 para el error de estimación.
b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la
muestra y la asignación que minimiza la varianza del estimador para este costo fijo.
Solución: (a) 1 247; 83; 130n n n   (b) 61;39;22 21  nnn
6. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres
que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de
padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se
decide estratificar según la edad de los alumnos. A partir de la información proporcionada
por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que
encuestar para que la proporción de participación de los padres con hijos de edades entre 6
y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre
tiene un solo hijo en el centro)
Años Alumnos
matriculados
Porcentaje de participación en años
anteriores
Coste de encuestar a un
elemento
4-6 150 40% 4
6-8 130 30% 9
8-12 120 25% 16
12-14 100 20% 25
Sol. 2165,20;3453,33;5227,51;9584,94;3,200 4321  nnnnn 202 n
7. El coste de transportar mercancías en avión depende del peso. Un determinado embarque
de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las
dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de
97
observar si existe variación semanal en la cantidad producida. Las muestras aleatorias
simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos
semanas, mostraron las siguientes mediciones:
Semana A Semana B
58,3 59,2
60,4 60,1
59,3 59,6
58,7 59,2
59,1 58,8
59,6 60,5
a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de
máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.
b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.
c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera
estimar el peso total del embarque, con un límite para el error de estimación de 50
kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.
Considere las muestras anteriores como muestras previas para estimar los
parámetros necesarios.
Solución: (a) 13,722.19ˆ  (b) )56'850.19,71'593.19(
(c) 673230,31;3537,34;67,65 21  nnnn
8. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas.
La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se
usa muestreo aleatorio estratificado, con cada tienda como un estrato.
Estrato I Estrato II Estrato III Estrato IV
Nº cuentas por cobrar 651 N 422 N 933 N 254 N
Tamaño muestra 141 n 92 n 213 n 64 n
Nº cuentas no cobradas 4 2 8 1
a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el
error de estimación.
b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra
necesarios para estimar la proporción de cuentas no cobradas, con un límite del
error de estimación del 5%.
Solución: (a) 1173,0;30,0ˆ  Bp
(b) 1317,12;5998,58;2380,22;3935,38;30,132 4321  nnnnn 134 n
9. Una escuela desea estimar la calificación media que puede obtener en el examen final de
matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según
el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el
98
presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal,
30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de
aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70
para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente.
Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo
el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre
paréntesis, el tipo de aprendizaje de cada estudiante):
70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)
91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)
Se pide:
a. Estime la calificación media en el examen final de matemáticas. De una medida del
error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados
de ambos métodos de estimación, así como determine la ganancia en precisión.
c. Se desea mejorar la estimación de la nota media del examen final en matemáticas,
teniendo en cuenta más información. Usando estos resultados como muestra
previa, qué tamaños muestrales en cada estrato son necesarios para un error
máximo admisible de 2 puntos, utilizando asignación Proporcional.
d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje
normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la
muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación
tuviera un error máximo admisible de 10 estudiantes?
Solución: (a) ˆ 78,59; 3,21B   (b) 25,4;53,77ˆ  B
(c) 38826,7;1189,10;1915,18;31,36 321  nnnnn
(d) 178,16);69,43,87,11( n
10. Se desea estimar el salario medio de los empleados de una empresa. Se decide
clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato
temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los
contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros
mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el
salario medio mensual el error de estimación sea inferior a 100 euros?
Solución: 1 226,91 7,77 8 19,14 20 28Neyman n n n n      
99
3. Muestreo con información auxiliar
1. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en
alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una
muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se
presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1 25100 3800
2 32200 5100
3 29600 4200
4 35000 6200
5 34400 5800
6 26500 4100
7 28700 3900
8 28200 3600
9 34600 3800
10 32700 4100
11 31500 4500
12 30600 5100
13 27700 4200
14 28500 4000
Estime la razón poblacional, y establezca un límite para el error de estimación.
Solución: 0102,0;1467,0  Br
2. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores
industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45
sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone
de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2
(en miles de millones). Los datos se presentan en la tabla adjunta:
Industria 1980 1981
Producto de fábricas textiles 13,6 14,5
Productos químicos y relacionados 37,7 42,7
Madera aserrada y leña 15,2 15,1
Equipo eléctrico y electrónico 48,4 53,6
Vehículos y equipo 19,6 25,4
Transporte y almacenaje 33,5 35,9
Banca 44,4 48,5
Bienes Raíces 198,3 221,2
Servicios de Salud 99,2 114,0
Servicios de Educación 15,4 17,0
(a) Encuentre el estimador de razón del ingreso total de 1981, y establezca un límite
para el error de estimación.
100
(b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un
límite para el error de estimación.
(c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un
límite para el error de estimación.
(d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué?
Solución: (a) 95,45;30,433.2ˆ  BY (b) 64,48;91,432.2ˆ  BYL
(c) 07,180;90,455.2ˆ  BY
3. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado
producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con
200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de
170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra
de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio
(expresado en euros), este año (Y) y el año pasado (X):
Pueblo A Pueblo B
xi yi xi yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280
a. Sin hacer distinción entre pueblos, estime las ventas medias para este año
utilizando un estimador de razón. Dé un límite para el error de estimación.
b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el
pueblo?
c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace
distinción entre pueblos?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solución: (a) 69,5;53,180ˆ  B (b) 81,53;91,171ˆ  B (c) 53,49;43,171ˆ  B
(d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación
entre las variables. El muestreo estratificado se comporta mal porque los estratos no son
homogéneos.
4. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.
Los investigadores piensan que hay razones para creer que el comportamiento es diferente
dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose
el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de
un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:
6;8;10;40;60;80 321321  nnnNNN
101
Zona A Zona B Zona C
X Y X Y X Y
3,2 4,1 3,1 3,9 2,8 3,8
3,0 4,0 3,0 4,0 2,9 3,7
2,9 4,1 3,1 3,8 2,9 3,8
2,8 3,9 3,2 4,0 3,0 3,6
3,1 3,7 3,0 3,8 3,1 3,8
3,2 4,1 3,2 4,1 3,0 3,7
2,9 4,2 2,9 3,7
2,8 4,0 3,0 3,8
3,1 3,9
2,8 3,8
a. Estimar el peso medio estratificado de los conejos al principio y al final del
tratamiento. Dar una estimación del error.
b. Si se le permite un error de estimación de 0,01 para estimar el peso medio
estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños
muestrales? Usar asignación Proporcional.
c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de
3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento
utilizando un estimador de razón. Dar el límite de error de estimación.
d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo
aleatorio simple. Comentar los resultados.
Solución: (a) 0523,0;8944,3ˆ;0516,0;0008,3ˆ  BB yx 
(b) 147331,32;4915,48;652,64;4,144 321  nnnnn
(c) 0793,0;1467,4ˆ  By (d) 0617,0;8875,3ˆ  B
5. En una escuela de 560 alumnos, se desea estimar la calificación media que puede
obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información
auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del
curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes
para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de
dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los
siguientes:
102
Nota curso
99/00
Nota curso
00/01
80 87
78 65
98 86
45 47
61 67
83 94
79 67
56 67
Estimar la calificación media del curso 00/01 utilizando como información auxiliar la
calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una
estimación del error de muestreo.
Solución: 45,7;75ˆ  By
6. Un director de recursos forestales está interesado en estimar el número de abetos muertos
por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director
divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10
parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es
4200.
Parcela 1 2 3 4 5 6 7 8 9 10
Cantidad en fotografía 12 30 24 24 18 30 12 6 36 42
Cantidad en terreno 18 42 24 36 24 36 14 10 48 54
a. Estime la razón poblacional y obtenga su intervalo de confianza.
b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un
límite para el error de estimación.
c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos
muertos, con un límite de error de estimación de 200 abetos?
Solución: (a) )4097'1,2057'1(;3077,1r (b) 44,428;31,492.5ˆ  By ) (c) 399,38 n
7. De una población de 40 hogares, para la que es conocido que el gasto total general durante
un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria
simple de tamaño 4 que proporciona los siguientes valores anuales (en um):
Gasto en alimentación 125000 150000 100000 175000
a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de
confianza.
b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su
gasto general (en um):
103
Gasto General 250000 300000 200000 350000
Antes de calcular otro estimador, ¿obtendríamos mejores resultados si
utilizamos esta información auxiliar?¿Por qué?
c. Estimar mediante un estimador de razón el total de gasto en alimentación,
utilizando la información auxiliar del apartado b.
d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del
apartado a o el del apartado c.
Solución: (a) )744.724.6,255.275.4( (b) 1 (c) 000.000.6ˆ y (d) 0B (límite del error de
estimación del apartado (c)
8. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso
a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la
variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las
calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,
a partir de los datos de la tabla siguiente, se pide:
CHICOS CHICAS
Examen previo Examen de cálculo Examen previo Examen de cálculo
39 65 57 92
43 78 47 89
21 52 28 73
64 82 75 98
34 56
52 75
a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de
cálculo utilizando un estimador de razón. De una medida del error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo?
c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solución: (a) 54,10;97,80ˆ  By (b) 5,9;76,73ˆ  B (c) 46,9;76ˆ  B
4. Muestreo Sistemático
1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar
la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los
datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de
un día.
104
Cantidad de llenado (en onzas)
12,00 11,97 12,01 12,03 12,01 11,80
11,91 11,98 12,03 11,98 12,00 11,83
11,87 12,01 11,98 11,87 11,90 11,88
12,05 11,87 11,91 11,93 11,94 11,89
11,72 11,93 11,95 11,97 11,93 12,05
11,85 11,98 11,87 12,05 12,02 12,04
a. Estime  , y establezca un límite para el error de estimación. Suponga que N=1.800.
b. Determinar el tamaño de muestra requerido para estimar  dentro de 0,01 unidades.
Solución: (a) 0259,0;94,11ˆ  Bsy (b) 2181,217 n
2. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados. Sea 1iy si la i-ésima persona muestreada
favorece los cambios propuestos e 0iy si se opone a los cambios. Use los siguientes
datos de la muestra para estimar la proporción de miembros en favor de los cambios
propuestos. Establezca un límite para el error de estimación.
 

65
1
48
i
iy
Solución: 1042,0;7385,0ˆ  Bpsy
3. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000
individuos para Estados Unidos durante seis años seleccionados sistemáticamente.
(a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
(b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un
límite para el error de estimación.
(c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple
para los problemas de los apartados (a) y (b)?¿Por qué?
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719 1.973.576 4.047.295 26,0
1960 2.179.708 2.078.142 4.257.850 23,7
1965 1.927.054 1.833.304 3.760.358 19,4
1970 1.915.378 1.816.008 3.731.386 18,4
1975 1.613.135 1.531.063 3.144.198 14,6
1980 1.852.616 1.759.642 3.612.258 15,9
Solución: (a) 35,437.139;935.926.1ˆ  Bsy ; (b) 17,3;67,19ˆ  Bsy ;
(c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en
estudio están “ordenadas” de forma decreciente.
105
4. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000
personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980.
Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el
error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo
aleatorio simple?¿Por qué?
Año Tasa Año Tasa
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0
Solución: 57,0;26,2ˆ  Bsy . Mejor, se observa, en general, una tendencia creciente en
los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955.
6. Muestreo por Conglomerados.
1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el
número de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el número de sierras son:
Industria Nº
sierras
Costo total de reparación
para el mes pasado (€)
Industria Nº
sierras
Costo total de reparación
para el mes pasado (€)
1 3 50 11 8 140
2 7 110 12 6 130
3 11 230 13 3 70
4 9 140 14 2 50
5 2 60 15 1 10
6 12 280 16 4 60
7 14 240 17 12 280
8 3 45 18 6 150
9 5 60 19 5 110
10 9 230 20 8 120
106
a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un
límite para el error de estimación.
b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras.
Establezca un límite para el error de estimación.
c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido
un total de 710 sierras a esas industrias. Usando esta información adicional, estime la
cantidad total gastada en reparación de sierras por estas industrias, y establezca un
límite para el error de estimación.
Solución: (a) 78,1;73,19ˆ  B (b) 07,175.3;312.12ˆ  B
(c) 78,110.1;85,008.14ˆ  B
2. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios
para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se
usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona
una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores
obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales
se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1 55 2210
2 60 2390
3 63 2430
4 58 2380
5 71 2760
6 78 3110
7 69 2780
8 58 2370
9 52 1990
10 71 2810
11 73 2930
12 64 2470
13 69 2830
14 58 2370
15 63 2390
16 75 2870
17 78 3210
18 51 2430
19 67 2730
20 70 2880
a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un
límite para el error de estimación.
107
b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la
cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un
límite para el error de estimación.
c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de
la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores
para encontrar el número aproximado de conglomerados que se necesitan para obtener
ese límite.
Solución: (a) 64,0;17,40ˆ  B (b) 88,927.6;020.157ˆ  B (c) 304,29 n
3. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas
en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector
selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes
muestreados, con los resultados (en onzas) que se muestran:
Paquete Onzas de llenado
1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0
2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9
3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1
4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0
5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9
Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca
un límite para el error de estimación. Suponga que el número total de cajas empaquetadas
por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por
población finita.
Solución: 0215,0;0050,16ˆ  B
4. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en
una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes
registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se
selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que
tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de
que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados
a los lugares de votación de cada distrito en la muestra, para obtener la información
pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
108
Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A
1290 680 1893 1143 843 321
1170 631 1942 1187 1066 487
840 475 971 542 1171 596
1620 935 1143 973 1213 782
1381 472 2041 1541 1741 980
1492 820 2530 1679 983 693
1785 933 1567 982 1865 1033
2010 1171 1493 863 1888 987
974 542 1271 742 1947 872
832 457 1873 1010 2021 1093
1247 983 2142 1092 2001 1461
1896 1462 2380 1242 1493 1301
1943 873 1693 973 1783 1167
798 372 1661 652 1461 932
1020 621 1555 523 1237 481
1141 642 1492 831 1843 999
1820 975 1957 932
a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite
para el error de estimación.
b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo
de grande debe ser la muestra para estimar la proporción de votantes a favor de un
candidato similar con un límite del 5% para el error de estimación?
Solución: 0307,0;5701,0ˆ  Bp (b) 211,20 n
5. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una
comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria
simple de 4 bloques que proporciona los siguientes resultados:
Bloque tubos gastados por hogar
1 1 2 1 3 3 2 1 4
2 1 3 2 2 3 1 4 1 1
3 2 1 1 1 3 2 2
4 1 1 3 2 1 5 1 3
Estime de distintas formas el número total de tubos gastados, obtenga el límite para el
error de estimación en cada caso y comente los resultados.
Solución: Muestreo por conglomerados 85,562;8000ˆ  B Muestreo aleatorio simple
78,1077;6400ˆ  B
6. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de
los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide
el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
109
Paquete nº Volumen envasado en cm3
1 33 32,5 31,7 34,2
2 32 32,6 33,8 32,5
3 30,9 33,1 33 33,4
4 34,1 33,1 32,5 33,2
5 32 32,1 32,6 33,6
Estime el volumen medio por envase y dar la cota de error de estimación.
Solución: 22,0;80,32ˆ  B
7. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se
seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por
tablero fue
2 0 1 3 2 0 0 1 3 4
Estime la proporción de microcircuitos defectuosos en la población y establezca una cota
para el error de estimación.
Solución: 0674,0;1333,0ˆ  Bp
8. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes
dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un canal
Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una muestra
aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están conectados
a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se encuentran en la
siguiente tabla:
Manzana Nº hogares con
canal Digital
Nº total horas que
ven programa
1 8 13
2 7 13
3 9 14
4 6 13
5 5 0
6 9 10
7 6 6
8 8 14
9 9 16
10 6 4
a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través
de Canal Digital.
b. Obtener un intervalo de confianza para el número total de horas.
c. Determinar cuántas manzanas se deberían muestrear para estimar el total
poblacional, con un límite para el error de estimación de magnitud 20. Considere la
muestra anterior como una muestra previa para estimar los parámetros necesarios.
Solución: (a) 2060ˆ  ; (b) )70,2704,30,1415( (c) 1974,196 n
110
9. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen
ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una
muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador es:
2 1 5 3 0 1 4 3 5 0
Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado
para estimar dicha proporción.
Solución: 0143,0)ˆ(ˆ;48,0ˆ  pVp
10. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a
trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5
factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido:
Factoría Nº empleados Dispuestos
1 250 225
2 190 175
3 210 190
4 400 350
5 150 120
Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva
factoría. Obtenga una estimación de la varianza del estimador empleado.
Solución: 0002,0)ˆ(ˆ;1167,0ˆ  pVp
11. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada una
24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno determina
el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los datos son:
9 6 3 10 2
a. Estime el peso total de mariscos dañados en el embarque y establezca un límite
para el error de estimación.
b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos
dañados en el embarque, con un límite de error de 275.
Solución: (a) ˆ 600; 308,22B   (b) 6,20 7n  
111
FORMULARIO de MUESTREO
(95% de confianza, 1,96 2cz   )
(90% de confianza, 1,645cz  )
(99% de confianza, 2,576cz  )
MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS.
MEDIA PROPORCION
ESTIMADOR
1
1 n
i
i
y y
n 
  
1
1
, 0,1
n
i i
i
p y y
n 
 
VARIANZA
MUESTRAL
(apenas se utiliza en muestreo)
 
2 22 2
1 1
1 1n n
i i
i i
s y y y y
n n 
        2
2
1
1 n
i
i
s y y pq
n 
  
CUASIVARIANZA
MUESTRAL  
2
2 1
2
2 1
1
1
1 1
n
in
i
in
i
i
i
y
y
n
S y y
n n



 
 
 
  
 


  
 2
2
1
1
1 1
n
i
i
n pq
S y y
n n
  
 

VARIANZA DEL
ESTIMADOR

2
( )
S
V y
n
  
 
( )
1
pq
V p
n


B
LIMITE DEL ERROR
DE ESTIMACIÓN
( )c c
S
z V y z
n
  
 
( )
1
c c
pq
z V p z
n


INTERVALO DE
CONFIANZA ,c c
S S
y z y z
n n
 
  
 

 

 
,
1 1
c c
pq pq
p z p z
n n
 
  
  
 
TAMAÑO MUESTRAL
2 2 2
2 2
2
c
c
B
n D
B D z
z
 
  
2
2 2
2
c
c
pq pq B
n D
B D z
z
  
112
MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS.
MEDIA
TOTAL
PROPORCION
TOTAL
ESTIMADOR
1
1 n
i
i
y y
n 
 
1
n
i
i
N
N y y
n


  

1
1
0,1
n
i i
i
p y y
n 
 
N p 
VARIANZA DEL
ESTIMADOR

2
( )
S N n
V y
n N


 
2
2
( ) ( ) ( )
S
V N V y N N n
n
   
 
 
( )
1
pq N n
V p
n N



  
 
2
( ) ( ) ( )
1
pq
V N V p N N n
n
   


B
LIMITE DEL ERROR
DE ESTIMACIÓN
( )cz V y
 ( ) ( )c cz V Nz V y 
 ( )cz V p
  ( ) ( )c cz V Nz V p 
INTERVALO DE
CONFIANZA
 ( ) , ( )( )c cy z V y y z V y 
 ( ) , ( )( )c cz V z V        
 ( ) , ( )( ) ( )( )c cN y z V y N y z V y  
     ( ) , ( )( )c cp z V p p z V p 
 ( ) , ( )( )c cz V z V        
     ( ) , ( )( ) ( )( )c cN p z V p N p z V p  
TAMAÑO
MUESTRAL
2
2
( 1)
N
n
N D



 
2
2
( )
c
B
D media
z

2
2 2
( )
c
B
D total
z N

( 1)
Npq
n
N D pq

 
2
2
( )
c
B
D proporcion
z

2
2 2
( )
c
B
D total
z N

113
MUESTREO ALEATORIO ESTRATIFICADO: ESTIMACIÓN.
MEDIA
TOTAL
PROPORCION
TOTAL
ESTIMADOR
1 1
1 L L
i
ist i i
i i
N
y N y y
N N 
  
1
L
st ist i
i
N y N y

  
  
1 1
1 L L
i
ist i i
i i
N
p N p p
N N 
  
 
1
L
st ist i
i
N p N p

  
VARIANZA DEL
ESTIMADOR
 2
2
1
1
( ) ( )
L
ist i
i
V y N V y
N 
 
2
2
2
1
2 2
1
1 L
i i i
i
i i i
L
i i i i
i i i
S N n
N
N n N
N S N n
N n N



 
 
  
 


1i i
i
N n
en poblaciones infinitas
N
-
@
 
2
2 2
1
( ) ( )
L
i i i
st ist
i i i
S N n
V N V y N
n N



  
   2
2
1
1
( ) ( )
L
ist i
i
V p N V p
N 
 
 
 
2
2
1
2
1
1
1
L
i i i i
i
i i i
L
i i i i i
i i i
p q N n
N
N n N
p qN N n
N n N



 

 
  
 


1i i
i
N n
en poblaciones infinitas
N
-
@
  
 
2 2
1
( ) ( )
1
L
i i i i
st ist
i i i
p q N n
V N V p N
n N



 


114
MUESTREO ALEATORIO ESTRATIFICADO: ASIGNACIÓN MUESTRAL.
POBLACIONES FINITAS
MEDIA
TOTAL
PROPORCION
TOTAL
ASIGNACIÓN
ÓPTIMA
(error fijo B)
1 1
2 2
1
L L
i i
i i i
i i i
L
i i
i
N
N c
c
n
N D N



 



 

(coste fijo C)
1
1
L
i i
i i
L
i i i
i
N
C
c
n
N c







(error fijo B)
1 1
2
1
L L
i i
i i i i i
i i i
L
i i i
i
p q
N p q c N
c
n
N D N p q
 



 

(coste fijo C)
1
1
L
i i
i
i i
L
i i i i
i
p q
C N
c
n
N p q c





1
j j
j
j L
i i
i i
N
c
N
c






1
j j
j
j
j L
i i
i
i i
p q
N
c
p q
N
c




ASIGNACIÓN DE
NEYMAN
(error fijo B)
2
1
2 2
1
( )L
i i
i
L
i i
i
N
n
N D N








2
1
2
1
( )L
i i i
i
L
i i i
i
N p q
n
N D N p q






1
j j
j L
i i
i
N
N






1
j j j
j L
i i i
i
N p q
N p q




ASIGNACIÓN
PROPORCIONAL
(error fijo B)
2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N








1
1
1
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N






j
j
N
N
  j
j
N
N
 
D
2
2
( )
c
B
D media
z

2
2 2
( )
c
B
D total
z N

2
2
( )
c
B
D proporcion
z

2
2 2
( )
c
B
D total
z N

115
MUESTREO ALEATORIO ESTRATIFICADO: ASIGNACIÓN MUESTRAL.
POBLACIONES INFINITAS
MEDIA PROPORCION
ASIGNACIÓN
ÓPTIMA
(error fijo B)
1 1
L L
i i i
i i
i i i
N N
c
N N c
n
D


 

 
(coste fijo C)
1
1
L
i i
i i
L
i
i i
i
N
C
N c
n
N
c
N







(error fijo B)
1 1
L L
i i i i
i i i
i i i
N N p q
p q c
N N c
n
D
 

 
(coste fijo C)
1
1
L
i i i
i i
L
i
i i i
i
N p q
C
N c
n
N
p q c
N





1
j j
j
j L
i i
i i
N
N c
N
N c






1
j j j
j
j L
i i i
i i
N p q
N c
N p q
N c




ASIGNACIÓN DE
NEYMAN
(error fijo B)
2
1
( )L
i
i
i
N
N
n
D




2
1
( )L
i
i i
i
N
p q
N
n
D



1
j
j
j L
i
i
i
N
N
N
N





 1
j
j j
j L
i
i i
i
N
p q
N
N
p q
N




ASIGNACIÓN
PROPORCIONAL
(error fijo B)
2
1
L
i
i
i
N
N
n
D



 1
L
i
i i
i
N
p q
N
n
D



j
j
N
N
  j
j
N
N
 
D
2
2
( )
c
B
D media
z

2
2
( )
c
B
D proporcion
z

116
ESTIMACIÓN DE RAZÓN.
RAZÓN
MEDIA
TOTAL
ESTIMADOR
1
1
n
i
i
n
i
i
y
y
r
x
x


 



y xr 
y xr 
VARIANZA
RESIDUAL
 
22
1
1
1
n
r i i
i
S y rx
n 
 


VARIANZA DEL
ESTIMADOR

2 2
22
1 1
( ) r r
x
N n S N n S
V r
N n N nx
 
 
  
2
2
( ) ( ) r
y x
N n S
V V r
N n
 

 
 
22 2
2 2
2
( ) ( ) xr r
y x
N n S S
V V r N
N n nx

 

  
TAMAÑO
MUESTRAL

2 2
2
2
r
r r
r
N
n S de una muestra previa
ND



 

2
r
n en poblaciones infinitas
D


2 2
2
2
2
2
2 2
( )
( )
( )
x
c
y
c
y
c
B
D para estimar R
z
B
D para estimar
z
B
D para estimar
z N






117
ESTIMACIÓN DE REGRESIÓN.
MEDIA
TOTAL
VARIANZA, COVARIANZA Y
COEF. DE CORRELACIÓN
MUESTRALES
 
2 22 2
1 1
1 1n n
x i i
i i
s x x x x
n n 
     (análogamente para la variable Y)
  1 1
1 1n n
xy i i i i
i i
s x x y y x y xy
n n 
     
2
2
2 2
xy
xy
x y
s
r
s s

ESTIMADOR

  
 
1
2 2
1
( )
n
i i
xy i
n
x
i
i
yL x
x x y y
s
b
s
x x
y b x  

 
 

  


yL yLN 
VARIANZA RESIDUAL
ERROR TÍPICO DE
ESTIMACIÓN
    
2
2
2 2 2 2
2
1
1
( ) 1
2 2 2
n
xy
L i i y y xy
i x
sn n
S y y b x x s s r
n n s n
 
            

2
L LS S
VARIANZA DEL
ESTIMADOR
 
2
( ) L
yL
N n S
V
N n



  2
( ) ( )yL yLV N V 
TAMAÑO MUESTRAL

2 2
2
2
L
L L
L
N
n S de una muestra previa
ND



 

2
L
n en poblaciones infinitas
D


2 2
2 2 2
( ) ( )y y
c c
B B
D para estimar D para estimar
z z N
  
118
ESTIMACIÓN DE DIFERENCIA.
MEDIA
TOTAL
ESTIMADOR
 ( )yD x xy x d d y x        
yD yDN 
VARIANZA RESIDUAL    
2 2
2
1 1
1 1
( )
1 1
n n
D i i i i i i
i i
S y x d d d d y x
n n 
      
 
 
VARIANZA DEL
ESTIMADOR
 
2
( ) D
yD
N n S
V
N n



  2
( ) ( )yD yDV N V 
TAMAÑO MUESTRAL

2 2
2
2
D
D D
D
N
n S de una muestra previa
ND



 

2
D
n en poblaciones infinitas
D


2 2
2 2 2
( ) ( )y y
c c
B B
D para estimar D para estimar
z z N
  
119
MUESTREO POR CONGLOMERADOS.
MEDIA o PROPORCIÓN
TOTAL (M conocido)
TOTAL
ESTIMADOR
 1
1
n
i
i
n
i
i
y
y
m
 

 


M y 

1
1 n
t i
i
t t y y
n
N y


 
 
 
 
VARIANZA
DEL
ESTIMADOR

2
2
1
( ) cSN n
V y
N nM


 
2
2
( ) ( ) ( ) cS
V M V y N N n
n
   
 
2
2
( ) ( ) ( ) t
t t
S
V N V y N N n
n
   
 
2
2
1
1
1
n
c i i
i
S y ym
n 
 

  
2
2
1
1
1
n
tt i
i
S y y
n 
 


TAMAÑO
MUESTRAL

2
2
2
2
c
c c
c
de una muestra previa
N
n S
ND



 

2
c
en poblaciones infinitasn
D


22
2
( )
c
B M
D media
z

2
2 2
( )
c
B
D total
z N


2
2
2
2
t
t t
t
de una muestra previa
N
n S
ND



 

2
t
en poblaciones infinitasn
D


2
2 2
( )
c
B
D total
z N

NOTACIÓN:
conglomerados en la poblaciónN  (habitualmente conocido) conglomerados en la muestran 
i elementos en el conglomerado im  i suma de las observaciones del conglomerado iy 
1
N
i
i
elementos en la poblaciónM m

  (habitualmente desconocido)
1
n
i
i
elementos en la muestram m

 
1
1 N
i
i
tamaño medio de los conglomerados de la población
M
M m
N N
   (habitualmente desconocido)
1
1 n
i
i
tamaño medio de los conglomerados de la muestra
m
m m
n n
   . Este valor m se usa para estimar el anterior, M .

Más contenido relacionado

PDF
Distribución de Probabilidad Discreta. Estadística, Douglas A. Lind, William ...
PPT
Problema de Asignación
PDF
Estadistica 2
PPTX
Distribucion muestral de una proporcion
PDF
111 Problemas Resueltos de Aritmética y Álgebra - Don Danny
PPTX
Muestreo doble y muestreo múltiple
PDF
Calculo del tamaño de muestra
Distribución de Probabilidad Discreta. Estadística, Douglas A. Lind, William ...
Problema de Asignación
Estadistica 2
Distribucion muestral de una proporcion
111 Problemas Resueltos de Aritmética y Álgebra - Don Danny
Muestreo doble y muestreo múltiple
Calculo del tamaño de muestra

La actualidad más candente (20)

PPTX
Cálculo del tamaño de muestra (con ejemplos)
DOCX
control estadistico de procesos-prueba de hipotesis
PDF
Estadistica ii crc 4
PDF
Análisis de Regresión Múltiple
PDF
Ejercicios resueltos-de-estadistica
PPT
02 de frebreo 2011
DOCX
5a UNIDAD PRONÓSTICOS E INVENTARIOS
PDF
Guia intervalos de confianza
PDF
PDF
Teoria de muestreo y prueba de hipotesis
PDF
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
PDF
Preguntas tipo test
PPT
13 problema de redes
PDF
METODO DUAL : EJERCICIOS RESUELTOS DE INVESTIGACIONES DE OPERACIONES
PPTX
Ventajas y desventajas de los modelos de simulación. @Risk. Por Dreisy Paredes
PDF
Problemas resueltos-de-teorc3ada-de-colas1
PPS
Muestreo y distrib muestrales de una media
PDF
Ejercicios resueltos
DOCX
Formulas de estadistica y probabilidades
DOC
Problemas resueltos de distribución muestral
Cálculo del tamaño de muestra (con ejemplos)
control estadistico de procesos-prueba de hipotesis
Estadistica ii crc 4
Análisis de Regresión Múltiple
Ejercicios resueltos-de-estadistica
02 de frebreo 2011
5a UNIDAD PRONÓSTICOS E INVENTARIOS
Guia intervalos de confianza
Teoria de muestreo y prueba de hipotesis
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Preguntas tipo test
13 problema de redes
METODO DUAL : EJERCICIOS RESUELTOS DE INVESTIGACIONES DE OPERACIONES
Ventajas y desventajas de los modelos de simulación. @Risk. Por Dreisy Paredes
Problemas resueltos-de-teorc3ada-de-colas1
Muestreo y distrib muestrales de una media
Ejercicios resueltos
Formulas de estadistica y probabilidades
Problemas resueltos de distribución muestral
Publicidad

Similar a Muestreo tc3 2014 2015 (20)

PPTX
Introducion al muestreo y tipos de muestreo
PPTX
TIPOS DE MUESTREO introduccion a la estadistica.pptx
PDF
TECNICAS DE MUESTREO Y TAMAÑO DE MUESTRA.pdf
DOCX
Estadistica Muestreo
DOC
Distribución normal
PPTX
GRUPO 2, LAS APLICACIONES DEL MUESTREO..pptx
DOCX
Muestreo Manuel y Enrique
PPTX
METODOLOGIA DE INVESTIGACION CIENTIFICA DEL CURSO DE INVESTIGACION CIENTIFICA
PPTX
MUESTREO ALEATORIO SIMPle conceptos basicos
PPT
Muestreo y estimacion 2012
PPT
muestreo y estimacion 2012
PDF
ppt poblacion de muestra infinita e finita
PDF
Muestreo laboratorio clínico pdf de clase
PPTX
estadistica muestreo
PPT
Tae S1. Introduccion al Muestreo
PPT
Poblaciön y muestra1
PPTX
estadística y probabilidades teoría y ejercicios
PPTX
Muestreo y Tipos
PDF
S01.s1 Estadistica Inferencial. Conceptos Basicos.pdf
PDF
S01.s1 Estadistica Inferencial. Conceptos Basicos.pdf
Introducion al muestreo y tipos de muestreo
TIPOS DE MUESTREO introduccion a la estadistica.pptx
TECNICAS DE MUESTREO Y TAMAÑO DE MUESTRA.pdf
Estadistica Muestreo
Distribución normal
GRUPO 2, LAS APLICACIONES DEL MUESTREO..pptx
Muestreo Manuel y Enrique
METODOLOGIA DE INVESTIGACION CIENTIFICA DEL CURSO DE INVESTIGACION CIENTIFICA
MUESTREO ALEATORIO SIMPle conceptos basicos
Muestreo y estimacion 2012
muestreo y estimacion 2012
ppt poblacion de muestra infinita e finita
Muestreo laboratorio clínico pdf de clase
estadistica muestreo
Tae S1. Introduccion al Muestreo
Poblaciön y muestra1
estadística y probabilidades teoría y ejercicios
Muestreo y Tipos
S01.s1 Estadistica Inferencial. Conceptos Basicos.pdf
S01.s1 Estadistica Inferencial. Conceptos Basicos.pdf
Publicidad

Último (20)

PDF
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
PDF
APUNTES DE SISTEMAS PSICOLOGICOS CONTEMPORANEOS
PPTX
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
PDF
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
PDF
E1 Guía_Matemática_5°_grado.pdf paraguay
PDF
Aprendizaje Emocionante - Begoña Ibarrola SM2 Ccesa007.pdf
PPTX
Juicios Celestiales de Jesus Manuel Locio Lopez..pptx
PDF
Ficha de Atencion a Estudiantes RE Ccesa007.pdf
PDF
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
PDF
Manual del Gobierno Escolar -MINEDUC.pdf
PDF
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
PPTX
4. Qué es un computador PARA GRADO CUARTO.pptx
PDF
MODULO I ENFERMERIA BASICA.pdf HIstoria en enfermeria
PDF
Házlo con Miedo - Scott Allan Ccesa007.pdf
PPTX
fisiologia respiratoria pediatria ruza.pptx
PDF
Cuaderno_Castellano_6°_grado.pdf 000000000000000001
PDF
Ernst Cassirer - Antropologia Filosofica.pdf
PDF
Didáctica de las literaturas infantiles.
PPTX
RESUMENES JULIO - QUIRÓFANO HOSPITAL GENERAL PUYO.pptx
DOCX
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - TERCER GRADO.docx
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
APUNTES DE SISTEMAS PSICOLOGICOS CONTEMPORANEOS
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
E1 Guía_Matemática_5°_grado.pdf paraguay
Aprendizaje Emocionante - Begoña Ibarrola SM2 Ccesa007.pdf
Juicios Celestiales de Jesus Manuel Locio Lopez..pptx
Ficha de Atencion a Estudiantes RE Ccesa007.pdf
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
Manual del Gobierno Escolar -MINEDUC.pdf
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
4. Qué es un computador PARA GRADO CUARTO.pptx
MODULO I ENFERMERIA BASICA.pdf HIstoria en enfermeria
Házlo con Miedo - Scott Allan Ccesa007.pdf
fisiologia respiratoria pediatria ruza.pptx
Cuaderno_Castellano_6°_grado.pdf 000000000000000001
Ernst Cassirer - Antropologia Filosofica.pdf
Didáctica de las literaturas infantiles.
RESUMENES JULIO - QUIRÓFANO HOSPITAL GENERAL PUYO.pptx
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - TERCER GRADO.docx

Muestreo tc3 2014 2015

  • 1. 1 DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA TÉCNICAS CUANTITATIVAS 3 Grado en Marketing e Investigación de Mercados MUESTREO Teoría y ejercicios.
  • 2. 2
  • 3. 3 ÍNDICE 1. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.0 Definiciones y conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . 1.1 Selección de una muestra aleatoria simple. Números aleatorios. . . . . . . . 1.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 1.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 1.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 1.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 1.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 2.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 2.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Asignación Óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Asignación Proporcional. . . . . . . . . . . . . . . . . . . . . . . . 2.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 3.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 3.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 4.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 5.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 5.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 8 11 11 13 13 16 19 26 26 27 30 30 31 32 32 38 40 50 50 51 52 55 56 57 58 59 59 61 62 68 68 69 72 73 74 77 77 77 77 82
  • 4. 4 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Relación de Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . . Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . Formulario de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . . Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 93 93 94 99 103 105 111 111 113 116 119
  • 5. 5 1. Muestreo aleatorio simple. 1.0 Definiciones y conceptos básicos. 1.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 1.2 Muestreo aleatorio simple en poblaciones infinitas. 1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 1.2.3 Determinación del tamaño muestral. 1.3 Muestreo aleatorio simple en poblaciones finitas. 1.3.1 Estimación de la media, proporción y total poblacionales. 1.3.2 Determinación del tamaño muestral. 1.0 Definiciones y conceptos básicos Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de una población, por ejemplo el consumo de determinados productos, la audiencia televisiva de un programa, la intención de voto, ... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. La muestra debe ser representativa, es decir, una versión a escala reducida de la población que refleje las características de toda la población. Para obtener una muestra representativa hay diferentes métodos. Los métodos de muestreo más utilizados son:  Muestreo aleatorio simple.  Muestreo aleatorio estratificado.  Muestreo sistemático.  Muestreo por conglomerados. El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante el diseño de la muestra. Otros errores, más difíciles de controlar, pueden ocurrir al estudiar una muestra. Estos otros errores se llaman errores de no muestreo. En muchas muestras, el error de muestreo cometido para esa muestra puede ser despreciable en comparación con los errores que no son de muestreo.
  • 6. 6 Los errores de no muestreo más comunes son:  Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no puede ser elegida como parte de la muestra. Por ejemplo, si hacemos una encuesta por los domicilios en horario de trabajo, estamos vetando que ciertos individuos puedan ser elementos de la muestra.  Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren del valor verdadero, por ejemplo: - Los individuos no reconocen la verdad porque pudiera estar mal visto. - No comprenden las preguntas. - La formulación y el orden de las preguntas pueden afectar a las respuestas obtenidas. - …  No respuesta. La no respuesta de un individuo seleccionado para formar parte de la muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección. Puede ocurrir que las personas que respondan no representen a la población objetivo. Los errores de no muestreo deben controlarse con acciones como reentrevistas, verificación de los datos, … Son muchas las razones para el uso del muestreo, entre otras destacamos:  Evitar la destrucción de la población. En algunos casos, por ejemplo en el control de calidad, la observación de los elementos lleva a su destrucción.  Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se pueden publicar de una manera programada. Por ejemplo las elecciones.  Economía y precisión. El muestreo puede proporcionar información fiable con costes mucho menores que los de un censo (toda la población). Un censo completo implica mucho trabajo en la recolección de los datos y debido a su complejidad se pueden cometer muchos errores. En una muestra, por su menor tamaño, se puede dedicar más atención a la calidad de los datos. 1.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así seleccionada se le llama muestra aleatoria simple.
  • 7. 7 La condición de que cada muestra tenga la misma probabilidad de ser seleccionada equivale a que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la selección de cada elemento de la muestra se debe hacer con un sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se conoce como tablas de números aleatorios que suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más, estas tablas de números aleatorios son sustituidas por la generación de números aleatorios mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan sencillo. Una alternativa a la formación de una lista numerada para la selección mediante números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo: Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica, sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página. EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA. Utilizar un método más sencillo para seleccionar la muestra, con el que fácilmente se obtengan muchas observaciones, no garantiza una mejor información que una muestra aleatoria simple con muchos menos datos. 1.2 Muestreo aleatorio simple en poblaciones infinitas. Supongamos que la característica en estudio de la población está representada por la variable Y (con media  y varianza 2 ), una muestra aleatoria simple de tamaño n estará representada por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.). Nota: observaciones en poblaciones infinitas y también en poblaciones finitas, si se hacen con reemplazamiento, nos conducen a variables i.i.d.
  • 8. 8 1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. Como estimador de la media de la población, , se utiliza la media muestral, y . 1 1 n i i y y n    Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos evaluar también su bondad. Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza     2 E y V y n    Como estimador de la varianza de la población, 2  , se utiliza la cuasivarianza muestral, 2 S .   2 2 1 1 1 n i i S y y n      que también tiene la propiedad de ser insesgado  2 2 E S  de forma que la varianza de la media muestral se estima de forma insesgada por  2 ( ) S V y n  Cuando las variables Y, Y1, ..., Yn son dicotómicas o binomiales, sólo toman dos valores (0 y 1), su media  representa una proporción que se nota como p y el estimador de la misma, la proporción muestral, por p  1 1 0,1 n i i i p y y n    Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas antes. La varianza de la población es en este caso 2 pq  , donde q=1-p. Como antes, el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a  2 1 n S pq n   y la varianza estimada de la proporción muestral es     ( ) 1 pq V p n  
  • 9. 9 Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más sobre el comportamiento de la media muestral, aparte de lo ya mencionado. Si 2 2 ( , )Y N conocida   (0,1) y N n      Si 2 2 ( , )Y N desconocida   1 (0,1)n y t N S n       1( (0,1))nen la práctica para n 30, t N  Si Y cualquier distribución (0,1) y y N S n n         (por el Teorema Central del Límite cuando n  , en la práctica para n>30) Un caso particular del anterior es (1, )Y B p , variable dicotómica, donde p y p          (0,1) 1 1 p p p p p p N pq n pq pq n n n n         (en la práctica para n>30) Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y , o dicotómicas, p ) sigue una distribución Normal o se puede aproximar por ella si el tamaño de la muestra es suficientemente grande. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras) 1,96 1,96 0,95 y P n                 o en un caso más general 2 2 1 y P Z Z n                     =nivel de significación 1-=nivel de confianza
  • 10. 10 Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1,962. En todos los apuntes que siguen trabajaremos con un nivel de confianza del 95% y con 2 2Z  . En el formulario consideraremos distintos niveles de confianza, por tanto distintos valores de 2 Z que notaremos cZ para simplificar la notación. De las probabilidades anteriores se puede hacer dos lecturas. La primera: 2 2 0,95 2 0,95P y P y n n n                          En esta expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-=0,95= nivel de confianza del 95%. y  = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero valor del parámetro que se quiere estimar, . 2 n  = cota o límite para el error de estimación, es el máximo error de estimación que se puede estar cometiendo, con una confianza del 95%. En la práctica,  es desconocida y se estima por S . La segunda lectura: 2 2 0,95P y y n n              expresa la confianza que tenemos de que el verdadero valor del parámetro  se encuentre entre los extremos del intervalo 2 , 2y y n n         . Todo lo anterior se puede asegurar si el estimador sigue una distribución Normal (si el tamaño de la muestra es suficientemente grande, n>30, está garantizado). Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la respuesta. La desigualdad de Tchebychev asegura que si X es una variable aleatoria con media ( )E X  y varianza 2 ( )V X  , sea cual sea su distribución de probabilidad
  • 11. 11 2 1 1P X k k         Aplicando lo anterior a la media muestral para k=2 se obtiene 1 2 1 0,75 4 P y n             resultado parecido al que obteníamos anteriormente 2 0,95P y n           salvo que en este caso lo más que podemos asegurar es que dicha probabilidad es mayor que 0,75. 1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado, hacemos una estimación puntual. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el intervalo de confianza para la media poblacional  con un nivel de confianza del 95% es 2 , 2 S S y y n n        En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un valor dado, por ejemplo, se quiere contrastar la hipótesis nula 0 0:H   con un nivel de significación del 5%. Lo anterior equivale a comprobar si 0 2 , 2 S S y y n n          en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario. 1.2.3 Determinación del tamaño muestral. Si se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación, 2 B n   , la cantidad de información necesaria para conseguirlo depende del tamaño de la muestra según la siguiente expresión
  • 12. 12 2 2 2 2 2 2 4 , 4 4 B B n D Bn D         En la práctica la varianza poblacional 2  es desconocida. Si disponemos de 2 S de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2  por 2 S . Si no se dispone de información previa para estimar la varianza podemos usar que en variables Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica 2 2 4 16 R R     La proporción poblacional p es la media  de una variable dicotómica ( (1, )Y B p , ( )E Y p , ( )V Y pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo 2  por pq 2 , 4 pq B n D D   En la práctica p se desconoce. Una aproximación se obtiene reemplazándolo por el valor estimado p obtenido en muestras preliminares. Si no se cuenta con información anterior, suponiendo 1 2 p  se obtiene un tamaño muestral conservador (mayor que el requerido para obtener la cota del error de estimación fijada). Ejemplo 1.1. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos se observa que
  • 13. 13 el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a)       1 1 35 0,175 200 1 0,175 0,825 ( ) 0,000726 200 1 n i i pq p y n q V p n n               2 ( ) 0,0539 12,11% , 22,89%B V p p   b) 2 0,03 0,000225 641,6 642 4 B pq B D n D        c) 2 0,03 0,000225 0,5 1111,1 1112 4 B pq B D p q n D          d) 1 1 5600 35 160€ 35 n i i n y y n        2 2 625 625 ( ) 17,8571 2 ( ) 8,45€ 35 S S V y B V y n        1.3 Muestreo aleatorio simple en poblaciones finitas. Suponemos que la población es finita, tiene N elementos, y además que la muestra se selecciona sin reemplazamiento (lo que suele ser habitual, en caso contrario estaríamos ante el mismo modelo que el muestreo aleatorio simple en poblaciones infinitas con variables i.i.d.) 1.3.1 Estimación de la media, proporción y total poblacionales. Estimación de la media poblacional. Para estimar la media poblacional, , se utiliza la media muestral  1 1 n i i y y n      Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra
  • 14. 14     2 1 N n E y V y n N           En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población  2 2 2 21 1 N N E S E S N N           De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por    2 21 1 1 N N n S N n V y S N n N n N                      expresión igual a la del caso de poblaciones infinitas,  2 ( ) S V y n       , salvo el coeficiente N n N       que se denomina coeficiente corrector para poblaciones finitas (c.p.f.). En la práctica el coeficiente c.p.f. suele despreciarse si está próximo a 1, 0,95 N n N       o lo que es equivalente si 5%n N . En muchos casos N no está claramente definido o se desconoce, pero si N se supone suficientemente grande el c.p.f. se omite, 1 N n N       . Para calcular el límite para el error de estimación , con un 95% de confianza, se halla 2 ( )V y . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del 95% cuando trabajamos con el coeficiente 1,962. Pero en algunos casos, según la desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor que un 75%. Estimación del total poblacional. Para estimar el total poblacional, , dado que N N       utilizaremos el estimador 1 n i i N N y y n      . Para hallar su varianza usamos que 2 ( ) ( )V kX k V X , por tanto: Varianza estimada de     2 2 2 2 ( ) ( ) ( ) ( ) S N n S V V N y N V y N N N n n N n       
  • 15. 15 Como en el caso de la media, el límite para el error de estimación con una confianza del 95% está dado por 2 ( )V  . Valiendo comentarios análogos a los hechos anteriormente. En lo sucesivo se dará solamente el valor de la varianza del estimador para los distintos tipos de muestreo, omitiéndose el límite para el error de estimación. Ejemplo 1.2. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue 1.040€y  y la cuasivarianza muestral es S2 =45.000€2 . Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución:  2 1 45000 1000 300 ( ) 105 300 1000 nS N n V y n N       2 ( ) 2 105 20,49€V y      1.040 20,49 1.019,51 , 1.060,49 1000 1040 1.040.000€N y      2 ( ) 2 ( ) 1000 20,49 20.490€ ( 20.493,9)V N V y valor exacto        1.040.000 20.490 1.019.510 ,1.060.490  Estimación de la proporción poblacional. Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media muestral con la siguiente notación en este caso  1 1 0,1 n i i i p y y n    su varianza estimada, teniendo en cuenta que   2 1 n pq S n   , es igual a    2 ( ) 1 S N n pq N n V p n N n N      Para estimar el total poblacional de una variable dicotómica usamos N p         2 ( ) ( ) ( ) ( ) 1 pq V V N p N V p N N n n       
  • 16. 16 Ejemplo 1.3. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar  La proporción que votarán a un determinado representante de centro.  La proporción de ellos que tienen algún tipo de trabajo. Sean , ( 1,...,100)i iy z i  las respuestas del i-ésimo estudiante seleccionado ( 0iy  cuando responden NO, 1iy  cuando responden SI, análogamente para iz ). Según la muestra 100 100 1 1 70 25i i i i y z      Usando los datos de la muestra, estime 1p (proporción de estudiantes que votarán a un determinado representante), 2p (proporción de estudiantes con algún tipo de trabajo), 2 (número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Solución:   100 100 1 1 1 20,70 (70%) 0,25 (25%) 100 100 i i i i y z p p                1 1 2 2 1 2( ) 0,0018855 ( ) 0,0016835 1 1 p q p qN n N n V p V p n N n N             1 22 ( ) 0,0868 (8,68%) 2 ( ) 0,0821 (8,21%)V p V p   2 22 900 0,25 225 2 ( ) 900 0,0821 73,89N p V          1.3.2 Determinación del tamaño muestral. El número de observaciones necesarias para estimar  con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 ( )V y B   2 2 ( ) 4 B V y B V y D    2 2 2 ( ) 1 ( 1) N n N V y D n n N N D            Para estimar el total poblacional con un límite para el error de estimación B, dado que  2 ( ) 2 ( )V N V y B   , se llega a la misma expresión de n pero con 2 2 4 B D N 
  • 17. 17 Habitualmente la varianza poblacional 2  es desconocida. Si disponemos de 2 S de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2  por 2 S . Si no se dispone de información previa para estimar la varianza podemos usar que en variables Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica 2 2 4 16 R R     La proporción poblacional p es la media  de una variable dicotómica ( (1, )Y B p , ( )E Y p , ( )V Y pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo 2  por pq, obteniéndose ( 1) Npq n N D pq    2 4 B D  (para la proporción) 2 2 4 B D N  (para el total) En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información anterior, suponiendo 1 2 p  se obtiene un tamaño muestral conservador (mayor que el requerido para obtener la cota del error de estimación fijada). Ejemplo 1.4. Encuentre el tamaño de la muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional, se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). Solución: 2 2 2 2 2 10.000 25 4 800 200 40.000 4 4 1.000 B D N            2 2 615,62 616 ( 1) N n N D         Si se realizan dos mediciones (o más) sobre cada elemento de la muestra, se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites.
  • 18. 18 Ejemplo 1.5. Los alumnos de TC3 de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: 1p  proporción de estudiantes que prefieren los exámenes en sábado. 2 2 1 1 (0,10) 0,0025 4 4 B D    1 1 1 1 1 1 3.000 0,60 0,40 93,05 94 ( 1) (2.999 0,0025) (0,60 0,40) Np q n N D p q            2p proporción de estudiantes que apoyan al equipo decanal. 2 2 2 2 (0,05) 0,000625 4 4 B D    2 2 2 2 2 2 3.000 0,50 0,50 353,04 354 ( 1) (2.999 0,000625) (0,50 0,50) Np q n N D p q            para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de 1p disminuiría (con un 95% de confianza) hasta:     1 1 1 0,60 0,40 3.000 354 2 ( ) 2 2 0,0489 ( 4,9%) 1 353 3.000 p q N n V p n N         o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor     1 1 1 2 2 2 0,60 0,40 3.000 354 ( ) 0,10 1 353 3.000 p q N n z V p z z n N           2 2 0,02445 0,10 4,09z z    buscando en la tabla de la Normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad comprendida entre (-4,09 , 4,09), se obtiene 0,99995684, es decir, prácticamente un nivel de confianza del 100%. 
  • 19. 19 EJERCICIOS RESUELTOS 1. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en € 33,5 32 52 43 40 41 45 42,5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a)  33,5 ... 39 40,89 € 9 y          2 22 1 33,5 40,89 ... 39 40,89 35,67 9 1 S              2 3,963 2 3,98 € S V y B V y n        40,89 3,98 ; 40,89 3,98 36,91; 44,87   b) No, porque  45 36,91; 44,87 c) 2 2 2 2 35,67 35,67 36 1 4 4 S n compras B B       2. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? SOLUCIÓN:  655 0,655 65,5% 1.000 p p        0,655 (1 0,655) ( ) 0,0002262012 1 999 pq V p n        2 ( ) 0,0301 3,01%V p   (65,5% 3,01% , 65,5% 3,01%) (62,49% , 68,51%)  
  • 20. 20 (62,49% , 68,51%) 50%p p sí se puede afirmar que la mayoría de los habitantes están en contra     3. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? SOLUCIÓN: iR 4 i i R  2 i 2.200-1.200=1000 1.700-500=1.200 250 300 62.500 90.000 2 2 1 1 1 2 2 11 62.500 62.500 25 10.000100 44 4 n BD        2 2 2 2 2 2 2 22 90.000 90.000 25 14.400120 44 4 n BD        1 2 50n n n   4. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: 2.000N  2 11.000 1.200 9.800 2450 6.002.500 4 R R        
  • 21. 21 2 2 400 40.000 4 4 B D    2 2 139,65 140 ( 1) N n N D        2 2 0.05 0,000625 4 4 B D    0,5 333,47 334 ( 1) Npq p q n N D pq        Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334. 334n  . 5. Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: 2 110 1.800 1.500 300 75 5625 4 R N R          2 2 10 25 4 4 B D    2 2 74,1 75 ( 1) N n N D        2 2 0.02 0,0001 4 4 B D    0,5 105,4 106 ( 1) Npq p q n N D pq        6. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes:
  • 22. 22 Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. SOLUCIÓN: a) 25 5N n    2 14 2,8 70 5 12,7 ( ) ( ) 25 20 1270 5 2 ( ) 71,2741 y N y S V N N n n B V                   Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. Véase ejercicio resuelto 4 del tema 5. b)       2 0,4 10 5 0,24 ( ) ( ) 25 20 30 1 4 2 ( ) 10,9545 p N p pq V N N n n B V                    7. El consumo medio de combustible de los taxis de una ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5,4 6 6,3 11 3,6 16 5,4 2 5,5 7 5,4 12 6,7 17 4,8 3 6,9 8 5 13 5,2 18 4,7 4 3,9 9 4,5 14 5,1 19 5,8 5 4,5 10 4,4 15 5,4 20 6,2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5,6 litros/100 Km.
  • 23. 23 b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5,6 litros/100 Km, por tanto  15 0,75 20 p       0,75 0,25 580 ( ) 0,00954 1 19 600 pq N n V p n N        2 ( ) 0,1953V p     0,75 0,1953 , 0,75 0,1953 0,5547 , 0,9453    55,47% , 94,53% b)   2 0,10 0,10 0,0025 4 B D       600 0,75 0,25 66,77 67 ( 1) 599 0,0025 0,75 0,25 Npq n N D pq            8. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 Estime el total del dinero adeudado y establezca un límite para el error de estimación. SOLUCIÓN: iy 2 iy 35,50 32,00 43,00 41,00 44,00 42,50 1260,25 1024,00 1849,00 1681,00 1936,00 1806,25 1 238,00 n i i y   2 1 9556,50 n i i y   1 100 238=3966,6 6 n i i N N y y n      
  • 24. 24   2 2 1 22 2 1 1 1 1 238 9556,50 23,1667 1 1 5 6 n in i in i i i y y n S y y n n                           2 23,1667 2 ( ) 2 ( ) 2 100(100 6) 381,02 6 S V N N n n       Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas 2 1, , , n nx x x y    de forma inmediata. 1n nx xs desviación típica S cuasidesviación típica      9. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. SOLUCIÓN: N=5000, n=300         51 0,17 1 0,83 ( ) 0,00044359197 2 ( ) 0,0421 300 1 pq N n p q p V p V p n N              25% 17% 4,21% 12,79%, 21,21%  luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 10. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos?
  • 25. 25 SOLUCIÓN: ( )con las funciones del modo SD de la calculadora N=45, n=5   2 2 1 1 1 1 5,26 2,563 1 n n i i i i y y S y y n n              2 ( ) 0,4556 2 ( ) 1,35 : 3,91min., 6,61min. S N n V y V y Intervalo de confianza n N     Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis. 11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 2 1 1 1.450; 54.496i i i i Y Y      ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700, n=50 2 2 1 2 1 1 1 1450 29 254 50 1 n in i in i i i y y n y y S n n                     2 20.300 ( ) ( ) 2.311.400 2 ( ) 3.040,66 S N y V N N n B V n               20.300 3.040,66 17.259,34 , 23.340,66 Previsión más optimista: 23.340 Previsión más pesimista: 17.259
  • 26. 26 2. Muestreo aleatorio estratificado. 2.1 Selección de una muestra aleatoria estratificada. 2.2 Estimación de la media, proporción y total poblacionales. 2.3 Determinación del tamaño muestral. 2.4 Asignación de la muestra. 2.4.1 Asignación Óptima. 2.4.2 Asignación de Neyman. 2.4.3 Asignación Proporcional. 2.5 Estratificación después de seleccionar la muestra. 2.1 Selección de una muestra aleatoria estratificada. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección, llamados estratos, y la selección posterior de una muestra aleatoria simple en cada estrato. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:  A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste de la muestra.  Además de las estimaciones para toda la población, este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos. Antes de continuar fijemos la notación que va a utilizarse: L  número de estratos N  tamaño de la población n  tamaño de la muestra iN  tamaño del estrato in  tamaño de la muestra del estrato i 1 L i i N N    1 L i i n n    i  media poblacional del estrato i iy  media muestral del estrato i i  total poblacional del estrato i 2 i varianza poblacional del estrato i 2 iS  cuasivarianza muestral del estrato i
  • 27. 27 ip  proporción poblacional del estrato i  ip  proporción muestral del estrato i ic coste de una observación del estrato i 2.2 Estimación de la media, proporción y total poblacionales. En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato i iN y es un estimador insesgado del total i , estimaremos 1 L i i      por 1 L st i i i N y    y la media poblacional N    mediante 1 1 L ist i i y N y N    NOTA: sty y en general ( y = media muestral de las n observaciones) st   en general ( N y  = estimador del total según un m.a. simple.) Varianza estimada de sty   2 2 2 2 2 1 1 1 1 ( ) ( ) L L i i i i ist i i i i i S N n V y N V y N N N n N      Se obtiene aplicando que la varianza de la suma de variables independientes es la suma de sus varianzas y que 2 ( ) ( )V kX k V X . Varianza estimada de st   2 2 2 1 ( ) ( ) L i i i st ist i i i S N n V N V y N n N       En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores, salvo las diferencias ya comentadas en la lección anterior. Estimador de la proporción poblacional p   1 1 L ist i i p N p N    Varianza estimada de  stp       2 2 2 2 1 1 1 1 ( ) ( ) 1 L L i i i i i ist i i i i i p q N n V p N V p N N N n N        Estimador del total poblacional    1 L st ist i i N p N p    
  • 28. 28 Varianza estimada de st      2 2 1 ( ) ( ) 1 L i i i i st ist i i i p q N n V N V p N n N        Ejemplo 2.1. Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la siguiente tabla: BARRIO A BARRIO B BARRIO C 36 39 38 28 29 34 38 37 41 37 26 32 29 35 41 20 30 14 41 39 25 14 15 21 20 24 22 17 11 14 Estime el tiempo medio que se ve la televisión y el límite para el error de estimación, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Solución: en primer lugar se calculan las medias y cuasivarianzas muestrales en cada estrato 2 2 2 1 2 31 2 3 2 34,67 / 28,17 / 17,56 / 23,24 112,57 19,28 28,23 92,74 y horas semana y h s y h s S S S y S         A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones 1 2 3 1 2 3210 84 126 420N N N N N N N       1 2 3 1 2 315 6 9 30n n n n n n n      
  • 29. 29    22 2 3 3 31 1 1 2 2 2 1 2 3 1 1 2 2 3 3 ( ) 1,44 ( ) 17,42 ( ) 1,99 S N nS N n S N n V y V y V y n N n N n N            1 2 32 ( ) 2,40 / 2 ( ) 8,35 / 2 ( ) 2,82 /V y h s V y h s V y h s   Para el conjunto de todos los hogares el estimador de la media es 3 1 1 28,23 /ist i i y N y h s N    y la varianza de este estimador la podemos calcular basándonos en las varianzas de los estimadores de la media en cada estrato mediante   3 2 2 1 1 ( ) ( ) 1,24ist i i V y N V y N    o, si se prefiere, utilizando  23 2 2 1 1 ( ) i i i ist i i i S N n V y N N n N    el error para la estimación de la media para todos los hogares está dado por 2 ( ) 2,22 /stV y h s  Ejemplo 2.2. En el caso anterior, también se desea saber qué proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa en los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO NO SI NO SI NO SI NO SI SI NO NO NO SI NO SI SI SI SI NO SI SI NO SI SI SI SI NO Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato    1 2 3 7 5 6 0,4667 0,8333 0,6667 15 6 9 p p p      La estimación puntual de la proporción de hogares del municipio donde se ve el programa es   3 1 1 0,60ist i i p N p N    la varianza y error de estimación asociados son       3 2 2 1 1 ( ) 0,00748 2 ( ) 0,173 1 i i i i ist st i i i p q N n V p N V p N n N       y el intervalo de confianza expresado en porcentajes es
  • 30. 30    60% 17,3% 42,7%, 77,3%  2.3 Determinación del tamaño muestral. El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene dado por 2 ( )stV y B donde 2 2 2 1 1 ( ) 1 L i i i ist i i i N n V y N N n N       . No podemos despejar el valor de todos los in de una sola ecuación a menos que conozcamos la relación entre los in y n . Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos (problema de la asignación de la muestra que estudiaremos a continuación), sustituyendo i in n en ( )stV y se puede despejar n en función de los i obteniendo el tamaño muestral aproximado que se requiere para estimar  con un límite para el error de estimación B. 2 2 1 2 2 1 L i i i i L i i i N n N D N          2 4 B D  y la misma expresión vale para el total tomando 2 2 4 B D N  . Al igual que en el m.a.s. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden usar las cuasivarianzas muestrales de una muestra previa o basarnos en el rango de variación de las observaciones dentro de cada estrato. En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que en este caso particular 2 i i ip q  2 1 2 1 L i i i i i L i i i i N p q n N D N p q       2 4 B D  (para estimar p) y la misma expresión vale para el total tomando 2 2 4 B D N  . 2.4 Asignación de la muestra. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto, pequeño error de estimación) al menor coste posible.
  • 31. 31 El mejor esquema de asignación está influido por:  El número total de elementos en cada estrato.  La variabilidad de las observaciones en cada estrato.  El coste de obtener una observación en cada estrato. 2.4.1 Asignación Óptima. La asignación que minimiza el coste para un límite para el error de estimación fijado, B, se denomina asignación Óptima y está dada por 1 j j j j L i i i i N c N c       sustituyendo los j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación Óptima 1 1 2 2 1 L L i i i i i i i i L i i i N N c c n N D N            En el caso dicotómico las anteriores expresiones toman los valores 1 j j j j j L i i i i i p q N c p q N c     1 1 2 1 L L i i i i i i i i i i L i i i i p q N p q c N c n N D N p q         2 4 B D  (para estimar la media o p), 2 2 4 B D N  (para estimar el total). En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste total fijo de obtención de la muestra, C. En este caso la asignación Óptima también es la respuesta y el tamaño total de la muestra, n, viene dado por: 1 1 L i i i i L i i i i N C c n N c       
  • 32. 32 Análogamente para el caso dicotómico sustituyendo i i ip q  . 2.4.2 Asignación de Neyman. Cuando los costes de observación de cada estrato son los mismos, las expresiones de la asignación Óptima se simplifican y transforman en: Caso numérico 1 j j j L i i i N N       2 1 2 2 1 ( )L i i i L i i i N n N D N         Caso dicotómico 1 j j j j L i i i i N p q N p q     2 1 2 1 ( )L i i i i L i i i i N p q n N D N p q       A este tipo de asignación se le denomina de Neyman que coincide con la asignación Óptima solamente cuando los costes de observación son iguales en todos los estratos. Esta asignación se utiliza aún cuando los costes de observación no son idénticos, a veces, sencillamente no se conocen. 2.4.3 Asignación Proporcional. Si además de los costes, coincide el valor de las varianzas en cada uno de los estratos, las expresiones de la asignación Óptima y de Neyman se simplifican y reducen a Caso numérico j j N N   2 1 2 1 1 L i i i L i i i N n ND N N        
  • 33. 33 Caso dicotómico j j N N   1 1 1 L i i i i L i i i i N p q n ND N p q N       La asignación Proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación Proporcional el estimador sty coincide con la media muestral de la muestra que reúne a todas las muestras de cada estrato, sty y (análogamente para  stp y el total). Cuando se observa más de una variable en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. Con la asignación Proporcional y tomando como n el máximo de los valores encontrados para cada estimación se resuelve el problema como puede verse en el siguiente ejemplo: En la asignación Óptima y en la de Neyman los i dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: 1 1 2 2100 0,10 10 0,90 90n n n        2ª estimación: 1 1 2 240 0,50 20 0,50 20n n n        Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. En la asignación Proporcional no ocurre lo anterior pues los j j N N   son iguales para todas las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: 1 1 2 2100 0,30 30 0,70 70n n n        2ª estimación: 1 1 2 240 0,30 12 0,70 28n n n        tomando como n el máximo de los dos (y en general para k variables), se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones.
  • 34. 34 Ejemplo 2.3 Continuando con el ejemplo 2.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Solución: a) Podemos comprobar que se cumple i i i i N N n n i N N          o equivalentemente que i in N i n N   15 210 6 84 9 126 0,5 0,2 0,3 30 420 30 420 30 420       luego la asignación utilizada ha sido la Proporcional. b) Según los datos anteriores estimamos las varianzas de cada estrato por   2 2 2 2 2 2 1 2 31 2 323,24 112,56 19,28S S S        iN i ic i i iN c i i i N c  2 i iN  210 84 126 4,8208 10,6094 4,3909 1 3 2 1012,368 2673,5688 1106,5068 1012,368 297,0632 276,6267 4880,4 9455,04 2429,28 420 4792,4436 1586,0579 16764,72 2 1 0,25 4 4 B D      3 3 1 1 3 2 2 2 1 4792,4436 1586,0579 124,89 420 0,25 16764,72 i i i i i i i i i i i N N c c n N D N               
  • 35. 35 1 1 1 1 2 33 1 0,6383 0,1873 0,1744 i i i i N c N c            1 1 2 2 3 379,71 80 23,39 24 21,78 22n n n n n n           80 24 22 126n     c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio 3 1 3 1 600 600 1586,0679 198,57 4792,4436 i i i i i i i i N c n N c           y la asignación de la muestra en cada estrato está dada por la asignación Óptima 1 2 30,6383 126,75 126 0,1873 37,19 37 0,1744 34,63 34n n n n n n         126 37 34 197n     o bien resolviendo la ecuación 1 1 2 2 3 3 600c n c n c n   donde i in n 1 1 2 2 3 3 600c n c n c n     1 1 2 2 3 3 600 600 198,57 3,0216 n c c c        A partir de n se obtienen los i in n según la asignación Óptima.  Ejemplo 2.4 Continuando con el ejemplo 2.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.
  • 36. 36 Solución: a) iN ip iq i i iN p q i i iN p q 210 84 126 0,4667 0,8333 0,6667 0,5333 0,1667 0,3333 52,2671 11,6685 27,9986 104,7669 31,3075 59,3955 420 91,9342 195,4699 2 2 0,05 0,000625 4 4 B D      23 2 1 3 2 2 1 195,4699 188,98 420 0,000625 91,9342 ( )i i i i i i i i N p q n N D N p q          1 1 1 1 1 3 1 104,7669 188,98 101,29 102 195,4699 i i i i N p q n n n N p q         análogamente 2 330,27 31 57,42 58 102 31 58 191n n n         b) iN ip iq i i iN p q 210 84 126 0,5 0,5 0,5 0,5 0,5 0,5 52,5 21 31,5 420 105   1 1 105 204,878 1051 420 0,000625 420 L i i i i L i i i i N p q n ND N p q N          1 210 204,878 102,439 103 420 n    análogamente 2 340,98 41 61,46 62n n    103 41 62 206n      El muestreo estratificado no siempre conduce a un estimador con menor error de estimación, esto suele ocurrir cuando los estratos no están formados por elementos suficientemente homogéneos. Muchas veces es debido a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema queda bien ilustrado con el siguiente ejemplo. Ejemplo 2.5 Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios.
  • 37. 37 Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, decide aplicar asignación Proporcional, la cual conduce a 1 1 20 0,20 4 N n n N     de forma similar 2 3 46 5 5n n n   . Obteniendo los resultados de la tabla siguiente (consumo expresado en euros). Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550 490 500 470 520 550 500 540 480 500 470 470 450 560 460 440 580 2 11 507,5 1091,67y S  2 22 505 750y S  2 33 492 870y S  2 44 498 4420y S  Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Solución: 31 2 4 0,20 0,30 0,25 0,25 NN N N N N N N             4 4 1 1 1 0,20 507,5 0,30 505 0,25 492 0,25 498 500,5€i ist i i i i N y N y y N N              Obsérvese que cuando se utiliza la asignación Proporcional sty y , efectivamente 20 1 1 10010 500,5€ 20 i i y y n     En la siguiente expresión consideramos los coeficientes correctores para poblaciones finitas en cada estrato iguales a la unidad  22 2 2 24 4 2 2 2 2 1 1 1 1 ( ) i i i i i i i ist i i ii i i i S N n N S N S V y N N n N N n N n               2 2 2 21091,67 750 870 4420 0,20 0,30 0,25 0,25 88,29 4 6 5 5                             2 ( ) 18,79 €stV y 
  • 38. 38 Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media hubiera sido 20 1 1 500,5 €i i y y n    que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente, pero la varianza estimada y error de estimación asociados tomarían los valores 2 1 1520,79nS    2 1 1520,79 ( ) 76,04 20 nS N n V y n N      , se supone 1 N n N   2 ( ) 17,44 €V y  Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los medianos en otro, ..., es decir, formando los estratos con hogares que tengan un consumo similar.  2.5 Estratificación después de seleccionar la muestra. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (por ejemplo, estratos según sexo y entrevista telefónica). Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede ser dividida en 1n masculinos y 2n femeninos después de que ha sido realizada. Entonces en lugar de usar y para estimar  , podemos usar sty siempre que iN N sea conocido para todo i. Obsérvese que en esta situación los in son aleatorios, ya que varían de una muestra a otra aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en pleno sentido, pero si iN N es conocido y 20in  i , entonces este método de estratificar después de la selección es casi tan exacto como el muestreo aleatorio estratificado con asignación Proporcional. Este método no debe usarse si iN N o una buena aproximación de su valor se desconocen.
  • 39. 39 Ejemplo 2.6 En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas cuasidesviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad y el límite para el error de estimación. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el procedimiento se justifica pues tanto 1n como 2n superan 20. 1 2 5730 2080 95,5€ 52€ 60 40 y y    2 2 1 1 1 (0,30 95,5) (0,70 52) 65,05€i ist i i i i N y N y y N N           2 2 22 2 2 2 2 1 1 1 ( ) i i i i i i i ist i ii i i i S N n N S N n V y N N n N N n N       omitiendo el coeficiente corrector por poblaciones finitas se tiene  22 2 2 2 22 2 2 2 2 1 1 200 90 ( ) 0,30 0,70 159,225 60 40 i i i i st i ii i N S N S V y N n N n                         2 ( )stV y =25,24€  A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza muestreo aleatorio simple y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: 5730 2080 7810 78,10€ 60 40 100 y     
  • 40. 40 Con el muestreo aleatorio simple sobrevaloraríamos el consumo medio de electricidad por hogar (78,10>>65,05). EJERCICIOS RESUELTOS 1. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: 1 1 1 1 1 1 1 1 20.000 3.028,624 1784,81 33.937,726 L L L L i i i i i i i i ii i i i L L L L i i i i i i i i i i i i i N N N N C C C C c c c c n N c N c N c N c                              1 1 2 2 1 2 1.784,81 0,9397 1677,2 1677 1.784,81 0,0603 107,59 107 1784 n n n n n n n                O bien 1 1 2 2 1 1 2 2 20.000 20.000 9,397 1,809 11,206 20.000 20.000 1.784,8 11,206 c n c n c n c n n n n n            Y a partir de n se obtienen n1 y n2 como antes. iN ic i i N c i iN c i 9.000 1.000 10 30 2.846,05 182,574 28.460,5 5.477,226 2.846,05/3.028,624=0,9397 182,574/3.028,624=0,0603 10.000 3.028,624 33.937,726 1,0000
  • 41. 41 2. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos in   n i iy 1 2 iS 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. SOLUCIÓN: 1 2 3 239 174 78 9,56 9,16 4,87 25 19 16 y y y            1 1 1 0,425 9,56 0,30 9,16 0,275 4,87 8,15 L L i ist i i i i N y N y y N N             22 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 1 1 1 ( ) 60,77 63,01 78,24 0,425 0,30 0,275 1,107 25 19 16 L L L L i i i i i i i i i i i ist i i i ii i i i i i N n S N n S N S N S Si V y N N N N n N N n N n N n                                           2 1,107 2,1 3. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 iN 240 190 350 220 in 25 25 25 25 iy 3,5 3,6 3,9 3,8 iS 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación)
  • 42. 42 SOLUCIÓN: a)  2 2 2 1 1 1 1 1 1000 3,725 ( ) 0,00973 L L L i i i i i ist i st i i i i i S N n N N y N y V y N N N n N              2 ( ) 0,1973 3,5277 , 3,9223stB V y    b) 3 3 3 3 4 1 350 1,2 100 100 (240 0,8) (190 0,9) (350 1,2) (220 0,7) 100 0,4482 44,82 45 i i i N n n N                      4. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de empresa Número de empresas Costes de observación Gastos de reparación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación Óptima. Usamos que R4 y por tanto estimamos que 4 R   . iN ic ic iR i i i i N c  i 100 500 700 16 9 4 4 3 2 600-400 360-240 130-70 50 30 15 1250 5000 5250 0’1087 0’4348 0’4565 11500 1 600 = 16n1 + 9n2 + 4n3 ( ni = in ) 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n n = 600/7’4784 = 80’231 n1 = 1n = 8’72  8 n2 = 2n = 34’88  34 n3 = 3n = 36’63  36
  • 43. 43 C = (168) + (934) + (436) = 578 < 600 5. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES iN 2.500 2.700 in 100 400 iy 120 250 2 iS 9.000 16.000 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: iN in iy 2 iS i iN y i i i N n N  2 2 i i i i i i S N n N n N  2.500 2.700 100 400 120 250 9.000 16.000 300.000 675.000 0,96 0,85185 540.000.000 248.399.460 5.200 500 975.000 788.399.460 1 1 975.000 187,5 5.200 L ist i i y N y N      2 2 2 2 1 1 788.399.460 ( ) 29,16 5.200 L i i i ist i i i S N n V y N N n N     2 29,16 10,8 6. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra.
  • 44. 44 SOLUCIÓN:     1 2 12 130 0,24 0,52 1 50 250 i ip p q p              1 1 1 0,50 0,24 0,50 0,52 0,38 38% L L i ist i i st i i N p N p p p N N                     22 2 2 2 2 2 1 1 1 1 2 2 1 1 1 ( ) 1 1 1 1 0,24 0,76 0,52 0,48 0,50 0,50 0,0011812146 49 249 i i i L L L L i i i i i i i i i i i i i ist i i i ii i i i i N n Si N p q p q p q p qN n N N V p N N N n N N n N n N n                                         2 ( ) 0,0687 6,87%stV p   7. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros Técnicos Administrativos 2 iS 36 25 9 iN 132 92 27 SOLUCIÓN: iN i iS  i iN  i 132 92 27 6 5 3 792 460 81 792 0,5941 1.333  460 0,3451 1.333  81 0,0608 1.333  1.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 1 j j j L i i i N N       1 2 3 40 0,5941 23,8 24 40 0,3451 13,8 14 40 0,0608 2,4 2 40 n n n n             
  • 45. 45 8. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. SOLUCIÓN: iN ic  ip  iq   i ip q   i i i i N p q c i 5.000 2.000 3.000 3 5 4 0,90 0,55 0,70 0,10 0,45 0,30 0,3 0,4975 0,45826 500 199 343,695 500 0,4795 1.042,695  199 0,1909 1.042,695  343,695 0,3296 1.042,695  1.042,695 1 Donde se ha aplicado la asignación Óptima: 1 j j j j j L i i i i i p q N c p q N c     1 2 3 200 0,4795 95,9 96 200 0,1909 38,2 38 200 0,3296 65,9 66 200 n n n n              9. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación. Omita el coeficiente corrector por población finita. SOLUCIÓN: Estrato iN in  ip   1 i i i p q n  A B 0.40 N 0.60 N 67 133 2/67=0.030 6/133=0.045 0.000441 0.000326 N 200              1 0.40 0.030 0.60 0.045 0.40 0.030 0.60 0.045 0.039 3.9%p N N N                    2 2 2 2 2 1 0.40 0.000441 0.60 0.000326V p N N N            2 2 0.40 0.000441 0.60 0.000326 0.000188    
  • 46. 46  2 0.000188 0.0274 2.74%B   10. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. SOLUCIÓN: Peso en gramos ( )con las funciones del modo SD de la calculadora 12, 14, 12, 15, 12 2 1 11,4142 2S S  16, 22, 24, 20, 20, 18 2 2 22,8284 8S S  30, 33, 31, 34 2 3 31,8257 3,3333S S  iN i 2 i i iN  2 i iN  1 j j j L i i i N N       71,66i in  300 500 200 1,4142 2,8284 1,8257 2 8 3,3333 424,26 1414,2 365,14 600 4000 666,66 0,1925 0,6418 0,1657 13,79 14 45,99 46 11,87 12 1000N  2203,6 5266,66 1 72n  2 2 250.000 0,0625 4 4.000.000 B D N    2 1 2 2 1 71,66 ( )L i i i L i i i N n N D N          11. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la
  • 47. 47 operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. b. Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a.  18 0,18 (18%) 100 p       ( ) 0,001491 1 pq V p n       2 ( ) 0,0772 7,72%V p  b.      1 1 1 2 16 0,60 0,40 0,14 14% 20 80 L L i ist i i i i N p N p p N N                           22 2 2 2 1 1 1 1 ( ) 1 1 1 L L L i i i i i i i i i i ist i i ii i i i p q p q p qN n N N V p N N n N N n N n                     2 20,10 0,90 0,20 0,80 0,60 0,40 0,00203 19 79         2 ( ) 0,0901 9,01%stV p  c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B (  2 0,20p  ) frente al de A (  1 0,10p  ). En el apartado b. este hecho se corrige dando a  1p y  2p las ponderaciones 0,60 y 0,40 respectivamente para estimar p. 12. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:
  • 48. 48 1 1 2 2 3 3 21,2 12 13,3 11 26,1 9 y S y S y S       a. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. SOLUCIÓN: a. 1 1 3834 19,17 / 200 L ist i i y N y pedidos semana N       2 2 2 1 1 ( ) 6,2965 2 ( ) 5,02 / L i i i ist st i i i S N n V y N V y pedidos semana N n N     b. iN i 2 i i iN  2 i iN  1 j j j L i i i N N       43,52i in  100 70 30 12 11 9 144 121 81 1200 770 270 14400 8470 2430 0,5357 0,3438 0,1205 23,31 24 14,96 15 5,24 6 200N  2240 25300 1 45n  2 9 2,25 4 4 B D    2 1 2 2 1 43,52 ( )L i i i L i i i N n N D N          13. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación.
  • 49. 49 SOLUCIÓN: a. iN in iy 2 iS i iN y i i i N n N  2 2 i i i i i i S N n N n N  164 186 24 36 972 463 202,396 96,721 159.408 86.118 0,854 0,806 193.699,13 74.925,32 350 245.526 268.624,45 1 1 245.526 701,50 350 L ist i i y N y N      2 2 2 2 1 1 268.624,45 ( ) 2,19 350 L i i i ist i i i S N n V y N N n N     2 2,19 2,96 b. 2 463y   2 2 2 2 2 2 2 96,721 186 36 ( ) 2,17 36 186 S N n V y n N      2 2,17 2,94
  • 50. 50 3. Muestreo con información auxiliar. 3.1 Introducción. 3.2 Estimación de razón. 3.2.1 Estimación de la media y total poblacionales. 3.2.2 Determinación del tamaño muestral. 3.3 Estimación de regresión. 3.3.1 Estimación de la media y total poblacionales. 3.3.2 Determinación del tamaño muestral. 3.4 Estimación de diferencia. 3.4.1 Estimación de la media y total poblacionales. 3.4.2 Determinación del tamaño muestral. 3.1 Introducción. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que tengamos de una variable, como puede ser la media o el total poblacional, para estimar la media o el total de la otra variable. Notaremos por Y Variable bajo estudio X Variable que proporciona la información auxiliar De las que tomaremos una muestra constituida por n pares de datos:   ),(,...,, 11 nn yxyx A partir de los datos muestrales se puede estimar la relación existente entre ambas variables. Pueden utilizarse distintos diseños de muestreo en la estimación con información auxiliar. Aquí suponemos que se emplea el muestreo aleatorio simple. La estimación con información auxiliar es importante cuando se pretende estimar el total sin conocer el número de elementos de la población pero sí el valor total de la variable que proporciona la información auxiliar. Por ejemplo, debido a que existe una fuerte relación entre renta y ahorro, se puede estimar el valor total de los ahorros de los individuos de una población si se conoce el valor total de las rentas de dichos individuos. Así, si se sabe que por término medio el 10% de la renta se dedica al ahorro y se conoce la renta total, el ahorro total se estima igual al 10% de la renta total. Observemos que la estimación del total de ahorro se ha llevado a cabo sin necesidad de conocer el número de individuos de la población, N.
  • 51. 51 Dependiendo de la relación entre las variables X e Y utilizaremos:  Estimadores de razón  y bx o con otra notación y rx   Estimadores de regresión  y a bx   Estimadores de diferencia  y a x o con otra notación y d x    Estos estimadores sólo se deben utilizar si entre las dos variables existe una fuerte relación lineal positiva, 2 1 xyr . 3.2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y , se define la razón como el cociente: x y R    Es decir, la proporción del total de Y respecto del total de X . Puesto que yy N  y xx N  , obtenemos Y Y X X N R N       De estas definiciones se deduce que xy xy R R     Por tanto, si se conocen los valores de la media y el total de la variable X , para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R r ): ˆ ˆ y x y x r r       Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra aleatoria simple:    1 1, ,..., ,n ny x y x , podemos estimar R tomando el cociente entre las medias muestrales:  ESTIMADOR DE LA RAZÓN: 1 1 1 1 1 1 n n i i i i n n i i i i y y y n r x x x n             VARIANZA ESTIMADA DE r : 2 2 1ˆ( ) r x S N n V r n N        ,      n i iir rxy n S 1 22 1 1
  • 52. 52 3.2.1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,  , ,y bx en este contexto se nota b r dado su significado y rx    ESTIMADOR DE LA MEDIA: xy r ˆ Para estimar yˆ necesitamos conocer el verdadero valor de x . No vale la estimación x x   VARIANZA ESTIMADA DE yˆ :           N nN n S rVV r xy 2 2 )(ˆˆˆ   ESTIMADOR DEL TOTAL: xy r ˆ  VARIANZA ESTIMADA DE yˆ :   2 2 2 2 2 ˆ ˆˆ( ) ( ) x r r y x x S N n S V V r N N n n N n              Si x y N son desconocidos no podemos utilizar la expresión anterior. Entonces si 1 N n N N     y aproximando x por x se tiene  2 2 2 ( ) x r y S V nx    Comentarios sobre estos estimadores:  Son estimadores sesgados.  Cuando N es desconocido y si estimamos que Nn %5 , es decir que 95,0  N nN , entonces 1  N nN . (Véase ejercicio resuelto 4)  De la relación N x x    , se sigue que conociendo dos de estos elementos se puede calcular el tercero. (Véase ejemplo 3.1: 3840 5,12 / 750 x ha socio x N      )  A la hora de estimar el total, aunque conozcamos el tamaño de la población, cuando existe una fuerte correlación entre las variables, se comporta mejor el muestreo con información auxiliar  xy r ˆ que el muestreo aleatorio simple  yNˆ . (Véase ejemplo 3.5)
  • 53. 53 Ejemplo 3.1 Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 3840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción Superficie Producción 3,7 12 3 8 4,3 14 7 20 4,1 11 5,4 16 5 15 4,4 14 5,5 16 5,5 18 3,8 12 5 15 8 24 5,9 18 5,1 15 5,6 17 5,7 18 5 15 6 20 7,2 22 Estime la producción media y total mediante los estimadores de razón y muestreo aleatorio simple. Calcule sus respectivos límites para el error de estimación y compárelos. Solución producción (toneladas, tm) uperficie plantada (hectáreas, ha)Y X S  ix iy 2 ix 2 iy i ix y 3,7 12 13,69 144 44,4 4,3 14 18,49 196 60,2 4,1 11 16,81 121 45,1 5 15 25 225 75 5,5 16 30,25 256 88 3,8 12 14,44 144 45,6 8 24 64 576 192 5,1 15 26,01 225 76,5 5,7 18 32,49 324 102,6 6 20 36 400 120 3 8 9 64 24 7 20 49 400 140 5,4 16 29,16 256 86,4 4,4 14 19,36 196 61,6 5,5 18 30,25 324 99 5 15 25 225 75 5,9 18 34,81 324 106,2 5,6 17 31,36 289 95,2 5 15 25 225 75 7,2 22 51,84 484 158,4 TOTALES 105,2 320 581,96 5398 1770,2
  • 54. 54 Del enunciado y de la tabla anterior obtenemos: 20 750 socios 3840 haxn N    2 2 1 1 1 1 1 105,2 320 581,96 5398 1770,2 n n n n n i i i i i i i i i i i x y x y x y                 2 22 2 2 1 1 1 1 105,2 1 1 581,96 5,26 5,26 1,4304 20 20 n n n i x i i i i i x x s x x x x n n n                 2 22 2 2 1 1 1 1 320 1 1 5398 16 16 13,9 20 20 n n n i y i i i i i y y s y y y y n n n                    1 1 1 1 1770,2 5,26 16 4,35 20 n n xy i i i i i i s x x y y x y x y n n            Si queremos calcular las cuasivarianzas a partir de las varianzas: 2 2 2 220 20 1,4304 1,5057 13,9 14,6316 1 19 1 19 x x y y n n S s S s n n         y hallando las raíces cuadradas obtenemos las desviaciones típicas  ,x ys s y las cuasidesviaciones típicas  ,x yS S . Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas de forma inmediata: 2 1n nx xx x x s desviación típica S cuasidesviación típica       La relación entre las variables es alta, 4,35 0,9756 1,196 3,728 xy xy x y s r s s     . Esto, junto con la información auxiliar que disponemos de la variable X, justifica el uso de estimadores de razón. Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). 20 1 20 1 320 3,042 tm/ha 105,2 ˆ 3,042 3840 11680,6 tm i i i i y x y r x r             3840 5,12 / 750 x ha socio x N      ˆ 3,042 5,12 15,57y xr tm/socio    
  • 55. 55   20 20 20 20 22 2 2 2 1 1 1 1 1 1 2 0,706 1 1 r i i i i i i i i i i S y rx y r x r x y n n                        2 ˆ ˆˆ ˆ0,0344 2 0,37 tm/socior y y S N n V B V n N             2 2 2 2 2 ˆ ˆˆ ˆ( ) 19326,75 2 ( ) 278,04 tmx r r y y x S N n S N n V N B V n N n N                        o 750 750 0,37 277,5B B tm      (los dos procedimientos no coinciden por simples errores de redondeo en el valor de B ). A continuación lo estimaremos utilizando muestro aleatorio simple:   2 320 14,63 750 20ˆ16 / 0,712 20 20 750 S N n y tm socio V y n N                  2 0,712 1,69 /B tm socio   320 ˆ 750 12000 20 Ny tm      2 2 2 14,63 750 20ˆ ˆ 750 400539,47 20 750 S N n V N n N                 2 400539,47 1265,76B tm   o 750B B   Observemos que el límite del error de estimación, tanto para la media como para el total, es mucho mayor que el cometido utilizando estimadores de razón.  3.2.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error B ND N n r r   2 2   donde para estimar:  la razón: 4 22 xB D    la media: 4 2 B D   el total: 2 2 4N B D 
  • 56. 56 Comentarios:  2 r se estima utilizando una muestra previa: 22 ˆ rr S .  Si x es desconcocido, 22 ˆ xx  Ejemplo 3.2 (continuación del ejemplo 3.1) Supongamos que queremos reducir el límite para el error de estimación de la media a 0,25 tm/socio y el del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución MEDIA: 2 2 2 2 750 0,706 0,25 0,706 750 4 42,6 43 socios 4 r r N n B N                TOTAL: 2 2 2 2 2 2 2 2 750 0,706 37,7 38 socios 200 0,706 4 4 4 750 r r r r N N n B B N N N                    Necesitamos al menos 43 socios para cumplir con ambos niveles de error.  3.3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. En el modelo lineal simple bXaY  , el método de mínimos cuadrados permite estimar a y b de la siguiente forma:      1 2 2 1 n i i xy i n x i i y y x x s b s x x a y bx            donde      22 2 2 1 1 1 1 1 1 1 1 n n x i i i i n n xy i i i i i i s x x x x n n s x x y y x y x y n n                 
  • 57. 57 3.3.1 Estimación de la media y el total poblacionales  ESTIMADOR DE LA MEDIA:  ˆyL x x xa b y bx b y b x           Para estimar ˆyL necesitamos conocer el verdadero valor de x . No vale la estimación x x   VARIANZA ESTIMADA DE yLˆ :           N nN n S V L yL 2 ˆˆ  siendo 2 LS la varianza residual en el modelo lineal simple:       2 2 2 2 2 2 2 1 1 1 2 2 2 n xy L i i y y xy i x sn n S y y b x x s s r n n s n                  ESTIMADOR DEL TOTAL: yLyL N ˆˆ  En este caso para estimar el total es necesario conocer el tamaño de la población N. No se puede estimar como ˆyL xa b   ya que la recta de regresión no pasa por el punto  yx  , .  VARIANZA ESTIMADA DE ˆyL :    yLyL VNV  ˆˆˆˆ 2  Ejemplo 3.3 Para un grupo de 1000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170
  • 58. 58 Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el límite para el error de estimación. Solución ventas diaria (euros) gastos diarios en publicidad (euros)Y X  18 establecimientos 1000 establecimientos 5€xn N    Tal y como se explicó en la resolución del ejemplo 3.1 obtenemos: 5,0556€ 138,889€x y  2 1,6375 2,6814x xs s   2 20,314 412,654y ys s   27,7284xys  La relación entre las variables es fuerte: 0,8336xyr  . 2 27,7284 10,341 2,6814 xy x s b s       ˆ 138,889 10,341 5 5,0556 138,314€yL xy b x        ˆ ˆ 138314€yL yLN    2 2 2 1 141,6 2 L y xy n S s r n       2 ˆ ˆ 7,73L yL S N n V n N          ˆ ˆ2 5,56yLB V   1000 5,56 5560€B N B       3.3.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere el valor B ND N n L L   2 2   donde para estimar:  la media: 4 2 B D   el total: 2 2 4N B D  2 L se estima utilizando una muestra previa: 22 ˆ LL S Ejemplo 3.4 (continuación del ejemplo 3.3) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1000 euros ¿cuál debe ser el tamaño muestral?
  • 59. 59 Solución 2 2 2 2 2 2 1000 141,6 361,6 362 1000 141,6 1000 4 4 1000 L L N n B N N                establecimientos.  3.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno.  ( )y a x ó y y x x a y x d        Comúnmente se emplea en procedimientos de auditoría. 3.4.1 Estimación de la media y el total poblacionales  ESTIMADOR DE LA MEDIA:   dxy xxyD  ˆ xyd  Para estimar ˆyD necesitamos conocer el verdadero valor de x . No vale la estimación x x   VARIANZA ESTIMADA DE yDˆ :           N nN n S V D yD 2 ˆˆ             n i i n i iiD dd n dxy n S 1 2 1 22 1 1 1 1 , donde iii xyd  , por tanto 2 DS es la cuasivarianza de los id .  ESTIMADOR DEL TOTAL: yDyD N ˆˆ  En este caso para estimar el total es necesario conocer el tamaño de la población N. No se puede estimar como  ˆyL x xy x d       por análogas razones a las expuestas en el estimador de regresión.  VARIANZA ESTIMADA DE YDˆ :    yDyD VNV  ˆˆˆˆ 2  Ejemplo 3.5 Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
  • 60. 60 X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el límite para el error de estimación en cada caso. Solución gasto diario (euros) ingresos diarios (euros)Y X  10 establecimientos 200 establecimientos 500€xn N    Tal y como se explicó en la resolución del ejemplo 3.1 obtenemos: 516€ 453,5€x y  2 115,797 13409x xs s   2 115,738 13395,3y ys s   2 14883,7yS  13396,5xys  La relación entre las variables es muy fuerte: 2 0,99958 0,99916xy xyr r  . MUESTREO ALEATORIO SIMPLE 2 y ˆ ˆ453,5€ 90700€ Sˆ ˆˆ ˆV( ) 1413,94 B 2 V( ) 75,20€ B 200 B =15040,97€ y Ny N n n N                       ESTIMADORES DE RAZÓN ˆ ˆ0,879 200 100000 87900€ 439,5€x x y x y x y r r r x                22 2 2 2 1 1 1 1 1 1 2 227,717 1 1 n n n n r i i i i i i i i i i S y rx y r x r x y n n                      2 ˆ ˆ 21,63 9,3€r y S N n V B n N           =1860€B N B  
  • 61. 61 ESTIMADORES DE REGRESIÓN 2 13.396,5ˆ 0,99907 13.409 xy x s b s     ˆˆ 437,515€yL xy b x     ˆ ˆ 87.503€yL yLN       2 2 2 2 ˆ ˆ1 14,05 1,33 2 L L y xy yL n S N n S s r V n n N             2,3104€ 462,09€B B NB     ESTIMADORES DE DIFERENCIA 62,5d   ˆ ˆ ˆ437,5€ 87500€yD x yD yDd N        (con la calculadora hallamos 1n  sobre las diferencias id y lo elevamos al cuadrado)   2 2 1 1 12,5 1 n D i i S d d n           2 ˆ ˆˆ ˆ1,1875 2 2,179 435,8899D yD yD S N n V B V B NB n N                 3.4.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales ND N n D D   2 2   donde para estimar:  la media: 4 2 B D   el total: 2 2 4N B D  2 D se estima utilizando una muestra previa: 22 ˆ DD S Ejemplo 3.6 (continuación ejemplo 3.5) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución 2 2 2 2 2 200 12,5 20 establecimientos 300 12,5 4 4 200 D D N n B N N          
  • 62. 62 EJERCICIOS RESUELTOS 1. En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15000000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12500 15000 10000 17500 Gasto general 24000 31000 20000 36000 Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. SOLUCIÓN (trabajaremos en cientos de euros) ix iy 2 ix 2 iy i ix y 240 310 200 360 125 150 100 175 57600 96100 40000 129600 15625 22500 10000 30625 30000 46500 20000 63000 1110 550 323300 78750 159500 1 1 550 500 4 0,4955 0,4955 150000 74325 € 1110 n i i y xn i i y N n r r cientos de x                7432500 €y    2 2 2 2 2 1 1 1 1 1 1 62,2 2 20,73 1 1 3 n n n n r i i i i i i i i i i S y rx y r x r x y n n                       2 ( ) ( ) 1285,4667 2 ( ) 2267,568r y y S V N N n V n        72057,432 ; 76592,568 €y en cientos de  Para expresarlo en € hay que multiplicarlo por cien. 2. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: 25 25 25 2 2 1 1 1 9,1; 2,6; 2240; 169; 522i i i i i i i x y x y x y           Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%.
  • 63. 63 SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) 22 21 1 275 25 3,5 ./ . 2,6 6,76 n i i yn i i x x N n r pers hab y yy               2 2 2 2 2 1 1 1 1 1 1 2 27,34375 1 1 n n n n r i i i i i i i i i i S x ry x r y r x y n n                      2 2 1 ( ) ( ) 0,1471 2 ( ) 0,767r y N n S V r V r N n     3. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla 3 m 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 Estime la media de 3 m /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. SOLUCIÓN: Y = consumo de 3 m de agua, X = tamaño de la parcela en hectáreas ix iy 2 ix 2 iy i ix y 50 600 2500 360000 30000 150 1800 22500 3240000 270000 60 750 3600 562500 45000 70 900 4900 810000 63000 100 1100 10000 1210000 110000 120 1400 14400 1960000 168000 80 950 6400 902500 76000 60 700 3600 490000 42000 90 1000 8100 1000000 90000 60 720 3600 518400 43200 840 9920 79600 11053400 937200 31 1 9920 11'81 / 840 n i i n i i y r m hectarea x          22 2 2 2 1 1 1 1 1 1 2 1 1 n n n n r i i i i i i i i i i S y rx y r x r x y n n                      1 11053400 11102297'56 22136664 2114'84 9    
  • 64. 64  840 84 10 x x     2 2 2 1 1 240 2114'84 ( ) 0'02877 84 250 10 r x N n S V r N n     2 ( ) 0'3392V r  4. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1502530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1702,44 1204 1339,56 1000 981,06 800 2537,04 1800 1519,85 1200 3080,19 2600 1502,53 1080 1702,87 1240 1402,36 1000 1803,04 1400 2053,46 1484 3005,06 2000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. Obtenga el límite para el error de estimación. SOLUCIÓN: Denotemos por Y = consumo mensual X = ingresos mensuales De la información muestral obtenemos 12 12 1 1 12 16808 euros 22629,46 eurosi i i i n y x       y como información auxiliar sabemos que 1502530x  euros. Podemos comprobar que el coeficiente de correlación lineal es alto, 9677,0 yx xy xy ss s r . Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar, en concreto utilizaremos estimadores de razón.
  • 65. 65 12 1 1 2 1 0, 7 4 2 7 ˆ 1 1 1 6 0 0 2, 0 7 € i i i i y x y r x r          Para calcular 22 2 ˆ ˆ( ) x r Y x S N n V n N           tenemos en cuenta que:   12 i 1 No conocemos , pero en la ciudad hay muchos hogares, observando < 5%i xN x      estimamos que < 5% 1 N n n N N      1885,79€x x     12 12 12 12 22 2 2 2 1 1 1 1 1 1 2 16479,7 1 1 r i i i i i i i i i i S y rx y r x r x y n n                     ˆ ˆˆ ˆ( ) 871825002,67 2 ( ) 59053,37€Y YV B V     5. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. SOLUCIÓN: N=250, n=5, 12764x  , X=gastos, Y=ingresos ( )con las funciones del modo SD de la calculadora : 2 632 4095,5Dd S   13396 €yD x d     3349000 €yD yDN       2 2 2 2 ( ) 50169875 € 2 ( ) 14166,14 €D D yD yD N n S S V N N N n V N n n          6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla:
  • 66. 66 Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. SOLUCIÓN: N=123, n=5, 128200 €x  , X=ganancias del año anterior, Y=ganancias del año actual ( )con las funciones del modo SD de la calculadora : 5 5 2 1 1 5 5 2 1 1 882 4410 4495700 924 4620 4961400 i i i i i i i i x x x y y y               1 1 1,047619 n i i n i i y y r xx        134304,76 €y xr     5 5 5 5 22 2 2 2 1 1 1 1 1 1 2 1640,25 1 1 r i i i i i i i i i i S y rx y r x r x y n n                        2 ( ) 4761314,071 2 ( ) 4364,09r y y S V N N n V n        129940,67 ,138668,85y  7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de la campaña Ventas actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 i ix y 335500 561600 2400000 1050600 372000 5 1 4719700i i i x y  
  • 67. 67 Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño de la muestra para estimar ˆy con un límite para el error de estimación de 2000€, cuando se utiliza el estimador de razón. SOLUCIÓN: N=452, n’=5, X=ventas antes de la campaña, Y=ventas actuales ( )con las funciones del modo SD de la calculadora : 5 5 2 1 1 5 5 2 1 1 331,6 1658 587146 355,6 1778 671034 i i i i i i i i x x x y y y               5 1 5 1 1,072376 i i i i y y r xx          5 5 5 5 22 2 2 2 1 1 1 1 1 1 2 109,4775 ' 1 ' 1 r i i i i i i i i i i S y rx y r x r x y n n                    2 2 4,8947 4 B D N   2 2 109,4775r rS   2 2 21,3 22r r N n ND       i ix y 49712 171200 207680 71484 127413 5 1 627489i i i x y  
  • 68. 68 4. Muestreo sistemático. 4.1 Selección de una muestra sistemática. Usos. Ventajas. 4.2 Estimación de la media, proporción y total poblacionales. 4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 4.4 Determinación del tamaño muestral. 4.1 Selección de una muestra sistemática. Usos. Ventajas. En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. Se selecciona aleatoriamente un elemento (llamado punto de inicio o pivote) de los primeros k elementos de la población. 2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . k se toma como el número entero menor o igual que el cociente n N : n N k  . Nos podemos encontrar con las siguientes situaciones: 1. n N k  entero. Entonces se obtienen exactamente n observaciones. 2. n N no es entero. Por ejemplo si 103N y 5n , entonces 6,20 n N y tomamos 20k . Según el punto inicial nos podemos encontrar con: a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos: 2º, 22º, 42º, 62º, 82º, 102º Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Podríamos elegir también el 102º y la muestra sería de tamaño 6. b. Si se elige, por ejemplo, la observación 18º como la inicial, obtendríamos una muestra de tamaño 5: 18º, 38º, 58º, 78º, 98º 3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. N se estima por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será mayor o igual de lo requerido.
  • 69. 69 Ventajas del muestreo sistemático frente al muestreo aleatorio simple:  En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. En el muestreo aleatorio simple podría ser un problema si dos números aleatorios fueran consecutivos o muy próximos. Por ejemplo, sería difícil escoger una muestra aleatoria simple de personas entre las que entran a un supermercado. Al seleccionar las personas al azar podríamos encontrarnos que no hemos acabado de hacer la encuesta a un cliente cuando el siguiente a encuestar ya ha pasado. Pero sí sería fácil coger 1 de cada 20 personas que pasen hasta completar la muestra.  Frecuentemente, con igual tamaño de muestra, el muestreo sistemático proporciona mejor información que el muestreo aleatorio simple. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población, mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una parte de la población y descuide otras. Por ejemplo, supongamos que en una fábrica los primeros 3000 motores se fabrican correctamente y los últimos 3000 son defectuosos por un desajuste en la línea de montaje. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El muestreo sistemático, en cambio, selecciona el mismo número de motores de ambos grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un orden en la población, el muestreo sistemático es mejor que el muestreo aleatorio simple. Usos: Este tipo de muestreo es muy utilizado por los planes de muestreo para el control de calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. 4.2 Estimación de la media, proporción y el total poblacionales  ESTIMADOR DE LA MEDIA POBLACIONAL: ( 1) 1 1 ˆ n sy i j k j y y n        1 i k  i=punto de inicio o pivote
  • 70. 70  VARIANZA ESTIMADA DE syy :           N nN n S yV sy 2 ˆ Comentarios. - Si se desconoce el tamaño poblacional por su gran magnitud, entonces .1  N nN - Cuando N no es múltiplo exacto de n , el estimador es sesgado. Como puede observarse, la varianza del estimador de la media se estima igual que en el muestreo aleatorio simple (véase 4.3 Comparación con el muestreo aleatorio simple). Aunque las varianzas de los estimadores no son realmente iguales, éstas son:   1 2    N nN n yV  y       11 2  n n yV sy donde  = coeficiente de correlación entre los elementos de una muestra sistemática. El tamaño poblacional se desconoce en muchas situaciones prácticas en las que se usa el muestreo sistemático. Cuando N es conocido también se puede estimar el total poblacional.  ESTIMADOR DEL TOTAL POBLACIONAL: syyNˆ  VARIANZA ESTIMADA DE ˆ :             N nN n S NyVNV sy 2 22 ˆˆˆ  Ejemplo 4.1 Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día Nº personas que visitan el museo 3 160 13 350 23 225   173 290 18 18 2 1 1 4868 1321450i i i i y y      Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado y el límite para el error de estimación.
  • 71. 71 Solución 180N  4868 ˆ 180 48680 18 syNy    visitantes   2 4868 1321450 289,79 1 2 n S n            ˆ ˆ 469461,18 2 2 S N - n V τ = N n N       B 1370,34   Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral:  ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: ( 1) 1 1 ˆ , 0,1 n sy i j k i j p y y n      1 i k  i=punto de inicio o pivote  VARIANZA ESTIMADA DE sypˆ :            N nN n qp pV sysy sy 1 ˆˆ ˆˆ Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Ejemplo 4.2 La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil Respuesta 1 1 8 1 15 0   2794 1 400 1 324i i y   Solución 81,0 400 324 ˆ  sysy yp
  • 72. 72   ˆ ˆ 0,81(1 0,81) 2800 400ˆ ˆ 0,000330612 0,0364 1 400 1 2800 sy sy sy p q N n V p B n N                     Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del muestreo aleatorio simple, aplicándose las fórmulas del muestreo aleatorio estratificado, análogamente a como se han utilizado las del muestreo aleatorio simple para aproximar el comportamiento del muestreo sistemático. 4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del muestreo aleatorio simple. Según las expresiones   1 2    N nN n yV  y       11 2  n n yV sy éstas serán similares cuando 1 1 N n N    y 0  , pero en otros casos no. Distinguimos los siguientes casos: A. Población ordenada  0 Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo a los valores, crecientes o decrecientes, de una determinada característica. En este caso es preferible el uso del muestreo sistemático, ya que la muestra se extiende uniformemente a lo largo de toda la población: 0      yVyV sy  Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). Al utilizar las varianzas estimadas de los estimadores del muestreo aleatorio simple en el muestreo sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el muestreo sistemático).
  • 73. 73 B. Población aleatoria  0 Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que 0      yVyV sy  . Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante. C. Población periódica  0 Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que 0      yVyV sy  . Por ejemplo: a. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. b. Ventas diarias de un supermercado a partir de una muestra sistemática con 7k . Para evitar este problema, el investigador puede cambiar varias veces el punto de inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del muestreo aleatorio simple en el muestreo sistemático estaría justificado. 4.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene de las expresiones del muestreo aleatorio simple. Lo que conduce a obtener muestras más grandes de las necesarias en poblaciones ordenadas y muestras más pequeñas en poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no tendremos problemas.
  • 74. 74 Tamaño muestral requerido para estimar  y  con un límite B para el error de estimación 2 2 )1(     DN N n con 2 2 2 para estimar la media 4 para estimar el total 4 B D B N         Tamaño muestral requerido para estimar p y  con un límite B para el error de estimación Npq n= (N -1)D+ pq con 2 2 2 para estimar p 4 para estimar el total 4 B D B N         Ejemplo 4.3 (continuación del ejemplo 4.2) En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. Solución   0,81 1 0,19p q p      2 2 5000 0,81 (1 0,81) 1176,97 1177 0,02 ( 1) (5000 1) 0,81 (1 0,81) 4 4 Npq n automóviles B N pq                   4,25 N k n   Si tomáramos k=5 5000 1000 5 n   . Tomando k=4 5000 1250 1177 4 n    .  EJERCICIOS RESUELTOS 1. La gerencia de una compañía privada con 2000 empleados está interesada en estimar la proporción de empleados que están a favor de una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1)
  • 75. 75 Empleado muestreado Respuesta 3 1 13 0 23 1   1993 1 200 1 110i i y   Se quiere volver a repetir el anterior estudio pero con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN    2 110 0,05 2000 0,55 1 0,45 0,000625 200 4 N p q p D        330,7 331 6,04 6 ( 1) Npq N n k k N D pq n          2. Un auditor se enfrenta a una larga lista de 1000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21000€. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1000000€ y con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. SOLUCIÓN 2 2 2 2 2 21000 1000000 1000 21000 27562500 250000 4 4 1000 N R D       2 2 99,39 100 10 ( 1) N N n k N D n          3. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2073719 1973576 4047295 26,0 1960 2179708 2078142 4257850 23,7 1965 1927054 1833304 3760358 19,4 1970 1915378 1816008 3731386 18,4 1975 1613135 1531063 3144198 14,6 1980 1852616 1759642 3612258 15,9 Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. SOLUCIÓN Desde 1955 hasta 1980, ambos inclusive, hay 26 años. 26N  .
  • 76. 76 1 1 1 ˆ 11.561.610 1.926.935 6 n sy i i y y n       2 37913412871,20S  (con las funciones estadísticas en el modo SD de la calculadora)   2 ˆ 4860693957,85sy S N n V y n N        B 139437,35 4. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas. Cantidad de llenado en cl 33 32,5 33,5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0,42cl, considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. SOLUCIÓN: N=1800 n’=6 ( )con las funciones estadísticas del modo SD de la calculadora : 2 2 2 ' 1 ' 10,8n nS S   2 0,0441 4 B D   2 2 1800 17,97 18 100 ( 1) 18 N n k N D          5. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN: N=650 n’=65  47 0,7231 1 0,7231 0,2769 65 p q     2 0,05 0,000625 4 B B D   650 214,8 215 3,02 3 ( 1) 215 Npq n k k N D pq        
  • 77. 77 5. Muestreo por conglomerados. 5.1 Necesidad y ventajas del muestreo por conglomerados. 5.2 Formación de los conglomerados. Conglomerados y estratos. 5.3 Estimación de la media, proporción y total poblacionales. 5.4 Determinación del tamaño muestral. 5.1 Necesidad y ventajas del muestreo por conglomerados. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones:  Es complicado disponer de una lista de los elementos de la población, mientras que es fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase = elemento, aulas = conglomerados)  El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos. 5.2 Formación de los conglomerados. Conglomerados y estratos. Los elementos de un conglomerado deben ser diferentes entre sí, así una muestra con pocos conglomerados recogería gran cantidad de información sobre el parámetro poblacional. Si los elementos dentro de un conglomerado presentan características similares, tomar varias observaciones dentro de un conglomerado no aporta más información. Recordemos que los estratos debían ser tan homogéneos como fuera posible y diferir tanto como se pudiera uno de otro con respecto a la característica que está siendo esudiada. Los conglomerados, sin embargo, deben ser tan heterogéneos dentro de ellos como sea posible y muy similar uno a otro para que el muestreo por conglomerados esté indicado y proporcione buenos resultados. Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de conglomerados. 5.3 Estimación de la media, proporción y total poblacionales. Vamos a utilizar la siguiente notación: N  conglomerados en la población. n  conglomerados en la muestra. im  elementos en el conglomerado i iy  suma de las observaciones en el conglomerado i
  • 78. 78 1 N i i M m    elementos en la población (con frecuencia es desconocido) 1 n i i m m    elementos en la muestra 1 1 N i i M m N    tamaño medio de los conglomerados de la población (con frecuencia es desconocido) 1 1 n i i m m n    tamaño medio de los conglomerados de la muestra (se utililza para estimar M ). (A) Estimación de la media. El estimador de la media poblacional  es la media y ,  1 1 1 1 n in i i n i i i y y y m m           La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón.  2 2 1 ( ) cSN n V y N nM   donde   2 2 1 1 1 n c i i i S y ym n      ( M es estimado por m , si se desconoce) La varianza estimada es sesgada y sería un buen estimador de ( )V y si n es grande ( 20n  ). El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( 1 2 ... Nm m m   ). Notas:  La expresión de  2 2 1 ( ) cSN n V y N nM   no se suele simplificar como    2 2 ( ) c N N n S V y M n   para poder calcularla fácilmente cuando N y M sean desconocidos. A veces N no se conoce debido a su gran tamaño y N n N  se aproxima por 1. Si M es desconocido M debe ser estimada por m .  Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción poblacional p y de la proporción muestral p . En este caso al número total de elementos
  • 79. 79 en el conglomerado i que poseen la característica de interés se nota como ia en lugar de iy como es habitual en variables numéricas. Así tendremos que  1 1 n i i n i i a p y m       Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. (B) Estimación del total. De la relación entre la media y el total poblacional M    se sigue que M  , siendo el estimador del total poblacional  M y  y la varianza estimada del mismo   2 22 2 2 ( ) ( ) ( ) c cS SM V M V y N N n n nm      (sea cual sea el valor de M, éste no afecta a la varianza ni al error del estimador, aunque sí al valor del estimador del total) Como en la estimación del total con un estimador de razón, cuando M es desconocida y se estima por m y N n N  se aproxima por 1 debido al gran tamaño de N, la varianza del estimador del total se aproxima por 22 2 cSM nm . (C) Estimación del total cuando se desconoce el tamaño de la población. Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del total M y  , debemos construir un estimador del total que no dependa de M . La cantidad 1 1 n it i y y n    , es el promedio de los totales de los conglomerados de la muestra y un estimador insesgado del promedio de los N totales de los conglomerados de la población. Por el mismo razonamiento empleado en el muestreo aleatorio simple, tN y es un estimador insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total poblacional  .
  • 80. 80 En resumen t tN y    2 2 ( ) ( ) ( ) t t t S V N V y N N n n     donde  2 ( ) t t SN n V y N n     2 2 1 1 1 n t i t i S y y n      1 1 n it i y y n    Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados, la varianza de t tN y  es generalmente mayor que la varianza de M y  . Esto es debido a que el estimador t tN y  no usa la información proporcionada por los tamaños de los conglomerados, im , y por ello puede ser menos preciso. Cuando los tamaños de los conglomerados son iguales, los dos estimadores del total coinciden, además el estimador de la media, y , es un estimador insesgado de la media poblacional y también es insesgado el estimador de su varianza, ( )V y (lo mismo vale para el total). Ejemplo 5.1 En una ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500.
  • 81. 81 SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados, tanto para variables numéricas como dicotómicas. im iy 2 im 2 iy i im y 8 2 64 4 16 7 2 49 4 14 9 3 81 9 27 6 3 36 9 18 5 3 25 9 15 35 13 255 35 90 a) N=200 n=5  1 1 13 0,3714 37,14% 35 n i i n i i y p y p m            2 22 2 2 1 1 1 1 1 1 3,3222 2 0,8306 1 1 4 n n n n c i i i i i i i i i i S y ym y y y m y m n n                     Ya que M es desconocido, M debe ser estimada por m 1 1 35 7 / 5 n i i m m hogares manzana n      2 2 1 ( ) 0,003305cSN n V y N nm    2 ( ) 0,115 11,5%V y  b) 1 1 13 2,6 5 n it i y y n     520t tN y     2 2 2 1 12 1 1 0,3 1 1 n nn i ii t i ii t y yy y n S n n                 2 ( ) ( ) 2.340t t N N n S V n     2 ( ) 96,75tV    423,25 ; 616,75 c) 557,14M y   1500 7,5 200 M    2 2 1 ( ) 0,0028795cSN n V y N nM    Obsérve que al conocer M , la estimación de ( )V y es diferente de la obtenida en a).  2 ( ) ( ) 6478,8V M V y   2 ( ) 160,98V    396,16 ; 718,12
  • 82. 82 El límite para el error de estimación es más pequeño en b) que en c), debido a que los tamaños de los conglomerados no están correlacionados con los totales de los conglomerados ( 2 0,08myr  ). En otras palabras, los tamaños de los conglomerados proporcionan poca información sobre los totales de los conglomerados.  5.4 Determinación del tamaño muestral. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B 2 2 c c N n ND     donde 2 c se estima mediante   2 2 1 1 1 n c i i i S y ym n      de una muestra previa, siendo 22 4 B M D  para la estimación de la media y 2 2 4 B D N  para la estimación del total. Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. Cuando se utiliza tN y para estimar el total, el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por 2 2 t t N n ND     2 2 4 B D N  y 2 t se estima mediante   2 2 1 1 1 n t i t i S y y n      de una muestra previa. Ejemplo 5.2 Suponiendo que los datos del ejemplo 5.1 representan una muestra previa, cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. SOLUCIÓN 2 0,8306cS  1 1 35 7 5 n i i M m m n      22 2 2 0,01 7 0,001225 4 4 B M D     2 2 154,4 155c c N n ND       
  • 83. 83 EJERCICIOS RESUELTOS 1. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. SOLUCIÓN im iy 2 im 2 iy i im y 10 8 11 7 13 9 15 8 100 64 121 49 169 81 225 64 130 72 165 56 36 45 334 539 423 2 1 2 1 6200 700 1,25 0,01 4 n i i n i i y B M N y D N m             2 22 2 2 2 1 1 1 1 1 1 2 1,125 1 1 n n n n c c i i i i i i i i i i S y ym y y m y m y n n                       2 2 96,92 97c c N n ND       2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3
  • 84. 84 Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. SOLUCIÓN: a) 57 5N n  im iy 2 im 2 iy i im y 51 62 49 73 101 42 53 40 45 63 2601 3844 2401 5329 10201 1764 2809 1600 2025 3969 2142 3286 1960 3285 6363 336 243 24376 12167 17036  1 1 243 0,7232 72,32% 336 n i i n i i y p p m               2 2 2 2 2 1 1 1 1 1 1 2 68,7 1 1 n n n n c i i i i i i i i i i S y pm y p y m p m n n                    2 2 2 336 4515,84 5 M m           2 2 1 ( ) 0,00278cSN n V p N nM     2 ( ) 0,1054 10,54%V p   b) 22 2 2 20,05 4515,84 2,8224 4 4 c c B M D S      2 2 17,06 18c c N n ND       3. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene
  • 85. 85 tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) Ingreso total por conglomerado en € (yi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 151 residentes 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. NOTA: Repetir este ejemplo con todos los im iguales (por ejemplo, 6im i  , supongamos conocido 6 415 2490M    ) y estime el total por los dos métodos estudiados  t tM y N y    . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación.
  • 86. 86 d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta por la dificultad de trabajar con cantidades muy grandes) n=25 N=415  1 1 1329000 8801,32 € / 151 n i i n i i y y residente m          2 2 1 96000 ... 82039000000 n i i y     2 2 1 8 ... 1047 n i i m       1 96000 8 ... 8403000 n i i i y m        2 22 2 2 1 1 1 1 1 1 15227502247 2 634501213,40 1 1 24 n n n n c i i i i i i i i i i S y ym y y y m y m n n                     Ya que M es desconocido, M debe ser estimada por m , 1 1 151 6,04 / 25 n i i m m residente bloque n      2 2 1 ( ) 653785,19cSN n V y N nM    2 ( ) 1.617,14€V y  b) 1 1 1329000 53160 € / 25 n it i y y bloque n     22061400 €t tN y     2 2 2 2 1 12 1 1 1 82039000000 (1329000) 1 25 1 1 24 11389360000 474556666,6 24 n n i in i i t i t i y y n S y y n n                       2 ( ) ( ) 3072279860000t t S V N N n n     2 ( ) 3505584,04 €tV  
  • 87. 87 c) 2500 415 25 6,0241 415 N n M    22003311,26€M y    2 2 2 1 634501213,40 ( ) 657240,9482c c SN n S V y N nM      2 ( ) ( ) 4107755926250V M V y   2 ( ) 4053519,92V    17949791,34€ ; 26056831,18€ Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( 2 0,0919myr  ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. d) 2 634501213,40cS  22 2 2 500 6,04 2280100 4 4 B M D     2 2 166,58 167c c N n ND       4. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si (a) Estime el número de bajas en el último año en las empresas del pueblo y el límite del error de estimación. (b) Estime la proporción de empresas que usarían los servicios ofertados y el límite del error de estimación.
  • 88. 88 SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población, por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas. iy   2 i ty y 1 2 9 0 2 0 1 0 4 6 2,25 0,25 42,25 6,25 0,25 6,25 2,25 6,25 2,25 12,25 25 80,5 25 2,5 / 10 ty bajas empresa  85 2,5 212,5t bajas      2 280,5 85 10 8,94 8,94 ( ) 0,7892157 ( ) 85 ( ) 5702,08 9 85 10 tt t tS V y V V y                 2 5702.08 151,02B bajas   b)  4 0,40 (40%) 10 p     85 10 0,4 0,6 ( ) 0,02353 85 10 1 V p      2 0,02353 0,3068 (30,68%)B   5. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3600 hogares. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación.
  • 89. 89 SOLUCIÓN: i im y 121550 143400 153090 1 418040 n i i i m y   3600 60 3 60 60 N n M    2 2 1 1 1 1 178 10594 7030 16501100 n n n n i i i i i i i i m m y y             1 1 39,49 € n i i n i i y y m           2 22 2 2 1 1 1 1 1 1 2 2612,04 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n                      2 2 1 ( ) 0,23 2 ( ) 0,96 €cN n S V y V y N nM     6. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33,5 32,5 31 34 2 32,5 32 33 32,5 3 30,5 33 33 33,5 Estime el volumen medio de los envases y la cota del error de estimación. SOLUCIÓN: N=40, n=3, ( )con las funciones del modo SD de la calculadora : 3 3 2 1 1 4 12 48i i i i M m m m        3 3 2 1 1 130,33 391 50961i it i i y y y       im iy i im y 4 4 4 131 130 130 524 520 520 3 1 1564i i i m y  
  • 90. 90  3 1 3 1 32,5833 i i t i i y y y cl mm            3 3 3 32 22 2 2 1 1 1 1 1 1 2 0,3333 1 1 c i i i i i i i i i i S y ym y y m y m y n n                      2 2 1 ( ) 0,006423 2 ( ) 0,1603cSN n V y V y cl N nM     7. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. SOLUCIÓN: N=100 n=5 ( )con las funciones del modo SD de la calculadora :  2 1 1 6,4 32 264 n n i i i i M m m m        2 1 1 118 590 90700 n n i it i i y y y       i im y 150 770 2530 1260 120 1 4830 n i i i m y  
  • 91. 91  5 1 5 1 18,4375 € i i t i i y y y mm            2 22 2 2 1 1 1 1 1 1 2 584,57 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n                      2 2 1 ( ) 2,7116 2 ( ) 3,2934 €cSN n V y V y N nM     8. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una muestra aleatoria de 5 distritos de un total de 495. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho el recuento final de los votos. Los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en la tabla: Nº votantes Nº votantes que apoyan A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. SOLUCIÓN: N=495 n=5 ( )con las funciones del modo SD de la calculadora :  2 1 1 2 1 1 1260,2 6301 8270161 638,6 3193 2183195 n n i i i i n n i it i i M m m m y y y                i im y 877200 738270 399000 1514700 651832 1 4181002 n i i i m y  
  • 92. 92     5 1 5 1 0,506745 50,67% i i t i i y y p mm            2 22 2 2 1 1 1 1 1 1 2 17372,505 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n                         2 2 1 ( ) 0,00216573 2 ( ) 0,0930748 9,31%cSN n V p V y N nM    
  • 93. 93 RELACIÓN DE EJERCICIOS 1. Muestreo Aleatorio Simple 1. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000 niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. Usando los datos de la siguiente tabla: Niño Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Solución:   No 94,2,06,12,2 2. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con los resultados siguientes: 1,2y segundos y 4,0S segundos. Estime la media poblacional y establezca un límite para el error de estimación. Solución: 1697,0;1,2ˆ  B 3. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite para el error de estimación. Solución: 0958,0;1833,0ˆ  Bp
  • 94. 94 4. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre fue 2,25y árboles, con una cuasivarianza muestral de 1362 S . Estime el número total de árboles de tamaño grande en la plantación. Establezca un límite para el error de estimación. Solución: 9408,379.3;800.37ˆ  B 5. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación, con un límite para el error de estimación de 1.500 árboles. Solución: 400413,399 n 6. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona, construyendo un intervalo de confianza al 95%. Solución:  04,104.58,09,842.44 2. Muestreo Aleatorio Estratificado 1. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos son separados en facturas al por mayor y al por menor después del muestreo, con los siguientes resultados en €: Por mayor Por menor Valor total facturas=36400€ 1 1170 520€ 210€n y S   Valor total facturas=8400€ 2 2230 280€ 90€n y S  
  • 95. 95 Estime el valor medio de las facturas de la empresa, y fije un límite para el error de estimación. Solución: 376€; 28,14€sty B  2. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. Carreras de 2 años Carreras de 4 años Media 154,3 411,8 Desviación típica 87,3 219,9 a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar un límite de error de estimación. b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. Dar un límite de error de estimación. Solución: (a) 84,594.57;731.480ˆ  Bst (b) 0826,0;2058,0ˆ  Bpst 3. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208 profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. Decide investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. Solución: 0685,0;7214,0ˆ  Bpst 4. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
  • 96. 96 respectivamente. Basándose en una experiencia previa, se estima que las desviaciones típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. Solución: 55,80;83,19;31,22;83,19;59,18 4321  nnnnn 5. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05 para el error de estimación. b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo. Solución: (a) 1 247; 83; 130n n n   (b) 61;39;22 21  nnn 6. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. A partir de la información proporcionada por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados Porcentaje de participación en años anteriores Coste de encuestar a un elemento 4-6 150 40% 4 6-8 130 30% 9 8-12 120 25% 16 12-14 100 20% 25 Sol. 2165,20;3453,33;5227,51;9584,94;3,200 4321  nnnnn 202 n 7. El coste de transportar mercancías en avión depende del peso. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de
  • 97. 97 observar si existe variación semanal en la cantidad producida. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos semanas, mostraron las siguientes mediciones: Semana A Semana B 58,3 59,2 60,4 60,1 59,3 59,6 58,7 59,2 59,1 58,8 59,6 60,5 a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B. b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera estimar el peso total del embarque, con un límite para el error de estimación de 50 kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Solución: (a) 13,722.19ˆ  (b) )56'850.19,71'593.19( (c) 673230,31;3537,34;67,65 21  nnnn 8. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se usa muestreo aleatorio estratificado, con cada tienda como un estrato. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar 651 N 422 N 933 N 254 N Tamaño muestra 141 n 92 n 213 n 64 n Nº cuentas no cobradas 4 2 8 1 a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación. b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas, con un límite del error de estimación del 5%. Solución: (a) 1173,0;30,0ˆ  Bp (b) 1317,12;5998,58;2380,22;3935,38;30,132 4321  nnnnn 134 n 9. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el
  • 98. 98 presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal, 30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70 para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente. Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis, el tipo de aprendizaje de cada estudiante): 70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. Estime la calificación media en el examen final de matemáticas. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación, así como determine la ganancia en precisión. c. Se desea mejorar la estimación de la nota media del examen final en matemáticas, teniendo en cuenta más información. Usando estos resultados como muestra previa, qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos, utilizando asignación Proporcional. d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) ˆ 78,59; 3,21B   (b) 25,4;53,77ˆ  B (c) 38826,7;1189,10;1915,18;31,36 321  nnnnn (d) 178,16);69,43,87,11( n 10. Se desea estimar el salario medio de los empleados de una empresa. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: 1 226,91 7,77 8 19,14 20 28Neyman n n n n      
  • 99. 99 3. Muestreo con información auxiliar 1. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: 0102,0;1467,0  Br 2. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2 (en miles de millones). Los datos se presentan en la tabla adjunta: Industria 1980 1981 Producto de fábricas textiles 13,6 14,5 Productos químicos y relacionados 37,7 42,7 Madera aserrada y leña 15,2 15,1 Equipo eléctrico y electrónico 48,4 53,6 Vehículos y equipo 19,6 25,4 Transporte y almacenaje 33,5 35,9 Banca 44,4 48,5 Bienes Raíces 198,3 221,2 Servicios de Salud 99,2 114,0 Servicios de Educación 15,4 17,0 (a) Encuentre el estimador de razón del ingreso total de 1981, y establezca un límite para el error de estimación.
  • 100. 100 (b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un límite para el error de estimación. (c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) 95,45;30,433.2ˆ  BY (b) 64,48;91,432.2ˆ  BYL (c) 07,180;90,455.2ˆ  BY 3. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros), este año (Y) y el año pasado (X): Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. Sin hacer distinción entre pueblos, estime las ventas medias para este año utilizando un estimador de razón. Dé un límite para el error de estimación. b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. Compare los estimadores que se obtienen en cada caso justificadamente. Solución: (a) 69,5;53,180ˆ  B (b) 81,53;91,171ˆ  B (c) 53,49;43,171ˆ  B (d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación entre las variables. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. 4. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). Se obtuvieron los siguientes resultados: 6;8;10;40;60;80 321321  nnnNNN
  • 101. 101 Zona A Zona B Zona C X Y X Y X Y 3,2 4,1 3,1 3,9 2,8 3,8 3,0 4,0 3,0 4,0 2,9 3,7 2,9 4,1 3,1 3,8 2,9 3,8 2,8 3,9 3,2 4,0 3,0 3,6 3,1 3,7 3,0 3,8 3,1 3,8 3,2 4,1 3,2 4,1 3,0 3,7 2,9 4,2 2,9 3,7 2,8 4,0 3,0 3,8 3,1 3,9 2,8 3,8 a. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Dar una estimación del error. b. Si se le permite un error de estimación de 0,01 para estimar el peso medio estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación Proporcional. c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón. Dar el límite de error de estimación. d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. Comentar los resultados. Solución: (a) 0523,0;8944,3ˆ;0516,0;0008,3ˆ  BB yx  (b) 147331,32;4915,48;652,64;4,144 321  nnnnn (c) 0793,0;1467,4ˆ  By (d) 0617,0;8875,3ˆ  B 5. En una escuela de 560 alumnos, se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los siguientes:
  • 102. 102 Nota curso 99/00 Nota curso 00/01 80 87 78 65 98 86 45 47 61 67 83 94 79 67 56 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una estimación del error de muestreo. Solución: 45,7;75ˆ  By 6. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10 parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es 4200. Parcela 1 2 3 4 5 6 7 8 9 10 Cantidad en fotografía 12 30 24 24 18 30 12 6 36 42 Cantidad en terreno 18 42 24 36 24 36 14 10 48 54 a. Estime la razón poblacional y obtenga su intervalo de confianza. b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos, con un límite de error de estimación de 200 abetos? Solución: (a) )4097'1,2057'1(;3077,1r (b) 44,428;31,492.5ˆ  By ) (c) 399,38 n 7. De una población de 40 hogares, para la que es conocido que el gasto total general durante un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um):
  • 103. 103 Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador, ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? c. Estimar mediante un estimador de razón el total de gasto en alimentación, utilizando la información auxiliar del apartado b. d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del apartado a o el del apartado c. Solución: (a) )744.724.6,255.275.4( (b) 1 (c) 000.000.6ˆ y (d) 0B (límite del error de estimación del apartado (c) 8. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas, a partir de los datos de la tabla siguiente, se pide: CHICOS CHICAS Examen previo Examen de cálculo Examen previo Examen de cálculo 39 65 57 92 43 78 47 89 21 52 28 73 64 82 75 98 34 56 52 75 a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de cálculo utilizando un estimador de razón. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Compare los estimadores que se obtienen en cada caso justificadamente. Solución: (a) 54,10;97,80ˆ  By (b) 5,9;76,73ˆ  B (c) 46,9;76ˆ  B 4. Muestreo Sistemático 1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día.
  • 104. 104 Cantidad de llenado (en onzas) 12,00 11,97 12,01 12,03 12,01 11,80 11,91 11,98 12,03 11,98 12,00 11,83 11,87 12,01 11,98 11,87 11,90 11,88 12,05 11,87 11,91 11,93 11,94 11,89 11,72 11,93 11,95 11,97 11,93 12,05 11,85 11,98 11,87 12,05 12,02 12,04 a. Estime  , y establezca un límite para el error de estimación. Suponga que N=1.800. b. Determinar el tamaño de muestra requerido para estimar  dentro de 0,01 unidades. Solución: (a) 0259,0;94,11ˆ  Bsy (b) 2181,217 n 2. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados. Sea 1iy si la i-ésima persona muestreada favorece los cambios propuestos e 0iy si se opone a los cambios. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. Establezca un límite para el error de estimación.    65 1 48 i iy Solución: 1042,0;7385,0ˆ  Bpsy 3. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un límite para el error de estimación. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Solución: (a) 35,437.139;935.926.1ˆ  Bsy ; (b) 17,3;67,19ˆ  Bsy ; (c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente.
  • 105. 105 4. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Año Tasa Año Tasa 1900 0,7 1945 3,5 1905 0,8 1950 2,6 1910 0,9 1955 2,3 1915 1,0 1960 2,2 1920 1,6 1965 2,5 1925 1,5 1970 3,5 1930 1,6 1975 4,8 1935 1,7 1980 5,2 1940 2,0 Solución: 57,0;26,2ˆ  Bsy . Mejor, se observa, en general, una tendencia creciente en los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955. 6. Muestreo por Conglomerados. 1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 11 8 140 2 7 110 12 6 130 3 11 230 13 3 70 4 9 140 14 2 50 5 2 60 15 1 10 6 12 280 16 4 60 7 14 240 17 12 280 8 3 45 18 6 150 9 5 60 19 5 110 10 9 230 20 8 120
  • 106. 106 a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un límite para el error de estimación. b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. Establezca un límite para el error de estimación. c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada en reparación de sierras por estas industrias, y establezca un límite para el error de estimación. Solución: (a) 78,1;73,19ˆ  B (b) 07,175.3;312.12ˆ  B (c) 78,110.1;85,008.14ˆ  B 2. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 17 78 3210 18 51 2430 19 67 2730 20 70 2880 a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación.
  • 107. 107 b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite. Solución: (a) 64,0;17,40ˆ  B (b) 88,927.6;020.157ˆ  B (c) 304,29 n 3. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0 2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9 3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1 4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0 5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca un límite para el error de estimación. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita. Solución: 0215,0;0050,16ˆ  B 4. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
  • 108. 108 Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite para el error de estimación. b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: 0307,0;5701,0ˆ  Bp (b) 211,20 n 5. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados, obtenga el límite para el error de estimación en cada caso y comente los resultados. Solución: Muestreo por conglomerados 85,562;8000ˆ  B Muestreo aleatorio simple 78,1077;6400ˆ  B 6. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
  • 109. 109 Paquete nº Volumen envasado en cm3 1 33 32,5 31,7 34,2 2 32 32,6 33,8 32,5 3 30,9 33,1 33 33,4 4 34,1 33,1 32,5 33,2 5 32 32,1 32,6 33,6 Estime el volumen medio por envase y dar la cota de error de estimación. Solución: 22,0;80,32ˆ  B 7. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación. Solución: 0674,0;1333,0ˆ  Bp 8. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital Nº total horas que ven programa 1 8 13 2 7 13 3 9 14 4 6 13 5 5 0 6 9 10 7 6 6 8 8 14 9 9 16 10 6 4 a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital. b. Obtener un intervalo de confianza para el número total de horas. c. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional, con un límite para el error de estimación de magnitud 20. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) 2060ˆ  ; (b) )70,2704,30,1415( (c) 1974,196 n
  • 110. 110 9. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción. Solución: 0143,0)ˆ(ˆ;48,0ˆ  pVp 10. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido: Factoría Nº empleados Dispuestos 1 250 225 2 190 175 3 210 190 4 400 350 5 150 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Obtenga una estimación de la varianza del estimador empleado. Solución: 0002,0)ˆ(ˆ;1167,0ˆ  pVp 11. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los datos son: 9 6 3 10 2 a. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque, con un límite de error de 275. Solución: (a) ˆ 600; 308,22B   (b) 6,20 7n  
  • 111. 111 FORMULARIO de MUESTREO (95% de confianza, 1,96 2cz   ) (90% de confianza, 1,645cz  ) (99% de confianza, 2,576cz  ) MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS. MEDIA PROPORCION ESTIMADOR 1 1 n i i y y n     1 1 , 0,1 n i i i p y y n    VARIANZA MUESTRAL (apenas se utiliza en muestreo)   2 22 2 1 1 1 1n n i i i i s y y y y n n          2 2 1 1 n i i s y y pq n     CUASIVARIANZA MUESTRAL   2 2 1 2 2 1 1 1 1 1 n in i in i i i y y n S y y n n                     2 2 1 1 1 1 n i i n pq S y y n n       VARIANZA DEL ESTIMADOR  2 ( ) S V y n      ( ) 1 pq V p n   B LIMITE DEL ERROR DE ESTIMACIÓN ( )c c S z V y z n      ( ) 1 c c pq z V p z n   INTERVALO DE CONFIANZA ,c c S S y z y z n n              , 1 1 c c pq pq p z p z n n           TAMAÑO MUESTRAL 2 2 2 2 2 2 c c B n D B D z z      2 2 2 2 c c pq pq B n D B D z z   
  • 112. 112 MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS. MEDIA TOTAL PROPORCION TOTAL ESTIMADOR 1 1 n i i y y n    1 n i i N N y y n       1 1 0,1 n i i i p y y n    N p  VARIANZA DEL ESTIMADOR  2 ( ) S N n V y n N     2 2 ( ) ( ) ( ) S V N V y N N n n         ( ) 1 pq N n V p n N         2 ( ) ( ) ( ) 1 pq V N V p N N n n       B LIMITE DEL ERROR DE ESTIMACIÓN ( )cz V y  ( ) ( )c cz V Nz V y   ( )cz V p   ( ) ( )c cz V Nz V p  INTERVALO DE CONFIANZA  ( ) , ( )( )c cy z V y y z V y   ( ) , ( )( )c cz V z V          ( ) , ( )( ) ( )( )c cN y z V y N y z V y        ( ) , ( )( )c cp z V p p z V p   ( ) , ( )( )c cz V z V              ( ) , ( )( ) ( )( )c cN p z V p N p z V p   TAMAÑO MUESTRAL 2 2 ( 1) N n N D      2 2 ( ) c B D media z  2 2 2 ( ) c B D total z N  ( 1) Npq n N D pq    2 2 ( ) c B D proporcion z  2 2 2 ( ) c B D total z N 
  • 113. 113 MUESTREO ALEATORIO ESTRATIFICADO: ESTIMACIÓN. MEDIA TOTAL PROPORCION TOTAL ESTIMADOR 1 1 1 L L i ist i i i i N y N y y N N     1 L st ist i i N y N y        1 1 1 L L i ist i i i i N p N p p N N       1 L st ist i i N p N p     VARIANZA DEL ESTIMADOR  2 2 1 1 ( ) ( ) L ist i i V y N V y N    2 2 2 1 2 2 1 1 L i i i i i i i L i i i i i i i S N n N N n N N S N n N n N               1i i i N n en poblaciones infinitas N - @   2 2 2 1 ( ) ( ) L i i i st ist i i i S N n V N V y N n N          2 2 1 1 ( ) ( ) L ist i i V p N V p N        2 2 1 2 1 1 1 L i i i i i i i i L i i i i i i i i p q N n N N n N p qN N n N n N                1i i i N n en poblaciones infinitas N - @      2 2 1 ( ) ( ) 1 L i i i i st ist i i i p q N n V N V p N n N       
  • 114. 114 MUESTREO ALEATORIO ESTRATIFICADO: ASIGNACIÓN MUESTRAL. POBLACIONES FINITAS MEDIA TOTAL PROPORCION TOTAL ASIGNACIÓN ÓPTIMA (error fijo B) 1 1 2 2 1 L L i i i i i i i i L i i i N N c c n N D N            (coste fijo C) 1 1 L i i i i L i i i i N C c n N c        (error fijo B) 1 1 2 1 L L i i i i i i i i i i L i i i i p q N p q c N c n N D N p q         (coste fijo C) 1 1 L i i i i i L i i i i i p q C N c n N p q c      1 j j j j L i i i i N c N c       1 j j j j j L i i i i i p q N c p q N c     ASIGNACIÓN DE NEYMAN (error fijo B) 2 1 2 2 1 ( )L i i i L i i i N n N D N         2 1 2 1 ( )L i i i i L i i i i N p q n N D N p q       1 j j j L i i i N N       1 j j j j L i i i i N p q N p q     ASIGNACIÓN PROPORCIONAL (error fijo B) 2 1 2 1 1 L i i i L i i i N n ND N N         1 1 1 L i i i i L i i i i N p q n ND N p q N       j j N N   j j N N   D 2 2 ( ) c B D media z  2 2 2 ( ) c B D total z N  2 2 ( ) c B D proporcion z  2 2 2 ( ) c B D total z N 
  • 115. 115 MUESTREO ALEATORIO ESTRATIFICADO: ASIGNACIÓN MUESTRAL. POBLACIONES INFINITAS MEDIA PROPORCION ASIGNACIÓN ÓPTIMA (error fijo B) 1 1 L L i i i i i i i i N N c N N c n D        (coste fijo C) 1 1 L i i i i L i i i i N C N c n N c N        (error fijo B) 1 1 L L i i i i i i i i i i N N p q p q c N N c n D      (coste fijo C) 1 1 L i i i i i L i i i i i N p q C N c n N p q c N      1 j j j j L i i i i N N c N N c       1 j j j j j L i i i i i N p q N c N p q N c     ASIGNACIÓN DE NEYMAN (error fijo B) 2 1 ( )L i i i N N n D     2 1 ( )L i i i i N p q N n D    1 j j j L i i i N N N N       1 j j j j L i i i i N p q N N p q N     ASIGNACIÓN PROPORCIONAL (error fijo B) 2 1 L i i i N N n D     1 L i i i i N p q N n D    j j N N   j j N N   D 2 2 ( ) c B D media z  2 2 ( ) c B D proporcion z 
  • 116. 116 ESTIMACIÓN DE RAZÓN. RAZÓN MEDIA TOTAL ESTIMADOR 1 1 n i i n i i y y r x x        y xr  y xr  VARIANZA RESIDUAL   22 1 1 1 n r i i i S y rx n      VARIANZA DEL ESTIMADOR  2 2 22 1 1 ( ) r r x N n S N n S V r N n N nx        2 2 ( ) ( ) r y x N n S V V r N n        22 2 2 2 2 ( ) ( ) xr r y x N n S S V V r N N n nx        TAMAÑO MUESTRAL  2 2 2 2 r r r r N n S de una muestra previa ND       2 r n en poblaciones infinitas D   2 2 2 2 2 2 2 2 ( ) ( ) ( ) x c y c y c B D para estimar R z B D para estimar z B D para estimar z N      
  • 117. 117 ESTIMACIÓN DE REGRESIÓN. MEDIA TOTAL VARIANZA, COVARIANZA Y COEF. DE CORRELACIÓN MUESTRALES   2 22 2 1 1 1 1n n x i i i i s x x x x n n       (análogamente para la variable Y)   1 1 1 1n n xy i i i i i i s x x y y x y xy n n        2 2 2 2 xy xy x y s r s s  ESTIMADOR       1 2 2 1 ( ) n i i xy i n x i i yL x x x y y s b s x x y b x              yL yLN  VARIANZA RESIDUAL ERROR TÍPICO DE ESTIMACIÓN      2 2 2 2 2 2 2 1 1 ( ) 1 2 2 2 n xy L i i y y xy i x sn n S y y b x x s s r n n s n                 2 L LS S VARIANZA DEL ESTIMADOR   2 ( ) L yL N n S V N n      2 ( ) ( )yL yLV N V  TAMAÑO MUESTRAL  2 2 2 2 L L L L N n S de una muestra previa ND       2 L n en poblaciones infinitas D   2 2 2 2 2 ( ) ( )y y c c B B D para estimar D para estimar z z N   
  • 118. 118 ESTIMACIÓN DE DIFERENCIA. MEDIA TOTAL ESTIMADOR  ( )yD x xy x d d y x         yD yDN  VARIANZA RESIDUAL     2 2 2 1 1 1 1 ( ) 1 1 n n D i i i i i i i i S y x d d d d y x n n             VARIANZA DEL ESTIMADOR   2 ( ) D yD N n S V N n      2 ( ) ( )yD yDV N V  TAMAÑO MUESTRAL  2 2 2 2 D D D D N n S de una muestra previa ND       2 D n en poblaciones infinitas D   2 2 2 2 2 ( ) ( )y y c c B B D para estimar D para estimar z z N   
  • 119. 119 MUESTREO POR CONGLOMERADOS. MEDIA o PROPORCIÓN TOTAL (M conocido) TOTAL ESTIMADOR  1 1 n i i n i i y y m        M y   1 1 n t i i t t y y n N y           VARIANZA DEL ESTIMADOR  2 2 1 ( ) cSN n V y N nM     2 2 ( ) ( ) ( ) cS V M V y N N n n       2 2 ( ) ( ) ( ) t t t S V N V y N N n n       2 2 1 1 1 n c i i i S y ym n        2 2 1 1 1 n tt i i S y y n      TAMAÑO MUESTRAL  2 2 2 2 c c c c de una muestra previa N n S ND       2 c en poblaciones infinitasn D   22 2 ( ) c B M D media z  2 2 2 ( ) c B D total z N   2 2 2 2 t t t t de una muestra previa N n S ND       2 t en poblaciones infinitasn D   2 2 2 ( ) c B D total z N  NOTACIÓN: conglomerados en la poblaciónN  (habitualmente conocido) conglomerados en la muestran  i elementos en el conglomerado im  i suma de las observaciones del conglomerado iy  1 N i i elementos en la poblaciónM m    (habitualmente desconocido) 1 n i i elementos en la muestram m    1 1 N i i tamaño medio de los conglomerados de la población M M m N N    (habitualmente desconocido) 1 1 n i i tamaño medio de los conglomerados de la muestra m m m n n    . Este valor m se usa para estimar el anterior, M .