SlideShare una empresa de Scribd logo
UNIVERSIDAD TECNICA DE ORURO
FACULTAD DE CIENCIAS ECONOMICAS FINACIERAS Y ADMINISTRATIVAS
BOLO 9
METODOS DE ESTIMACION Y DOCIMA DE HIPOTESIS
DOCENTE: MSC. LIC. VICTOR FELIX AMPUERO ESCOBAR
UNIVERSITARIOS:
Amador Rivera Eduardo Gabriel
Careaga Ocampo Claudia Mónica
Gamarra Miranda Russel Reynaldo
Ríos Hurtado Jhenny
Torrez Zeballos Érica Graciela.
ASIGNATURA: SEMINARIO TERMINIAL I - ESTADISTICA
ORURO – BOLIVIA
2015
METODOS DE ESTIMACION
Y
DOCIMA DE HIPOTESIS
1. Métodos de Estimación:
1.1. Mínimos Cuadrados Ordinarios
1.2. Máximo Verosimilitud
2. Dócima de Hipótesis Paramétricas:
2.1. Dócima t de Student
2.2. F Fisher
2.3. Chi Cuadrada
1. METODOS DE ESTIMACION:
2. Métodos de estimación tenemos
3. En la estimación puntual tenemos el método de mínimos cuadrados ordinarios, método de máxima
verosimilitud
4. La estimación por intervalos confidenciales
1.1. MÍNIMOS CUADRADOS ORDINARIOS. Es un modelo estadístico que forma parte de un grupo denominado
Modelos de Regresión, estos explican la dependencia de una variable "Y" respecto de una o varias variables
cuantitativas "X":
En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con solo dos variables y con una
regresión lineal.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que
los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los
estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a
una distribución normal.
También es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables
que han de ser resuelta. La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas..
Es importante estudiar el comportamiento de una de las variables en base al comportamiento del
comportamiento de la otra, este proceso analítico se denomina REGRESIÓN ( método de los mínimos
cuadrados, sin embargo el mas utilizado es la regresión por mínimos cuadrados, este método se sustenta en el
principio llamado mínimo cuadrático y que supone hacer pasar una recta por la nube de puntos, de tal manera
que minimice los errores (residuales) o las distancias desde los valores observados hasta la “recta de
regresión”. En síntesis el principio de los mínimos cuadrados dice:
minimounes2
∑ ie
“La sumatoria de los errores
(residuales) cuadráticos debe ser un
mínimo”
Esta condición se impone a una de las
familias de rectas que pueden pasar
por la nube de puntos.
Consecuentemente a la recta que
satisface la condición se la denomina
eYY ii
+=
∧∧
−= YYe ii
)()( YYYYe ii
−−∧−−
−−−=
YYYYe ii
−−−−∧
−+−=
RECTA DE REGRESIÓN MÍNIMO CUADRÁTICA, o también RECTA ESTIMADA POR MÍNIMOS
CUADRADOS.
Luego tendremos:
iXβˆαˆYˆ += Recta de Regresión Mínimo Cuadrática
Siendo:
do).(predictanestimadaOrdenadaYˆ =
origenalOrdenadaˆ =α
pendiente.oangulareCoeficientˆ =β
La recta de regresión anterior suele llamarse también “FUNCIÓN DE REGRESIÓN MUESTRAL” (FRM), dado
que es el estimador de la”FUNCIÓN DE REGRESIÓN POBLACIONAL”
FRPXE(Y) =+= βα
Considerando el grafico tenemos:
iii eYˆY +=
)YYˆ()Y(YYˆYe iii −−−=−=
Considerando que en la nube de puntos están dispersos de tal modo que algunos se encuentran por encima y
otros por debajo de la recta de regresión, mismo que deben ser ponderados y considerados para el total de la
muestra se tiene:
Pero:
∑ ∑ −=⇒−= 2
ii
2
iiii )Yˆ(YeYˆYe es un mínimo
Además
∑ ∑ −−=⇒+= 2
ii
2
iii )Xβˆαˆ(YeXβˆαˆYˆ
Para que sea un mínimo debe satisfacer las condiciones de extremo.
1. Derivamos parcialmente respecto de uno de los parámetros e igualamos a cero.
01))(Xβˆαˆ(Y2
αˆ
e
ii
2
i
=−−−=
∂
∂
∑
∑
∑ ∑ ∑ =−−⇒=−− 0XβˆαˆnY0)Xβˆαˆ(Y iiii
NORMALECUACIONPRIMERA)1(XβˆαˆnY ii∑ ∑+=
2. Derivamos parcialmente respecto al otro parámetro e igualamos a cero.
∑
∑ =−−−=
∂
∂
0)X)(Xβˆαˆ(Y2
βˆ
e
iii
2
i
∑ ∑ ∑ ∑ =−−⇒=−− 0XβˆXαˆYX0)Xβˆαˆ(Y 2
iiiiii
NORMALECUACIONSEGUNDA(2)XβˆXαˆYX 2
iiii∑ ∑ ∑+=
Conformando el siguiente “sistema de ecuaciones normales”
minimounese2
i∑
(1)XβˆαˆnY ii∑ ∑+=
(2)XβˆXαˆYX 2
iiii∑ ∑ ∑+=
Resolviendo el sistema por un método analítico tenemos:
Dividiendo (1) entre “n”
(3)XβˆαˆY
n
Xβˆ
n
αˆn
n
Y i
+=⇒+=
∑∑
(4)XβˆYαˆ −=
(5)XβˆαˆYˆ i+=
Recordando que:
En iii YˆYe −=
Sumando y restando Y a la igualdad tenemos:
Y)Yˆ()YYˆ(eYYYˆYe iiiiii −−−=⇒+−−=
Convenio:
YYy ii −=
YYˆyˆ ii −=
XXx ii −=
Entonces: i
yˆi
y
i
e −= (6)
Reemplazando (5) y (3) en YYy ii
−=
)X(XβˆyˆXβˆαˆXβˆαˆyˆ iiii −=⇒−−+=
Como (7)xβˆyXXx iiii
=⇒−=
Reemplazando (7) en (6) tenemos:
( )2
ii
2
iiii xβˆyexβˆye ∑ ∑ −=⇒−=
Derivando parcialmente:
( )( )
( )( ) ( )
∑ ∑ ∑ ∑
∑
∑
∑∑
∑
∑
=⇒=⇒=−
=−⇒=−
=−−=
∂
∂
2
i
ii2
iii
2
iii
2
iiiiii
iii
2
i
x
yx
βˆxβˆyx0xβˆyx
0xβˆyx0xxβˆy
0xxβˆy2
βˆ
e
Expresando en sus valores originales:
(8)
)X(X
)Y)(YX(X
βˆ 2
i
ii
∑
∑
−
−−
=
En las aplicaciones descriptivas se utiliza con mayor frecuencia la formula desarrollada de (8), entonces:
( ) ( ) ( ) ( )
( )
(9)
XXn
YXYXn
βˆ
:tantolopor
n
XXn
n
YXYXn
n
X
X
Y
n
X
YX
n
X
n
X
2X
Y
n
X
Y
n
X
2YX
βˆ
n
X
nX
n
X
2X
n
Y
n
Xn
Y
n
X
X
n
Y
YX
βˆ
XnXX2X
YXnYXXYYX
βˆ
)XXX2(X
)YXYXXYY(X
βˆ
2
i
2
i
iiii
2
i
2
i
iiii
2
i2
i
i
i
ii
2
i
2
i2
i
i
i
i
i
ii
2
i
i
i2
i
ii
i
i
i
i
ii
2
i
2
i
iiii
2
i
2
i
iiii
∑ ∑
∑ ∑∑
∑ ∑
∑ ∑ ∑
∑
∑
∑ ∑
∑
∑∑
∑
∑ ∑ ∑
∑∑
∑ ∑ ∑∑
∑ ∑ ∑∑∑∑∑
∑ ∑
∑ ∑ ∑
∑
∑
−
−
=
−
−
=
−
−
=
+−
+−
=








+−
∗+−−
=
+−
+−−
=⇒
+−
+−−
=
La
finalidad es de encontrar formulas para los parámetros mínimo cuadráticos, en este sentido, el primer criterio nos
ha llevado a la relación (3)
(3)XβˆαˆY +=
Esta relación nos permite apreciar un hecho sumamente importante y es que las medias aritméticas Y),X( de
las dos variables son coordenadas de la recta de regresión en otras palabras, la recta de regresión pasara siempre
por el punto de coordenadas Y),X( . Las formulas de los parámetros son en este caso, las relaciones (4), (8) y
(9) respectivamente, es decir.
(4)XβˆYαˆ −=
(8)
)X(X
)Y)(YX(X
βˆ 2
i
ii
∑
∑
−
−−
=
Formulas equivalentes:
Sabemos que: YXXY − es la covarianza; ( )[ ]YX,Cov
22
)X(X − es la varianza, ( )[ ]XV,S2
X
Por lo tanto:
( )
( )
(11)
XV
YX,Cov
βˆ =
Con un poco de observación y sin mucho esfuerzo notamos que si en la formula (8) dividimos numerador y
denominador del segundo miembro entre (n), arribamos a la formula (11), es decir.
V(X)
Y)Cov(X,
n
)X(X
n
)Y)(YX(X
βˆ
2
i
ii
=
−
−−
=
∑
∑
Ejemplo de aplicación:
En una encuesta de hogares (por muestreo estadístico) realizado a 7 familias se obtuvo la siguiente información
relativa al ingreso y gasto familiar en bolivianos.
•
Y X
62
51
42
55
51
58
43
70
60
50
70
55
60
45
Donde Y= GASTO
X= INGRESO
Con la anterior información se pide:
a) Para la relación Y=f(x), encontrar la recta de regresión mínimo-cuadrática y estimar el monto del gasto para un
ingreso de 100bolivianos.
b) Grafique la nube de puntos y la recta de regresión.
Solución
a) Y=f(X)
Gasto=f (ingreso)
Y X X- X YY − ( )2
YY − ( )2
XX − ( )( )YYXX −−
62
51
42
55
51
58
43
70
60
50
70
55
60
45
11,43
1,43
-8,57
11,43
-3,57
1,43
-13,57
10,29
-0,71
-9,71
3,29
-0,71
6,29
-8,71
105,88
0,50
94,28
10,82
0,50
39,56
75,86
130,64
2,04
73,44
130,64
12,74
2,04
184,14
117,61
-1,02
83,21
37,60
2,53
8,99
118,19
362 410 0,00 0,00 327,40 535,68 367,11
58,57
7
410
X
n
X
X ==⇒=
∑ 51,71
7
362
Y
n
Y
Y ==⇒=
∑
0,685βˆ0,6853158
535,68
367,11
βˆ
)X(X
)Y)(YX(X
βˆ
2
=⇒==⇒
−
−−
=
∑
∑
11,59αˆ11,5940,1251,717)0,685(58,551,71αˆXβˆYαˆ =⇒=−=−=⇒−=
cuadraticaminimorecta0,685X11,59YˆXβˆαˆYˆ +=⇒+=
Para 80,09Yˆ0,685(100)11,59Y~100X =⇒+=⇒=
b)
0,685X11,59Yˆ +=
Y X
44,47 48
56,80 66
REGRESIÓN NO LINEAL:
La flexibilidad del método de regresión por mínimos cuadrados permite ampliar su campo de aplicación a funciones
polinómicas y funciones no lineales, susceptibles de linealizarse. Más concretamente la condición necesaria para
aplicar el método mínimo cuadrático, es que la función sea lineal en los parámetros. Es este sentido, los modelos
reducibles al modelo lineal son:
a) Modelo Exponencial.
bX
X
aeY
abY
=
=
b) Modelo Potencial.
b
aXY =
c) Modelo Hiperbólico.
0XCon
X
b
Y
0XCon
X
b
aY
≠=
≠+=
d) Modelo Parabólico.
2
cXbXaY ++=
A manera de complementación debemos agregar que los modelos potencial y exponencial, son susceptibles de
linealizarse a través de una transformación logarítmica, así.
XβˆαˆlnlnY
lnXβˆαˆlnlnY
(2)eαˆY
(1)XαˆY
Xβˆ
βˆ
+=
+=
=
=
Siguiendo el método mínimo, cuadrático se puede obtener las formulas correspondientes, sin embargo no es
necesario, dado que las formulas (4) y (8) obtenidas para la Función d Regresión Muestral Simple son totalmente
validas en la medida como puede ser adaptadas a cualquier de los casos es decir:
( )( )
( )∑
∑
−
−−
=
−=
2
lnXlnX
lnYlnYlnXlnX
βˆ
lnXβˆlnYαˆln
(1)deaLinealizadFuncionlaPara
( )( )
( )∑
∑
−
−−
=
−=
2
XX
lnYlnYX(X
βˆ
XβˆlnYαˆln
(2)deaLinealizadFuncionlaPara
MÉTODO DE MÁXIMA VEROSIMILITUD
Este método proporciona estimadores con muchas propiedades deseables, sin embargo es necesario aclarar que
los estimadores máximos verosímiles (EMV), no son siempre (como en el caso de varianzas), pero un sencilla
modificación los convierte en estimadores insesgados. En general el EMV, es consistente y si existe un estimador
eficiente el EMV es eficiente.
a) Principio de Máximo Verosimilitud.
b) Estimación de Máxima Verosimilitud del modelo de regresión de dos variables
c) Supongase que en el modelo de dos variables uY ii
++= ββ 21
, las Yi
son independientes y
normalmente distribuidas con media = ββ 21
+ y varianza=σ
2
d) Como resultado, puede escribirse la funcion de densidad de probabilidad conjunta de Y1,Y2,…….Yn, dadas las
medias y varianzas anteriores, de la siguiente forma
e) ),/,.....,(
2
2121 σββ XYYY in
f +
f) Pero dada la independencia de las Y, est funcion de densidad de probabilidad conjunta puede escribirse como
el producto de las n funciones de densidad individuales como
g) ),/,.....,(
2
2121 σββ XYYY in
f +
h)
),/()...,/(),/(
2
21
2
212
2
211 σββσββσββ XYXYXY inii
fff +++=
I
i) Donde
j)



 −−
−= ∑
σ
ββ
πσ
2
2
21
)(
2
1
exp
2
1
(
XY
Y
ii
i
f II
k)
l) Es la funcion de densidad de una variable normalmente distribuida con media y varianzas dadas.
),/,.....,(
2
2121 σββ XYYY in
f +



 −−
−= ∑
σ
ββ
σ π
2
2
21
)(
2
1
exp
)2(
1 XY ii
nn
III
m)
n) Si Y1,Y2,…..Yn son conocidas o están dadas, pero σββ 2
21
, y no se conocen la fincion en III se llama
funcion de verosimilitud, denotada por FV( σββ 2
21
,, )
A manera de ilustración supongamos que una urna contiene (X) bolillas azules (a) y (n-x) bolillas blancas (b).
en estas condiciones y considerando que por éxito (p), se entiende la probabilidad de extraer al azar una bolilla
azul (a), entonces existe las siguientes posibilidades:
Si
¿Cuál de estos resultados posible seria el mejor estimador de la probabilidad de éxito?
La respuesta a esta pregunta se podría dar en términos de un caso particular y mediante la distribución
binomial.
Recordando que:
Si por ejemplo: n = 3
3
1
3 pn ⇒= ó
4
3
=p
x






4
1
;xf 





4
3
;xf
0
1
2
3
42,0
64
27
4
3
4
1
30
3
0 ==











C
42,0
64
27
4
3
4
1
21
3
1 ==











C
14,0
64
9
4
3
4
1
12
3
2 ==











C
02,0
64
1
4
3
4
1
03
3
3 ==











C
02,0
64
1
4
1
4
3
30
3
0 ==











C
14,0
64
9
4
1
4
3
21
3
1 ==











C
42,0
64
27
4
1
4
3
12
3
2 ==











C
42,0
64
27
4
1
4
3
03
3
3 ==











C
Se puede observar con nitidez que:
Cuando x = 0 en la muestra aleatoria de tamaño 3[MAT(3)], se cumple:
4
1
)0(
4
3
;0
4
1
;0 =⇒





>





∧
pff
Luego
xnxn
x ppCpxf −
−= )1();(
nx ,.....,3,2,1,0=
);( pnbX ≈
4
3
=⇒> pba
4
1
=⇒< pba
4
3
)3(
4
3
;3
4
1
;3:3
4
3
)2(
4
3
;2
4
1
;2:2
4
1
)1(
4
3
;1
4
1
;1:1
=⇒





>





=
=⇒





>





=
=⇒





>





=
∧
∧
∧
p
p
p
ffx
ffx
ffx
En general, si p
∧
= estimación de p y p
*
= otra estimación de p, entonces:
( )*
;; pxfpxf >




 ∧
Gráficamente:
Ejemplo:
Sea x una V.A., con distribución binomial, extraída de una muestra aleatoria de tamaño 20, cuyas
probabilidades de éxito son:
10
9
,.......,
10
2
,
10
1
:p . En estas condiciones, ¿Cuál es el estimador de la
probabilidad de éxito, si la variable asume el valor de 5?
Solución:
( ) 15520
5;5 qpCpf =






4
3
;2f






4
3
;2f
4
3
4
1
4
2 10
p
( )∑ ≈
20
1
;20 pbxi
( ) xx
qpCpxf −
= 2020
5;
20,.....,5,.....,1,0=ix
( ) ( )20,.......,,
10
9
,.......,
10
2
,
10
1
:
2021 MATxxx
p
=
0
10
1
10
2
10
3
10
4
10
5
10
6
10
7
10
8
10
9
1
p
•
•
•
•
•
Se entiende que ix puede tomar valores enteros y positivos entre cero y 20. suponiendo que por alguna razón
nos interesa el valor x = 5 ¿Cuál de los espacios que se genera es mas VEROSÍMIL para contener la muestra
considerada? O dicho de otra manera ¿Cuál es el estimador de la probabilidad de éxito, si la variable asume el
valor 5?
0000,0
10
1
10
9
10
9
;5
0000,0
10
2
10
8
10
8
;5
0000,0
10
3
10
7
10
7
;5
0013,0
10
4
10
6
10
6
;5
0148,0
10
5
10
5
10
5
;5
0746,0
10
6
10
4
10
4
;5
1789,0
10
7
10
3
10
3
;5
1748,0
10
8
10
2
10
2
;5
0319,0
10
9
10
1
10
1
;5
155
20
5
155
20
5
155
20
5
155
20
5
155
20
5
155
20
5
155
20
5
155
20
5
155
20
5
=











=





=











=





=











=





=











=





=











=





=











=





=











=





=











=





=











=





Cf
Cf
Cf
Cf
Cf
Cf
Cf
Cf
Cf
De todo lo anterior se desprende que:
( ) ( ) 3,0
10
3
5;5;5 *
==⇒>




 ∧∧
ppfpf
Si el anterior ejemplo se considera como una función continua en p en el intervalo [0;1], entonces:
10 ≤≤ p
Para MAT(20) con x = 5 resulta que:
( ) ( )15520
5 1;5 ppCpf −=
Para obtener la estimación de P, se requiere hallar el máximo de f(5;p), es decir:
Por lo tanto y siendo el ultimo resultado el único valor alternativo, este es el estimador máximo verosímil de P.
o) La Función de Verosimilitud y el Estimador Máximo Verosímil (EMV)
( )
( ) 25,0
4
1
041
101
00
14
4
==⇒=−
=⇒=−
=⇒=
∧
pp
pp
pp
( ) [ ]
( ) ( ) 04115
3115
14420
5
14420
5
=−−=
−−−=
pppC
ppppC
( ) ( ) ( )[ ]14515420
5 11515
;5
ppppC
dp
pdf
−−−=
Sea ( )θ;~ xfx
Para ix constante:
( ) ( ) ( ) ==⇒ ∏
=
=
θθ ,,.....,
1
1 i
ni
i
n xfIxx FUNCION DE VEROSIMILITUD
De donde que:
( )
∧=
=
∧=
=
⇒∏>





∏ θθθ *
11
;; i
ni
i
i
ni
i
xfxf : Estimación de máxima verosimilitud de 0
También
( )*
1
11
;; θθ xfLnxfLn
ni
i
i
ni
i
=
=
∧=
=
∏>





∏
( )∑∑
=
=
∧=
=
∧
⇒>





ni
i
i
ni
i
i xLnfxLnf
1
*
1
;; θθθ : Estimación de máxima verosimilitud de 0
Ejemplo:
Sea: ( ) 0:0;
0
1
;~ >>=
−
θθ θ
xexfx
x
Encontrar el estimador máximo verosímil (EMV), de θ a partir de una MAT(n)
( ) ( ) ( )θθτ ;;,.....~,....., 1
1
11 xfxxxx
ni
i
nn ∏
=
=
=
( ) :,.....,1 nxx
( ) ( ) ( ) ( ) ( )θθθθθ ;......;;; 21
1
n
ni
i
xfxfxfxfL == ∏
=
=
θθθ
θθθ
nxxx
eee
−−−
⋅=
1
........
11 21
θ
θ
∑
=
−
ix
n
e
1
( )
∑
=
=
=
−
ni
i
x
n
eL 1
1
1 θ
θ
θ Función de verosimilitud
( ) ∑
=
=
−−==
ni
i
xnIL
1
1
* 1
lnln
θ
θθ
∑
∑ =⇒=+−= θ
θθθ
nx
xn
d
dL
i
i
02
*
Conjunta
Densidad
deFunción
( ) ( ) ( )θθτ ;;,.....,~,.....,
1
11 xfxxxx
ni
i
nn ∏
=
=
=
x
n
xi
==
∑∧
θ
x=
∧
θ Estimador Máximo Verosímil
Ejemplo 3
Halle el estimador máximo verosímil de α si se tiene la siguiente funcion de densidad.
α
α
x
exf
−
=
1
)( ?=α
1 paso aplicar miembro a miembro π
)
1
()(
11
α
α
ππ
xn
i
n
i
exf
−
==
=
Se transforma L
α
α
∑
=
−
X
n
eL
1
2 Paso aplica ln 3 Paso derivar respecto de
α
α
α
α
α
α
α
α
α
α
∑
∑
∑
−−=
−−=
−−=
∑
+=
∑
=
−
−
X
nL
X
nL
e
X
L
eL
eL
n
X
n
X
n
lnln
1ln0ln
)(lnln1lnln
ln)
1
ln(ln
)
1
ln(ln
EJERCICIOS:
1) Distribución de POISSON:
( ) ,.......2,1,0;
!
;~ == −
xe
x
xfx
x
λλ
λ
Encontrar el EMV de λ, a partir de una MAT(n).
( ) ( ) ( )λλϕ ;;,......~,......
1
11 i
ni
i
nn xfxxxx
=
=
∏=
( ) :,.......,, 21 nxxx
( ) ( ) λλλ λλλ
λλ −−−
=
=
⋅=∏= e
x
e
x
e
x
xfL
n
xxx
i
ni
i
n
!
.......
!!
;
21
1
21
α
0
1ln
)1(
1ln
2
2
=+−=
−−−=
∑
∑ −
ααα
α
αα
X
n
d
Ld
Xn
d
Ld
X
n
X
Xn
mmXn
Xn
Xn
==
=
−−=−
=+−
=
+−
∑
∑
∑
∑
∑
α
α
α
α
α
α
1*/_
0
02
Función de Verosimilitud
( ) ( )∑
=
=
∏−+−== !lnlnln
1
*
i
ni
i
i xxnlL λλλ
n
xx
n
d
dl ii
=⇒=+−=
∑∑
λλλ
0
*
X
n
xi
==
∑∧
λ
EMV de λ
2) Distribución NORMAL:
( )
( )
∞≤≤−∞
∏
=
−
−
i
x
xexfX
i
;
2
1
;;~
2
2
2
2
2 σ
µ
σ
σµ
A partir de una MAT(n), encontrar los EMV de µ y 2
σ
( ) ( ) ( )2
1
2
11 ;;;;,.....,~,.....,, σµσµ i
ni
i
nn xfxxgxxx
=
=
∏=
( ) ( )
( )
( )
2
2
2
1
22
2
1
2
2
1
;;;
∑
∏
=∏=
−−=
=
µ
σ
σ
σµσµ
ix
ni
ni
i
exfL
Función de Verosimilitud
( ) ( )∑ −−−∏−==
2
2
22*
2
1
ln
2
2ln
2
;ln µ
σ
σσµ ix
nn
LL
( ) ( )∑ ∑ =−=−+=
∂
∂
0
1
2
2
1
22
*
µ
σ
µ
σµ
ii xx
L
( )∑ ∑ ∑ ∑ =−=−=− 0µµµ nxxx iii
∑ =⇒ µnxi
X
n
xi
==
∑∧
µ
X=
∧
µ EMV de la media de µ
( )
( )∑ −+−=
∂
∂ 2
2222
*
2
1
2
µ
σσσ
ix
nL
( )
( )
λλ
λ n
i
ni
i
x
e
x
L
n
i
i
−
=
=
∏
∑
=
!
1
X=
∧
λ
( )
( )
( )∑
∏
=
−−
n
ix
n
eL 1
2
22
1
22
2
2
1
;
µ
σ
σ
σµ
( )
( )
0
2
22
22
=
−+−
=
∑
σ
µσ ixn
( )∑ =−+−⇒ 0
22
µσ ixn
( )∑ =− 22
σµ nxi
( )
n
Xxi∑ −
=
∧
2
2
σ
Pero: X=
∧
µ
Entonces:
( ) 21
2
12
S
n
Xx
n
=
−
=
∑∧
σ
EMV de la varianza 2
σ
NOTA: Como se advirtió anticipadamente, este ultimo estimador es sesgado y en ese sentido no satisface la
propiedad de insesgamiento. Sin embargo, si se disminuye en el denominador el numero de grados de
libertad del numerador, se puede demostrar que con esta sencilla operación, el EMV se trasforma en otro
estimador que satisface la propiedad de insesgamiento, es decir:
Estimador insesgado de la varianza 2
σ
DOCIMA DE HIPÓTESIS
GENERALIDADES
La docimasia de hipótesis es en realidad una asignatura sumamente amplia incluida en el tema general de la teoría,
dentro la comprensión estadística se entiende que supuesto e hipótesis no son iguales, son mas bien distintas, porque
esta ultima es una consecuencia de la primera, dado que implica la intencionalidad de ser verificada empírica o
experimentalmente
Por otra parte, es imprescindible destacar el hecho de que las palabras Docimasia y Docima son en la
temililogia estadística moderna, las de utilización casi universal en los textos escritos en español, sustituyendo de este
modo a los vocablos ingleses testing y test. Esta transformación terminología se debe al gran aporte del Prof. Enrique
Cansado, quien en su texto. “curso de estadística general” (segunda parte) y en el acápite correspondiente, desarrolla
una explicación etimológica suficiente para entender las razones fundamentales del cambio. Esta justificación también
es plenamente compartida por el profesor Francisco Azorin, en el prologo a la primera edición española del texto
“Introducción a la Teoría de la Estadística” de los autores Mood y Graybill
DOCIMACIA DE HIPOTESIS ESTADISTICAS
En primer lugar se debe aclarar que no toda hipótesis es hipótesis estadística, sino solamente aquellas referidas a la
distribución probabilística de una o mas variables aleatorias, así por ejemplo se puede suponer con la intención de ser
sometida a una prueba decisoria, que
a) Una variable aleatoria tiene distribución normal con parámetros desconocidos
b) Una variable aleatoria tiene una distribución binomial con n=12 y probabilidad de éxito (P) desconocido.
c) Dos variables aleatorias son independientes.
( ) 21
2
2
1
s
n
Xx
n
i
=
−
−
=
∑∧
σ
Para mayor claridad en la explicación, utilizaremos un ejemplo clásico reiterado por su sencillez en diferentes obras;
“Un naufrago llega a una isla remota y el primer animal que ve es un caballo negro. Plantea la hipótesis de que todos
los caballos de esa isla son negros”.
Formula la hipótesis, el naufrago pretenderá verificar su validez consecuentemente requerirá observar a cada caballo
de la isla, de modo que para demostrar la verdad de su hipótesis deberá comprobar que todos los caballos son negros,
en tanque que para demostrar la falsedad de su hipótesis bastara encontrar un caballo que no sea negro.
Este pequeño ilustrara la dificultad o en general la imposibilidad de realizar comprobaciones sobre la verdad de las
hipótesis. Sin embargo, es totalmente factible demostrar la falsedad de las mismas, porque es suficiente encontrar un
dato observado que contradiga a la hipótesis
En síntesis en el problema intervienen varias variables aleatorias que permiten formular hipótesis estadísticas,
de modo que observaciones muéstrales sobre las variables, permiten conformar sus resultados con la hipótesis para
aceptarla o rechazarla. Esta decisión estadística se denomina Docima, en tanto que el procedimiento utilizado para
tomar la decisión so conoce como Docimasia de Hipótesis
DECISIONES PERMISIBLES Y TIPOS DE ERROR.-
El proceso de contrastación entre la decisión asumida y el hecho real conduce a las siguientes posibilidades: Un
investigador puede cometer dos tipos de error
EL HECHO REAL
LA DECISION Ho CIERTA Ho FALSA
ACEPTAR: Ho DECISION CORRECTA ERROR TIPO II
RECHAZAR: Ho ERROR TIPO I DECISION CORRECTA
En la practica y planteada una hipótesis se permiten únicamente dos decisiones, aceptar o rechazar. Si se
rechaza la hipótesis, se interpreta en el sentido de haber encontrado datos que contradicen la hipótesis. En tanto que,
se la acepta, significa no encontrar datos que la contradigan. En otros términos aceptar la hipótesis no significa hallar
datos que lo apoyen. Aquí se hace imprescindible recordar la recomendación del Prof. Reynaldo Franco, quien en el
transcurso de sus clases decía; “Aceptar una hipótesis, no quiere decir insistir en su verdad”.
Del cuadro precedente, se deduce que al decimar una hipótesis se puede tomar la decisión de rechazar
cuando verdaderamente es falsa o se puede incurrir en error cuando se rechaza siendo cierta.
Por lo otro lado, se pude aceptar la hipótesis cuando es verdaderamente cierta o se puede cometer error siendo falsa.
De lo anterior se concluye sobre la existencia de dos tipos de error, cuando se rechaza la hipótesis principal,
siendo esta verdaderamente cierta, en este caso se comete el error llamado de TIPO I y otro cuando se acepta la
hipótesis principal, siendo verdaderamente falsa, en este segundo caso se incurre en error significación A y la
probalidad de incurrir en error del segundo tipo se denota por B En otro caso, es mas peligroso e inconveniente
cometer error de TIPO II por ese motivo el error A es mas pequeño, normalmente esta comprendido entre 0.01 y 0.1
Por ultimo es necesario recalcar y advertir que en cualquiera de las posibilidades, no existe la verdad absoluta,
sino mas bien relativa, porque se pudo haber tomado la decisión por ejemplo de aceptar la hipótesis principal, cuando
no se encontraron datos u observaciones que la contraigan sencillamente porque no se han “ buscado” con rigurosidad
o porque la técnica de contrastación o de verificación fue deficiente e inadecuada para el problema formulado
CLASIFICACION DE LAS HIPOTESIS.-
hipótesis estadísticas se clasifican en simples y compuestas. Las primeras son que especifican de manera completa
una distribución de probabilidades o dicho de otra manera, si especifican todos los parámetros que figuren en una
función de densidad o función de cuantía; en tanto que hipótesis compuestas son aquellas que no son simples.
Por otra parte, a la hipótesis planteada originalmente se conoce como la hipótesis principal o nula porque
restringe los parámetros mas que su alternativa. La menos restrictiva se denomina Hipótesis Secundaria o Alternativa.
Al respecto diremos que existen dos tipos de alternativas unilaterales o de un solo lado y bilaterales o de ambos lados
MUESTRA Y DESICIONES.-
En el contexto de la Docimasia de Hipótesis, existe una relación intima entre muestra y decisiones, en el
sentido de que si se tiene una variable aleatoria y una muestra de tamaño fijo entonces queda determinado es espacio
muestral de dos regiones, una de aceptación y otra de rechazo o región critica. De este modo, si una observación o
resultado del experimento cae en la región critica se rechaza la hipótesis nula, en tanto que si cae en la región de
aceptación se la acepta
Considerando que el problema central de la teoría de la Docimasia de Hipótesis consiste en la división del
espacio muestra, existen diferentes métodos, basados también en diversos criterios que conducen a la mencionada
división sin embargo, en los casos de hipótesis nulas y alternativas simples el método mas utilizado consiste en fijar el
nivel de significación A entre 0.01 y 0.1 y posteriormente determinar la región critica de modo que minimice B.
consecuentemente, aquella región que para un A prefijado minimiza, Será la región de aceptación.
Por ultimo, cabe aclarar que le procedimiento más utilizado en la toma de decisiones basado en una doctrina
consiste en:
A. Construir la Dócima.
B. Elegir el nivel de significación y determinar la región critica.
C. Elegir el estadístico a prueba y proceder con el cálculo correspondiente.
D. Tomar la decisión (utilizando una regla de decisión).
E. Concluir.
HIPOTESIS RELATIVAS A LA MEDIA DE UNA POBLACION NORMAL. (DOCIMA DE MEDIAS)
a) Se conoce la varianza poblacional
A)
B) Elegir y encontrar el Z, de tablas de la distribución normal tipificada.
C) Proceder a la determinación del Z calculado con los valores muéstrales.
D) Si
01
00
:
:
µµ
µµ
≠
=
H
H
X
X
Zc
−
−
=
−
σ
µ0
tc ZZ >
2
σ
Entonces se rechaza Ho
E) Concluir, destacando la decisión final en términos del problema planteado.
Ejemplo de aplicación:
La asociación de dueños de establecimientos comerciales al detalle de cierta ciudad, en una conferencia de prensa,
declaro que el salario medio por hora de sus empleados es de Bs. 10. Los dirigentes de un sindicato rubro, sostienen
que la Asociación exagera. Frente a este panorama, la Dirección Distrital del Trabajo, como entidad reguladora,
dispone tomar una muestra aleatoria de 225 sindicalizados con el resultado de una media de Bs. 9, 10. Asumiendo una
desviación típica de Bs. 5, decida el nivel de significación del 1% ¿Quien tiene razón?
A)
B)
C) DATOS
D) COMO,
2,703>2,323
Entonces, se “RECHAZA Ho”
E) La asociación de Dueños de Establecimientos Comerciales al detalle, no tiene razón.
10:
10:
1
0
<
=
µ
µ
H
H
323.2
99.0101.0
=
=−⇒=
tZ
αα
703,2703,2
703,2
333,0
9.0
333,0
1010,9
333,0
15
5
225
5
10;10,9X
-
225;n5;σ
=−=
−=
−
=
−
=⇒
====
====
−
c
c
Z
Z
nX
σ
σ
µ
tc ZZ >
b) No se conoce la varianza poblacional
En este caso la única diferencia consiste en utilizar la varianza muestral en sustitución de la varianza poblacional y
como lógica consecuencia se utilizará la distribución “t”
de Student en reemplazo de la distribución normal tipificada Z.
Ejemplo de Aplicación:
De una investigación realizada a 24 familias, de la zona de Obrajes de la ciudad de La Paz, se sabe que el ingreso
familiar promedio durante el año 1995, fue de Bs. 3.245, con
una desviación típica de Bs. 412. Docimar la Hipótesis de que el verdadero ingreso familiar medio en dicha zona,
durante 1995, fue de Bs. 4000, tomando como alternativa que fue distinto de 4000, al 5% de significación.
Solución:
A)
B)
C) DATOS
D) COMO
8,98>2,07
Entonces, se “RECHAZA Ho”
2
σ
4000:
4000:
1
0
≠
=
µ
µ
H
H
07,2)975,0(
95.0105.0
23 =
=−⇒=
t
αα
= 0.025.0.025. =
-2.07 2.07
t
R.A.
98,898,8
98,8
08,84
755
90,4
412
755
24
412
40003245
?;3245X
-
24;n412;s
=−=
−=
−
=
−
=
−
=
−
−
=
====
c
c
t
t
n
s
X
t
µ
σ
tabc tt >
E) El ingreso familiar medio de la zona de Obrajes de la ciudad de La Paz, es diferente a Bs. 4.000.
DOCIMA DE DIFERENCIA DE MEDIAS.-
Sean
Cuyas medias son X y Y respectivamente. Dado que X y Y son variables aleatorias independientes, entonces
las distribuciones de sus medias muéstrales, son también independientemente. Por lo tanto, la distribución de la
diferencia de medias muéstrales es:
De modo que cuando n1, n2 >=30 y las varianzas poblacionales son conocidas, el estadístico a probar en la
décima es:
(1)
En tanto que si las varianzas poblacionales son desconocidas, y los tamaños muéstrales , el estadístico a
utilizar es:
(2)
Por otro lado, si las varianzas son desconocidas, pero los tamaños , entonces e estadístico a probar es:
(3)
Por último y a manera de aclaración diremos que los denominadores de las anteriores expresiones se refieren
a las desviaciones típicas de la diferencia de medias, o sea:
Ejemplo: (Se conocen las varianzas poblacionales)
En un estudio sobre el impacto de las escuelas sin ventanas sobre el desarrollo psicológico de los estudiantes,
se sometió a una misma prueba de ansiedad a un grupo de 40 niños de una escuela sin ventanas y a otro grupo de 30
niños de una escuela con ventanas, los resultados son:
)(:),,.........,(
)(:),......,,(
);(
);(
221
121
2
22
2
11
2
1
nMATYYY
nMATXXX
NY
NX
n
n
σµ
σµ
≈
≈
( ) 











+−≈−
2
2
2
1
2
1
21 ;)(
nn
NYX
σσ
µµ
( ) ( ) ( )1;0
2
2
2
1
2
1
21
N
nn
YX
Z ≈
+
−−−
=
σσ
µµ
( ) ( )
( ) ( )
( )2
21
21
21
2
12
2
11
21
21
2
11
−+≈





 +
−+
−+−
−−−
=Τ nnt
nn
nn
nn
snsn
YX µµ
( ) ( )
( )2
2
2
2
1
2
1
21
21 −+≈
+
−−−
=Τ nnt
n
s
n
s
YX µµ
( ) ( ) ( )3y2enˆy1en YXYX −−
σσ
Si un investigador está dispuesto a rechazar una hipótesis verdadera en no más de 5 veces sobre 100. ¿Podrá
concluir que el impacto de los dos tipos de escuelas, respecto a la ansiedad de los estudiantes no es el mismo?
SOLUCION:
A) B)
C)
Dado que 21 µµ = por hipótesis, entonces 021 =− µµ
Escuela sin
ventanas
Escuela con
ventanas
40
10
117
1
1
=
=
=
n
X
σ
30
12
112
2
2
=
=
=
n
Y
σ
211
210
:
:
µµ
µµ
>
=
H
H
6
4
,1
9
5
.010
5
.0
=
=−⇒=
Z
αα
( ) ( ) )1;0(
2
2
2
1
2
1
21
N
nn
YX
Zc ≈
+
−−−
=
σσ
µµ
( ) 85,1
7,2
5
30
144
40
100
112117
2
2
2
1
2
1
==
+
−
=
+
−
=
nn
YX
Zc
σσ
tc ZZ >
0,95
R.A.
0
Z,99
1,64
= 0.05α
D) COMO
1,85>1,64
Entonces Se “RECHAZA Ho”
E. El impacto sobre la ansiedad de los niños no es el mismo, existe un efecto en la escuela sin ventanas.
DOCIMA DE VARIANZAS
Sabemos;
De modo que;
O dicho de otro modo
Y
Consecuentemente
O sea;
Ejemplo de aplicación
Se posee cierta información sobre la estatura (pulgadas) de 100 estudiantes universitarios, en base al cual se pretende
docimar la hipótesis de que la desviación típica es igual a 3 pulgadas. ¿Existirá alguna razón para rechazar la hipótesis
al nivel del 5% de significación?
ESTATURAS ESTUDIANTES
60-62
63-65
66-68
69-71
72-74
5
18
42
27
8
SOLUCION
( ) 2
)1(
2
Z1;0 χ≈⇒≈ NZ
2
)1(
1
2
1 χ≈∑
n
Z
2
)1(
2
)1,0( χ
σ
µ
σ
µ
≈




 −
⇒≈
− x
N
x
2
)1(
2
1
χ
σ
µ
≈




 −
∑
n
x
2
)1(
2
1
−≈






 −
∑ n
n
Xx
χ
σ
2
)1(
2
1
−≈






 −
∑ n
n
Xx
χ
σ
208,0125
214,2450
8,5050
41,6025
11,9025
0,2025
305
1152
2814
5
18
42
61
64
67
fxfx ( )2
XX − ( )2
XXf −
52,8
100
75,852
S;45,67 2
===X
A)
B
( ) ( ) ( ) ( )95,005,01
95.0105.0
2
99
2
1100 χχ
αα
=−
=−⇒=
−
NOTA: Si el numero de grados de libertad es menor o igual que 30 se lee directamente de las tablas. Sin embargo para
un numero mayor de grados de libertad, se pude utilizar la siguiente formula aproximada
Donde, n es el número de grados de libertad y la variable tipificada de la distribución normal
246,420030,8025584873
9:
9:
2
1
2
0
>
=
σ
σ
H
H
( )
3
2
1
9
2
9
2
1 







+−=−
n
Z
n
n ααχ
( )
( ) ( ) 







+−=
3
2
99
999
2
96,1
999
2
19995,0χ
( ) 42488,12895,02
99 =χ
( ) 4,1284,12895,0 2
t
2
99 =⇒= χχ
R.C
R.A.
0.95
0.05
C) Utilizando (1)
75,94
9
75,852)(
2
2
2
==
−
=
∑
−
σ
χ
XXf
c
D) Por regla general, si entonces se rechaza Ho.
Pero en el caso concreto
94,75>128,4
entonces se “ACEPTA Ho”
E) No existe razón para rechazar la hipótesis nula al nivel
del 5% de significación
DOCIMA DE DIFERENCIA DE VARIANZAS
Se puede demostrar que si son variables aleatorias independientes, con distribución con n y m grados de
libertad respectivamente, entonces:
Recordando que sí
Por otra parte;
Del análisis anterior y si en vez de S2 se utilizara s2, sigue que;
22
tc χχ >
22
tc χχ >
νµ y
2
χ
[ ]mnF
m
n
,""≈
ν
µ
2
)1(2
2
2
2
)1(2
2
2
22
2
2
22
2
)1(2
1
2
2
)1(2
1
2
11
1
2
11
22
11
)X
-
-(X
tambien
)MAT(n);(
)X
-
-(X
tambien
)MAT(n);(
−−
−−
≈≈⇒
≈
≈≈⇒
≈
∑
∑
nn
nn
o
Sn
yNY
o
Sn
yNX
χ
σ
χ
σ
σµ
χ
σ
χ
σ
σµ
2
)1(2
2
2
2
)1(2
2
2
22
2
)1(2
1
2
2
)1(2
1
2
11
22
11
)X
-
-(X
ó
)1(
)X
-
-(X
ó
)1(
−−
−−
≈≈
−
≈≈
−
∑
∑
nn
nn
sn
sn
χ
σ
χ
σ
χ
σ
χ
σ
Consecuentemente;
En resumen, en el caso de docimas de diferencia de varianzas
Ejemplo de aplicación:
La Corporación de Desarrollo del Sudoeste (CORDES), dentro de su programa pecuario ha venido utilizando un
sistema de engorde al que desea sustituir por otro. Para este propósito, y debido a que se tiene que realizar
inversiones en obras de infraestructura para el nuevo sistema, el personal Técnico del Departamento de Planificación,
decide tomar una muestra aleatoria de 31 cabezas de ganado, de modo que pasado cierto lapso de tiempo se mide los
resultados obtenidos con el sistema tradicional, arrojando los siguientes datos, una media de engorde por mes de 15
kilos, con una desviación típica de 5 kilos. Por otra parte, se sabe que con una muestra aleatoria de tamaño 61 del hato
de la Corporación de Desarrollo del Norte (CORDENO), que practica el nuevo método, dio como resultado una media
de 16 kilos, con una desviación de 4 kilos. Suponiendo que ambos hatos son criados en regiones de similares
condiciones, temperatura, humedad, etc. ¿habrá alguna razón para pensar que el nuevo sistema es mejor, al nivel del
5% de significación?
Solución
B)
C)
56,1
5625,1
16
25
2
2
2
1
)60;30(
=
===
cF
s
s
F
2
2
2
11
2
2
2
10
:
:
σσ
σσ
>
=
H
HA)
[ ])1();1(
)1(
)1(
)1(
)1(
1
)1(
1
)1(
21
2
2
2
2
2
1
2
1
2
2
2
2
22
1
2
1
2
11
2
2
2
2
22
1
2
1
2
11
−−≈=
−
−
−
−
=
−
−
−
−
nnF
s
s
n
sn
n
sn
n
sn
n
sn
σ
σ
σ
σ
σ
σ
[ ])1();1(
s
s
:espruebaaoestadisticel):Homaneraotradedichoo,0:(
212
2
2
1
2
2
2
1
2
2
2
1
−−=
==−
nnF
Ho σσσσ
[ ] 74,1)95,0()1(
95,0105,0
)60;30()1();1( 21
==−=
=−⇒=
−− FFF nnt α
αα
R.C
R.A.
0.9
5
0.05
D) La regla de decisión dice que sí
Pero en nuestro caso
E) No existe razón suficiente para rechazar la hipótesis nula. Por lo tanto, se puede considerar que ambos
sistemas de engorde don iguales
0Hrechazasetc FF >
HaceptaseEntonces
1,741,56
0
<
< tc FF

Más contenido relacionado

PPTX
PDF
Ejercicios econometría1
PDF
Clase7 Supuestos del modelo de regresión
DOCX
Regrecion y correlacion
PPTX
Ejercicios de Regresion lineal
PDF
Ejercicios econometria i
PDF
Clase11 Método Mle y momentos
PDF
Formulario estadisticas
Ejercicios econometría1
Clase7 Supuestos del modelo de regresión
Regrecion y correlacion
Ejercicios de Regresion lineal
Ejercicios econometria i
Clase11 Método Mle y momentos
Formulario estadisticas

La actualidad más candente (20)

DOC
Ecuaciones Diferenciales Primer Orden
PDF
Aplicaciones geometricas edo2
PPTX
ED Coeficientes Indeterminados
PDF
Clase3 El modelo de regresión múltiple
DOCX
Trabajo
PPT
Análisis de regresión simple.
PDF
Clase2 El modelo de regresión simple
DOCX
Regresión Lineal múltiple
PPTX
Ecuaciones Diferenciales Por Coeficientes Indeterminados
PDF
Clase10 Endogeneidad y estimación por variables instrumentales
DOCX
Informe estadistica regresion y correlacion
PDF
Clase12 heterocedasticidad
PDF
Clase9 Esperanza condicional y modelo de regresión
PDF
Ecuaciones Diferenciales Lineales de Primer Orden
PDF
Clase13 Modelos de variables dependientes limitadas
PDF
Clase4 Test de hipótesis en el modelo de regresión
PDF
Problemas de Regresion Lineal
PDF
Ecuaciones diferenciales lineales de primer orden y aplicaciones(tema 1)
PPTX
Variacion De Parametros
PDF
10.sistemas mal condicionados
Ecuaciones Diferenciales Primer Orden
Aplicaciones geometricas edo2
ED Coeficientes Indeterminados
Clase3 El modelo de regresión múltiple
Trabajo
Análisis de regresión simple.
Clase2 El modelo de regresión simple
Regresión Lineal múltiple
Ecuaciones Diferenciales Por Coeficientes Indeterminados
Clase10 Endogeneidad y estimación por variables instrumentales
Informe estadistica regresion y correlacion
Clase12 heterocedasticidad
Clase9 Esperanza condicional y modelo de regresión
Ecuaciones Diferenciales Lineales de Primer Orden
Clase13 Modelos de variables dependientes limitadas
Clase4 Test de hipótesis en el modelo de regresión
Problemas de Regresion Lineal
Ecuaciones diferenciales lineales de primer orden y aplicaciones(tema 1)
Variacion De Parametros
10.sistemas mal condicionados
Publicidad

Similar a 2015 word (20)

PDF
Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01
PDF
Curso de-econometria-basica
PDF
minimos-cuadrados-y-regresion
DOCX
Regresion estadistica
PDF
2. reg.lin.multiple
PPT
Curso i.modulo 2.modelo de regresion dos variables.2012
PPT
Curso i.modulo 2.modelo de regresion dos variables.2012
PPTX
3- Regresiones lineales (para Matemáticas de Bioquímica)
PPTX
Interpretacion de la Formula del Método de los Mínimos cuadrados.pptx
PPTX
Unidad V
PDF
2-Ajuste_de_Curvas.pdf
PPT
Regresión lineal2010 uss
DOCX
Representación de datos experimentales
PDF
La recta de los mínimos cuadrados con excel y geogrebra
PDF
Regresión lineal proyeccion de demanda .pdf
PDF
DOCX
Tema2. pronosticos de demanda
PDF
Clase8 minisem
PPT
Minimos Cuadrados Presentacion Final
Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01
Curso de-econometria-basica
minimos-cuadrados-y-regresion
Regresion estadistica
2. reg.lin.multiple
Curso i.modulo 2.modelo de regresion dos variables.2012
Curso i.modulo 2.modelo de regresion dos variables.2012
3- Regresiones lineales (para Matemáticas de Bioquímica)
Interpretacion de la Formula del Método de los Mínimos cuadrados.pptx
Unidad V
2-Ajuste_de_Curvas.pdf
Regresión lineal2010 uss
Representación de datos experimentales
La recta de los mínimos cuadrados con excel y geogrebra
Regresión lineal proyeccion de demanda .pdf
Tema2. pronosticos de demanda
Clase8 minisem
Minimos Cuadrados Presentacion Final
Publicidad

2015 word

  • 1. UNIVERSIDAD TECNICA DE ORURO FACULTAD DE CIENCIAS ECONOMICAS FINACIERAS Y ADMINISTRATIVAS BOLO 9 METODOS DE ESTIMACION Y DOCIMA DE HIPOTESIS DOCENTE: MSC. LIC. VICTOR FELIX AMPUERO ESCOBAR UNIVERSITARIOS: Amador Rivera Eduardo Gabriel Careaga Ocampo Claudia Mónica Gamarra Miranda Russel Reynaldo Ríos Hurtado Jhenny Torrez Zeballos Érica Graciela. ASIGNATURA: SEMINARIO TERMINIAL I - ESTADISTICA ORURO – BOLIVIA 2015
  • 2. METODOS DE ESTIMACION Y DOCIMA DE HIPOTESIS 1. Métodos de Estimación: 1.1. Mínimos Cuadrados Ordinarios 1.2. Máximo Verosimilitud 2. Dócima de Hipótesis Paramétricas: 2.1. Dócima t de Student 2.2. F Fisher 2.3. Chi Cuadrada 1. METODOS DE ESTIMACION: 2. Métodos de estimación tenemos 3. En la estimación puntual tenemos el método de mínimos cuadrados ordinarios, método de máxima verosimilitud 4. La estimación por intervalos confidenciales 1.1. MÍNIMOS CUADRADOS ORDINARIOS. Es un modelo estadístico que forma parte de un grupo denominado Modelos de Regresión, estos explican la dependencia de una variable "Y" respecto de una o varias variables cuantitativas "X": En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con solo dos variables y con una regresión lineal. Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser resuelta. La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas.. Es importante estudiar el comportamiento de una de las variables en base al comportamiento del comportamiento de la otra, este proceso analítico se denomina REGRESIÓN ( método de los mínimos cuadrados, sin embargo el mas utilizado es la regresión por mínimos cuadrados, este método se sustenta en el principio llamado mínimo cuadrático y que supone hacer pasar una recta por la nube de puntos, de tal manera que minimice los errores (residuales) o las distancias desde los valores observados hasta la “recta de regresión”. En síntesis el principio de los mínimos cuadrados dice: minimounes2 ∑ ie “La sumatoria de los errores (residuales) cuadráticos debe ser un mínimo” Esta condición se impone a una de las familias de rectas que pueden pasar por la nube de puntos. Consecuentemente a la recta que satisface la condición se la denomina
  • 3. eYY ii += ∧∧ −= YYe ii )()( YYYYe ii −−∧−− −−−= YYYYe ii −−−−∧ −+−= RECTA DE REGRESIÓN MÍNIMO CUADRÁTICA, o también RECTA ESTIMADA POR MÍNIMOS CUADRADOS. Luego tendremos: iXβˆαˆYˆ += Recta de Regresión Mínimo Cuadrática Siendo: do).(predictanestimadaOrdenadaYˆ = origenalOrdenadaˆ =α pendiente.oangulareCoeficientˆ =β La recta de regresión anterior suele llamarse también “FUNCIÓN DE REGRESIÓN MUESTRAL” (FRM), dado que es el estimador de la”FUNCIÓN DE REGRESIÓN POBLACIONAL” FRPXE(Y) =+= βα Considerando el grafico tenemos: iii eYˆY += )YYˆ()Y(YYˆYe iii −−−=−= Considerando que en la nube de puntos están dispersos de tal modo que algunos se encuentran por encima y otros por debajo de la recta de regresión, mismo que deben ser ponderados y considerados para el total de la muestra se tiene: Pero: ∑ ∑ −=⇒−= 2 ii 2 iiii )Yˆ(YeYˆYe es un mínimo Además ∑ ∑ −−=⇒+= 2 ii 2 iii )Xβˆαˆ(YeXβˆαˆYˆ Para que sea un mínimo debe satisfacer las condiciones de extremo. 1. Derivamos parcialmente respecto de uno de los parámetros e igualamos a cero. 01))(Xβˆαˆ(Y2 αˆ e ii 2 i =−−−= ∂ ∂ ∑ ∑ ∑ ∑ ∑ =−−⇒=−− 0XβˆαˆnY0)Xβˆαˆ(Y iiii NORMALECUACIONPRIMERA)1(XβˆαˆnY ii∑ ∑+= 2. Derivamos parcialmente respecto al otro parámetro e igualamos a cero. ∑ ∑ =−−−= ∂ ∂ 0)X)(Xβˆαˆ(Y2 βˆ e iii 2 i ∑ ∑ ∑ ∑ =−−⇒=−− 0XβˆXαˆYX0)Xβˆαˆ(Y 2 iiiiii NORMALECUACIONSEGUNDA(2)XβˆXαˆYX 2 iiii∑ ∑ ∑+= Conformando el siguiente “sistema de ecuaciones normales” minimounese2 i∑
  • 4. (1)XβˆαˆnY ii∑ ∑+= (2)XβˆXαˆYX 2 iiii∑ ∑ ∑+= Resolviendo el sistema por un método analítico tenemos: Dividiendo (1) entre “n” (3)XβˆαˆY n Xβˆ n αˆn n Y i +=⇒+= ∑∑ (4)XβˆYαˆ −= (5)XβˆαˆYˆ i+= Recordando que: En iii YˆYe −= Sumando y restando Y a la igualdad tenemos: Y)Yˆ()YYˆ(eYYYˆYe iiiiii −−−=⇒+−−= Convenio: YYy ii −= YYˆyˆ ii −= XXx ii −= Entonces: i yˆi y i e −= (6) Reemplazando (5) y (3) en YYy ii −= )X(XβˆyˆXβˆαˆXβˆαˆyˆ iiii −=⇒−−+= Como (7)xβˆyXXx iiii =⇒−= Reemplazando (7) en (6) tenemos: ( )2 ii 2 iiii xβˆyexβˆye ∑ ∑ −=⇒−= Derivando parcialmente: ( )( ) ( )( ) ( ) ∑ ∑ ∑ ∑ ∑ ∑ ∑∑ ∑ ∑ =⇒=⇒=− =−⇒=− =−−= ∂ ∂ 2 i ii2 iii 2 iii 2 iiiiii iii 2 i x yx βˆxβˆyx0xβˆyx 0xβˆyx0xxβˆy 0xxβˆy2 βˆ e Expresando en sus valores originales: (8) )X(X )Y)(YX(X βˆ 2 i ii ∑ ∑ − −− = En las aplicaciones descriptivas se utiliza con mayor frecuencia la formula desarrollada de (8), entonces:
  • 5. ( ) ( ) ( ) ( ) ( ) (9) XXn YXYXn βˆ :tantolopor n XXn n YXYXn n X X Y n X YX n X n X 2X Y n X Y n X 2YX βˆ n X nX n X 2X n Y n Xn Y n X X n Y YX βˆ XnXX2X YXnYXXYYX βˆ )XXX2(X )YXYXXYY(X βˆ 2 i 2 i iiii 2 i 2 i iiii 2 i2 i i i ii 2 i 2 i2 i i i i i ii 2 i i i2 i ii i i i i ii 2 i 2 i iiii 2 i 2 i iiii ∑ ∑ ∑ ∑∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑∑∑∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − = − − = − − = +− +− =         +− ∗+−− = +− +−− =⇒ +− +−− = La finalidad es de encontrar formulas para los parámetros mínimo cuadráticos, en este sentido, el primer criterio nos ha llevado a la relación (3) (3)XβˆαˆY += Esta relación nos permite apreciar un hecho sumamente importante y es que las medias aritméticas Y),X( de las dos variables son coordenadas de la recta de regresión en otras palabras, la recta de regresión pasara siempre por el punto de coordenadas Y),X( . Las formulas de los parámetros son en este caso, las relaciones (4), (8) y (9) respectivamente, es decir. (4)XβˆYαˆ −= (8) )X(X )Y)(YX(X βˆ 2 i ii ∑ ∑ − −− = Formulas equivalentes: Sabemos que: YXXY − es la covarianza; ( )[ ]YX,Cov 22 )X(X − es la varianza, ( )[ ]XV,S2 X Por lo tanto: ( ) ( ) (11) XV YX,Cov βˆ = Con un poco de observación y sin mucho esfuerzo notamos que si en la formula (8) dividimos numerador y denominador del segundo miembro entre (n), arribamos a la formula (11), es decir. V(X) Y)Cov(X, n )X(X n )Y)(YX(X βˆ 2 i ii = − −− = ∑ ∑ Ejemplo de aplicación: En una encuesta de hogares (por muestreo estadístico) realizado a 7 familias se obtuvo la siguiente información relativa al ingreso y gasto familiar en bolivianos. •
  • 6. Y X 62 51 42 55 51 58 43 70 60 50 70 55 60 45 Donde Y= GASTO X= INGRESO Con la anterior información se pide: a) Para la relación Y=f(x), encontrar la recta de regresión mínimo-cuadrática y estimar el monto del gasto para un ingreso de 100bolivianos. b) Grafique la nube de puntos y la recta de regresión. Solución a) Y=f(X) Gasto=f (ingreso) Y X X- X YY − ( )2 YY − ( )2 XX − ( )( )YYXX −− 62 51 42 55 51 58 43 70 60 50 70 55 60 45 11,43 1,43 -8,57 11,43 -3,57 1,43 -13,57 10,29 -0,71 -9,71 3,29 -0,71 6,29 -8,71 105,88 0,50 94,28 10,82 0,50 39,56 75,86 130,64 2,04 73,44 130,64 12,74 2,04 184,14 117,61 -1,02 83,21 37,60 2,53 8,99 118,19 362 410 0,00 0,00 327,40 535,68 367,11 58,57 7 410 X n X X ==⇒= ∑ 51,71 7 362 Y n Y Y ==⇒= ∑ 0,685βˆ0,6853158 535,68 367,11 βˆ )X(X )Y)(YX(X βˆ 2 =⇒==⇒ − −− = ∑ ∑ 11,59αˆ11,5940,1251,717)0,685(58,551,71αˆXβˆYαˆ =⇒=−=−=⇒−= cuadraticaminimorecta0,685X11,59YˆXβˆαˆYˆ +=⇒+= Para 80,09Yˆ0,685(100)11,59Y~100X =⇒+=⇒= b) 0,685X11,59Yˆ += Y X 44,47 48 56,80 66
  • 7. REGRESIÓN NO LINEAL: La flexibilidad del método de regresión por mínimos cuadrados permite ampliar su campo de aplicación a funciones polinómicas y funciones no lineales, susceptibles de linealizarse. Más concretamente la condición necesaria para aplicar el método mínimo cuadrático, es que la función sea lineal en los parámetros. Es este sentido, los modelos reducibles al modelo lineal son: a) Modelo Exponencial. bX X aeY abY = = b) Modelo Potencial. b aXY = c) Modelo Hiperbólico. 0XCon X b Y 0XCon X b aY ≠= ≠+= d) Modelo Parabólico. 2 cXbXaY ++= A manera de complementación debemos agregar que los modelos potencial y exponencial, son susceptibles de linealizarse a través de una transformación logarítmica, así. XβˆαˆlnlnY lnXβˆαˆlnlnY (2)eαˆY (1)XαˆY Xβˆ βˆ += += = = Siguiendo el método mínimo, cuadrático se puede obtener las formulas correspondientes, sin embargo no es necesario, dado que las formulas (4) y (8) obtenidas para la Función d Regresión Muestral Simple son totalmente validas en la medida como puede ser adaptadas a cualquier de los casos es decir:
  • 8. ( )( ) ( )∑ ∑ − −− = −= 2 lnXlnX lnYlnYlnXlnX βˆ lnXβˆlnYαˆln (1)deaLinealizadFuncionlaPara ( )( ) ( )∑ ∑ − −− = −= 2 XX lnYlnYX(X βˆ XβˆlnYαˆln (2)deaLinealizadFuncionlaPara MÉTODO DE MÁXIMA VEROSIMILITUD Este método proporciona estimadores con muchas propiedades deseables, sin embargo es necesario aclarar que los estimadores máximos verosímiles (EMV), no son siempre (como en el caso de varianzas), pero un sencilla modificación los convierte en estimadores insesgados. En general el EMV, es consistente y si existe un estimador eficiente el EMV es eficiente. a) Principio de Máximo Verosimilitud. b) Estimación de Máxima Verosimilitud del modelo de regresión de dos variables c) Supongase que en el modelo de dos variables uY ii ++= ββ 21 , las Yi son independientes y normalmente distribuidas con media = ββ 21 + y varianza=σ 2 d) Como resultado, puede escribirse la funcion de densidad de probabilidad conjunta de Y1,Y2,…….Yn, dadas las medias y varianzas anteriores, de la siguiente forma e) ),/,.....,( 2 2121 σββ XYYY in f + f) Pero dada la independencia de las Y, est funcion de densidad de probabilidad conjunta puede escribirse como el producto de las n funciones de densidad individuales como g) ),/,.....,( 2 2121 σββ XYYY in f + h) ),/()...,/(),/( 2 21 2 212 2 211 σββσββσββ XYXYXY inii fff +++= I i) Donde j)     −− −= ∑ σ ββ πσ 2 2 21 )( 2 1 exp 2 1 ( XY Y ii i f II k) l) Es la funcion de densidad de una variable normalmente distribuida con media y varianzas dadas. ),/,.....,( 2 2121 σββ XYYY in f +     −− −= ∑ σ ββ σ π 2 2 21 )( 2 1 exp )2( 1 XY ii nn III m) n) Si Y1,Y2,…..Yn son conocidas o están dadas, pero σββ 2 21 , y no se conocen la fincion en III se llama funcion de verosimilitud, denotada por FV( σββ 2 21 ,, )
  • 9. A manera de ilustración supongamos que una urna contiene (X) bolillas azules (a) y (n-x) bolillas blancas (b). en estas condiciones y considerando que por éxito (p), se entiende la probabilidad de extraer al azar una bolilla azul (a), entonces existe las siguientes posibilidades: Si ¿Cuál de estos resultados posible seria el mejor estimador de la probabilidad de éxito? La respuesta a esta pregunta se podría dar en términos de un caso particular y mediante la distribución binomial. Recordando que: Si por ejemplo: n = 3 3 1 3 pn ⇒= ó 4 3 =p x       4 1 ;xf       4 3 ;xf 0 1 2 3 42,0 64 27 4 3 4 1 30 3 0 ==            C 42,0 64 27 4 3 4 1 21 3 1 ==            C 14,0 64 9 4 3 4 1 12 3 2 ==            C 02,0 64 1 4 3 4 1 03 3 3 ==            C 02,0 64 1 4 1 4 3 30 3 0 ==            C 14,0 64 9 4 1 4 3 21 3 1 ==            C 42,0 64 27 4 1 4 3 12 3 2 ==            C 42,0 64 27 4 1 4 3 03 3 3 ==            C Se puede observar con nitidez que: Cuando x = 0 en la muestra aleatoria de tamaño 3[MAT(3)], se cumple: 4 1 )0( 4 3 ;0 4 1 ;0 =⇒      >      ∧ pff Luego xnxn x ppCpxf − −= )1();( nx ,.....,3,2,1,0= );( pnbX ≈ 4 3 =⇒> pba 4 1 =⇒< pba 4 3 )3( 4 3 ;3 4 1 ;3:3 4 3 )2( 4 3 ;2 4 1 ;2:2 4 1 )1( 4 3 ;1 4 1 ;1:1 =⇒      >      = =⇒      >      = =⇒      >      = ∧ ∧ ∧ p p p ffx ffx ffx
  • 10. En general, si p ∧ = estimación de p y p * = otra estimación de p, entonces: ( )* ;; pxfpxf >      ∧ Gráficamente: Ejemplo: Sea x una V.A., con distribución binomial, extraída de una muestra aleatoria de tamaño 20, cuyas probabilidades de éxito son: 10 9 ,......., 10 2 , 10 1 :p . En estas condiciones, ¿Cuál es el estimador de la probabilidad de éxito, si la variable asume el valor de 5? Solución: ( ) 15520 5;5 qpCpf =       4 3 ;2f       4 3 ;2f 4 3 4 1 4 2 10 p ( )∑ ≈ 20 1 ;20 pbxi ( ) xx qpCpxf − = 2020 5; 20,.....,5,.....,1,0=ix ( ) ( )20,.......,, 10 9 ,......., 10 2 , 10 1 : 2021 MATxxx p = 0 10 1 10 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9 1 p • • • • •
  • 11. Se entiende que ix puede tomar valores enteros y positivos entre cero y 20. suponiendo que por alguna razón nos interesa el valor x = 5 ¿Cuál de los espacios que se genera es mas VEROSÍMIL para contener la muestra considerada? O dicho de otra manera ¿Cuál es el estimador de la probabilidad de éxito, si la variable asume el valor 5? 0000,0 10 1 10 9 10 9 ;5 0000,0 10 2 10 8 10 8 ;5 0000,0 10 3 10 7 10 7 ;5 0013,0 10 4 10 6 10 6 ;5 0148,0 10 5 10 5 10 5 ;5 0746,0 10 6 10 4 10 4 ;5 1789,0 10 7 10 3 10 3 ;5 1748,0 10 8 10 2 10 2 ;5 0319,0 10 9 10 1 10 1 ;5 155 20 5 155 20 5 155 20 5 155 20 5 155 20 5 155 20 5 155 20 5 155 20 5 155 20 5 =            =      =            =      =            =      =            =      =            =      =            =      =            =      =            =      =            =      Cf Cf Cf Cf Cf Cf Cf Cf Cf De todo lo anterior se desprende que: ( ) ( ) 3,0 10 3 5;5;5 * ==⇒>      ∧∧ ppfpf Si el anterior ejemplo se considera como una función continua en p en el intervalo [0;1], entonces: 10 ≤≤ p Para MAT(20) con x = 5 resulta que: ( ) ( )15520 5 1;5 ppCpf −= Para obtener la estimación de P, se requiere hallar el máximo de f(5;p), es decir: Por lo tanto y siendo el ultimo resultado el único valor alternativo, este es el estimador máximo verosímil de P. o) La Función de Verosimilitud y el Estimador Máximo Verosímil (EMV) ( ) ( ) 25,0 4 1 041 101 00 14 4 ==⇒=− =⇒=− =⇒= ∧ pp pp pp ( ) [ ] ( ) ( ) 04115 3115 14420 5 14420 5 =−−= −−−= pppC ppppC ( ) ( ) ( )[ ]14515420 5 11515 ;5 ppppC dp pdf −−−=
  • 12. Sea ( )θ;~ xfx Para ix constante: ( ) ( ) ( ) ==⇒ ∏ = = θθ ,,....., 1 1 i ni i n xfIxx FUNCION DE VEROSIMILITUD De donde que: ( ) ∧= = ∧= = ⇒∏>      ∏ θθθ * 11 ;; i ni i i ni i xfxf : Estimación de máxima verosimilitud de 0 También ( )* 1 11 ;; θθ xfLnxfLn ni i i ni i = = ∧= = ∏>      ∏ ( )∑∑ = = ∧= = ∧ ⇒>      ni i i ni i i xLnfxLnf 1 * 1 ;; θθθ : Estimación de máxima verosimilitud de 0 Ejemplo: Sea: ( ) 0:0; 0 1 ;~ >>= − θθ θ xexfx x Encontrar el estimador máximo verosímil (EMV), de θ a partir de una MAT(n) ( ) ( ) ( )θθτ ;;,.....~,....., 1 1 11 xfxxxx ni i nn ∏ = = = ( ) :,.....,1 nxx ( ) ( ) ( ) ( ) ( )θθθθθ ;......;;; 21 1 n ni i xfxfxfxfL == ∏ = = θθθ θθθ nxxx eee −−− ⋅= 1 ........ 11 21 θ θ ∑ = − ix n e 1 ( ) ∑ = = = − ni i x n eL 1 1 1 θ θ θ Función de verosimilitud ( ) ∑ = = −−== ni i xnIL 1 1 * 1 lnln θ θθ ∑ ∑ =⇒=+−= θ θθθ nx xn d dL i i 02 * Conjunta Densidad deFunción ( ) ( ) ( )θθτ ;;,.....,~,....., 1 11 xfxxxx ni i nn ∏ = = =
  • 13. x n xi == ∑∧ θ x= ∧ θ Estimador Máximo Verosímil Ejemplo 3 Halle el estimador máximo verosímil de α si se tiene la siguiente funcion de densidad. α α x exf − = 1 )( ?=α 1 paso aplicar miembro a miembro π ) 1 ()( 11 α α ππ xn i n i exf − == = Se transforma L α α ∑ = − X n eL 1 2 Paso aplica ln 3 Paso derivar respecto de α α α α α α α α α α ∑ ∑ ∑ −−= −−= −−= ∑ += ∑ = − − X nL X nL e X L eL eL n X n X n lnln 1ln0ln )(lnln1lnln ln) 1 ln(ln ) 1 ln(ln EJERCICIOS: 1) Distribución de POISSON: ( ) ,.......2,1,0; ! ;~ == − xe x xfx x λλ λ Encontrar el EMV de λ, a partir de una MAT(n). ( ) ( ) ( )λλϕ ;;,......~,...... 1 11 i ni i nn xfxxxx = = ∏= ( ) :,.......,, 21 nxxx ( ) ( ) λλλ λλλ λλ −−− = = ⋅=∏= e x e x e x xfL n xxx i ni i n ! ....... !! ; 21 1 21 α 0 1ln )1( 1ln 2 2 =+−= −−−= ∑ ∑ − ααα α αα X n d Ld Xn d Ld X n X Xn mmXn Xn Xn == = −−=− =+− = +− ∑ ∑ ∑ ∑ ∑ α α α α α α 1*/_ 0 02
  • 14. Función de Verosimilitud ( ) ( )∑ = = ∏−+−== !lnlnln 1 * i ni i i xxnlL λλλ n xx n d dl ii =⇒=+−= ∑∑ λλλ 0 * X n xi == ∑∧ λ EMV de λ 2) Distribución NORMAL: ( ) ( ) ∞≤≤−∞ ∏ = − − i x xexfX i ; 2 1 ;;~ 2 2 2 2 2 σ µ σ σµ A partir de una MAT(n), encontrar los EMV de µ y 2 σ ( ) ( ) ( )2 1 2 11 ;;;;,.....,~,.....,, σµσµ i ni i nn xfxxgxxx = = ∏= ( ) ( ) ( ) ( ) 2 2 2 1 22 2 1 2 2 1 ;;; ∑ ∏ =∏= −−= = µ σ σ σµσµ ix ni ni i exfL Función de Verosimilitud ( ) ( )∑ −−−∏−== 2 2 22* 2 1 ln 2 2ln 2 ;ln µ σ σσµ ix nn LL ( ) ( )∑ ∑ =−=−+= ∂ ∂ 0 1 2 2 1 22 * µ σ µ σµ ii xx L ( )∑ ∑ ∑ ∑ =−=−=− 0µµµ nxxx iii ∑ =⇒ µnxi X n xi == ∑∧ µ X= ∧ µ EMV de la media de µ ( ) ( )∑ −+−= ∂ ∂ 2 2222 * 2 1 2 µ σσσ ix nL ( ) ( ) λλ λ n i ni i x e x L n i i − = = ∏ ∑ = ! 1 X= ∧ λ ( ) ( ) ( )∑ ∏ = −− n ix n eL 1 2 22 1 22 2 2 1 ; µ σ σ σµ
  • 15. ( ) ( ) 0 2 22 22 = −+− = ∑ σ µσ ixn ( )∑ =−+−⇒ 0 22 µσ ixn ( )∑ =− 22 σµ nxi ( ) n Xxi∑ − = ∧ 2 2 σ Pero: X= ∧ µ Entonces: ( ) 21 2 12 S n Xx n = − = ∑∧ σ EMV de la varianza 2 σ NOTA: Como se advirtió anticipadamente, este ultimo estimador es sesgado y en ese sentido no satisface la propiedad de insesgamiento. Sin embargo, si se disminuye en el denominador el numero de grados de libertad del numerador, se puede demostrar que con esta sencilla operación, el EMV se trasforma en otro estimador que satisface la propiedad de insesgamiento, es decir: Estimador insesgado de la varianza 2 σ DOCIMA DE HIPÓTESIS GENERALIDADES La docimasia de hipótesis es en realidad una asignatura sumamente amplia incluida en el tema general de la teoría, dentro la comprensión estadística se entiende que supuesto e hipótesis no son iguales, son mas bien distintas, porque esta ultima es una consecuencia de la primera, dado que implica la intencionalidad de ser verificada empírica o experimentalmente Por otra parte, es imprescindible destacar el hecho de que las palabras Docimasia y Docima son en la temililogia estadística moderna, las de utilización casi universal en los textos escritos en español, sustituyendo de este modo a los vocablos ingleses testing y test. Esta transformación terminología se debe al gran aporte del Prof. Enrique Cansado, quien en su texto. “curso de estadística general” (segunda parte) y en el acápite correspondiente, desarrolla una explicación etimológica suficiente para entender las razones fundamentales del cambio. Esta justificación también es plenamente compartida por el profesor Francisco Azorin, en el prologo a la primera edición española del texto “Introducción a la Teoría de la Estadística” de los autores Mood y Graybill DOCIMACIA DE HIPOTESIS ESTADISTICAS En primer lugar se debe aclarar que no toda hipótesis es hipótesis estadística, sino solamente aquellas referidas a la distribución probabilística de una o mas variables aleatorias, así por ejemplo se puede suponer con la intención de ser sometida a una prueba decisoria, que a) Una variable aleatoria tiene distribución normal con parámetros desconocidos b) Una variable aleatoria tiene una distribución binomial con n=12 y probabilidad de éxito (P) desconocido. c) Dos variables aleatorias son independientes. ( ) 21 2 2 1 s n Xx n i = − − = ∑∧ σ
  • 16. Para mayor claridad en la explicación, utilizaremos un ejemplo clásico reiterado por su sencillez en diferentes obras; “Un naufrago llega a una isla remota y el primer animal que ve es un caballo negro. Plantea la hipótesis de que todos los caballos de esa isla son negros”. Formula la hipótesis, el naufrago pretenderá verificar su validez consecuentemente requerirá observar a cada caballo de la isla, de modo que para demostrar la verdad de su hipótesis deberá comprobar que todos los caballos son negros, en tanque que para demostrar la falsedad de su hipótesis bastara encontrar un caballo que no sea negro. Este pequeño ilustrara la dificultad o en general la imposibilidad de realizar comprobaciones sobre la verdad de las hipótesis. Sin embargo, es totalmente factible demostrar la falsedad de las mismas, porque es suficiente encontrar un dato observado que contradiga a la hipótesis En síntesis en el problema intervienen varias variables aleatorias que permiten formular hipótesis estadísticas, de modo que observaciones muéstrales sobre las variables, permiten conformar sus resultados con la hipótesis para aceptarla o rechazarla. Esta decisión estadística se denomina Docima, en tanto que el procedimiento utilizado para tomar la decisión so conoce como Docimasia de Hipótesis DECISIONES PERMISIBLES Y TIPOS DE ERROR.- El proceso de contrastación entre la decisión asumida y el hecho real conduce a las siguientes posibilidades: Un investigador puede cometer dos tipos de error EL HECHO REAL LA DECISION Ho CIERTA Ho FALSA ACEPTAR: Ho DECISION CORRECTA ERROR TIPO II RECHAZAR: Ho ERROR TIPO I DECISION CORRECTA En la practica y planteada una hipótesis se permiten únicamente dos decisiones, aceptar o rechazar. Si se rechaza la hipótesis, se interpreta en el sentido de haber encontrado datos que contradicen la hipótesis. En tanto que, se la acepta, significa no encontrar datos que la contradigan. En otros términos aceptar la hipótesis no significa hallar datos que lo apoyen. Aquí se hace imprescindible recordar la recomendación del Prof. Reynaldo Franco, quien en el transcurso de sus clases decía; “Aceptar una hipótesis, no quiere decir insistir en su verdad”. Del cuadro precedente, se deduce que al decimar una hipótesis se puede tomar la decisión de rechazar cuando verdaderamente es falsa o se puede incurrir en error cuando se rechaza siendo cierta. Por lo otro lado, se pude aceptar la hipótesis cuando es verdaderamente cierta o se puede cometer error siendo falsa. De lo anterior se concluye sobre la existencia de dos tipos de error, cuando se rechaza la hipótesis principal, siendo esta verdaderamente cierta, en este caso se comete el error llamado de TIPO I y otro cuando se acepta la hipótesis principal, siendo verdaderamente falsa, en este segundo caso se incurre en error significación A y la probalidad de incurrir en error del segundo tipo se denota por B En otro caso, es mas peligroso e inconveniente cometer error de TIPO II por ese motivo el error A es mas pequeño, normalmente esta comprendido entre 0.01 y 0.1 Por ultimo es necesario recalcar y advertir que en cualquiera de las posibilidades, no existe la verdad absoluta, sino mas bien relativa, porque se pudo haber tomado la decisión por ejemplo de aceptar la hipótesis principal, cuando no se encontraron datos u observaciones que la contraigan sencillamente porque no se han “ buscado” con rigurosidad o porque la técnica de contrastación o de verificación fue deficiente e inadecuada para el problema formulado CLASIFICACION DE LAS HIPOTESIS.-
  • 17. hipótesis estadísticas se clasifican en simples y compuestas. Las primeras son que especifican de manera completa una distribución de probabilidades o dicho de otra manera, si especifican todos los parámetros que figuren en una función de densidad o función de cuantía; en tanto que hipótesis compuestas son aquellas que no son simples. Por otra parte, a la hipótesis planteada originalmente se conoce como la hipótesis principal o nula porque restringe los parámetros mas que su alternativa. La menos restrictiva se denomina Hipótesis Secundaria o Alternativa. Al respecto diremos que existen dos tipos de alternativas unilaterales o de un solo lado y bilaterales o de ambos lados MUESTRA Y DESICIONES.- En el contexto de la Docimasia de Hipótesis, existe una relación intima entre muestra y decisiones, en el sentido de que si se tiene una variable aleatoria y una muestra de tamaño fijo entonces queda determinado es espacio muestral de dos regiones, una de aceptación y otra de rechazo o región critica. De este modo, si una observación o resultado del experimento cae en la región critica se rechaza la hipótesis nula, en tanto que si cae en la región de aceptación se la acepta Considerando que el problema central de la teoría de la Docimasia de Hipótesis consiste en la división del espacio muestra, existen diferentes métodos, basados también en diversos criterios que conducen a la mencionada división sin embargo, en los casos de hipótesis nulas y alternativas simples el método mas utilizado consiste en fijar el nivel de significación A entre 0.01 y 0.1 y posteriormente determinar la región critica de modo que minimice B. consecuentemente, aquella región que para un A prefijado minimiza, Será la región de aceptación. Por ultimo, cabe aclarar que le procedimiento más utilizado en la toma de decisiones basado en una doctrina consiste en: A. Construir la Dócima. B. Elegir el nivel de significación y determinar la región critica. C. Elegir el estadístico a prueba y proceder con el cálculo correspondiente. D. Tomar la decisión (utilizando una regla de decisión). E. Concluir. HIPOTESIS RELATIVAS A LA MEDIA DE UNA POBLACION NORMAL. (DOCIMA DE MEDIAS) a) Se conoce la varianza poblacional A) B) Elegir y encontrar el Z, de tablas de la distribución normal tipificada. C) Proceder a la determinación del Z calculado con los valores muéstrales. D) Si 01 00 : : µµ µµ ≠ = H H X X Zc − − = − σ µ0 tc ZZ > 2 σ
  • 18. Entonces se rechaza Ho E) Concluir, destacando la decisión final en términos del problema planteado. Ejemplo de aplicación: La asociación de dueños de establecimientos comerciales al detalle de cierta ciudad, en una conferencia de prensa, declaro que el salario medio por hora de sus empleados es de Bs. 10. Los dirigentes de un sindicato rubro, sostienen que la Asociación exagera. Frente a este panorama, la Dirección Distrital del Trabajo, como entidad reguladora, dispone tomar una muestra aleatoria de 225 sindicalizados con el resultado de una media de Bs. 9, 10. Asumiendo una desviación típica de Bs. 5, decida el nivel de significación del 1% ¿Quien tiene razón? A) B) C) DATOS D) COMO, 2,703>2,323 Entonces, se “RECHAZA Ho” E) La asociación de Dueños de Establecimientos Comerciales al detalle, no tiene razón. 10: 10: 1 0 < = µ µ H H 323.2 99.0101.0 = =−⇒= tZ αα 703,2703,2 703,2 333,0 9.0 333,0 1010,9 333,0 15 5 225 5 10;10,9X - 225;n5;σ =−= −= − = − =⇒ ==== ==== − c c Z Z nX σ σ µ tc ZZ >
  • 19. b) No se conoce la varianza poblacional En este caso la única diferencia consiste en utilizar la varianza muestral en sustitución de la varianza poblacional y como lógica consecuencia se utilizará la distribución “t” de Student en reemplazo de la distribución normal tipificada Z. Ejemplo de Aplicación: De una investigación realizada a 24 familias, de la zona de Obrajes de la ciudad de La Paz, se sabe que el ingreso familiar promedio durante el año 1995, fue de Bs. 3.245, con una desviación típica de Bs. 412. Docimar la Hipótesis de que el verdadero ingreso familiar medio en dicha zona, durante 1995, fue de Bs. 4000, tomando como alternativa que fue distinto de 4000, al 5% de significación. Solución: A) B) C) DATOS D) COMO 8,98>2,07 Entonces, se “RECHAZA Ho” 2 σ 4000: 4000: 1 0 ≠ = µ µ H H 07,2)975,0( 95.0105.0 23 = =−⇒= t αα = 0.025.0.025. = -2.07 2.07 t R.A. 98,898,8 98,8 08,84 755 90,4 412 755 24 412 40003245 ?;3245X - 24;n412;s =−= −= − = − = − = − − = ==== c c t t n s X t µ σ tabc tt >
  • 20. E) El ingreso familiar medio de la zona de Obrajes de la ciudad de La Paz, es diferente a Bs. 4.000. DOCIMA DE DIFERENCIA DE MEDIAS.- Sean Cuyas medias son X y Y respectivamente. Dado que X y Y son variables aleatorias independientes, entonces las distribuciones de sus medias muéstrales, son también independientemente. Por lo tanto, la distribución de la diferencia de medias muéstrales es: De modo que cuando n1, n2 >=30 y las varianzas poblacionales son conocidas, el estadístico a probar en la décima es: (1) En tanto que si las varianzas poblacionales son desconocidas, y los tamaños muéstrales , el estadístico a utilizar es: (2) Por otro lado, si las varianzas son desconocidas, pero los tamaños , entonces e estadístico a probar es: (3) Por último y a manera de aclaración diremos que los denominadores de las anteriores expresiones se refieren a las desviaciones típicas de la diferencia de medias, o sea: Ejemplo: (Se conocen las varianzas poblacionales) En un estudio sobre el impacto de las escuelas sin ventanas sobre el desarrollo psicológico de los estudiantes, se sometió a una misma prueba de ansiedad a un grupo de 40 niños de una escuela sin ventanas y a otro grupo de 30 niños de una escuela con ventanas, los resultados son: )(:),,.........,( )(:),......,,( );( );( 221 121 2 22 2 11 2 1 nMATYYY nMATXXX NY NX n n σµ σµ ≈ ≈ ( )             +−≈− 2 2 2 1 2 1 21 ;)( nn NYX σσ µµ ( ) ( ) ( )1;0 2 2 2 1 2 1 21 N nn YX Z ≈ + −−− = σσ µµ ( ) ( ) ( ) ( ) ( )2 21 21 21 2 12 2 11 21 21 2 11 −+≈       + −+ −+− −−− =Τ nnt nn nn nn snsn YX µµ ( ) ( ) ( )2 2 2 2 1 2 1 21 21 −+≈ + −−− =Τ nnt n s n s YX µµ ( ) ( ) ( )3y2enˆy1en YXYX −− σσ
  • 21. Si un investigador está dispuesto a rechazar una hipótesis verdadera en no más de 5 veces sobre 100. ¿Podrá concluir que el impacto de los dos tipos de escuelas, respecto a la ansiedad de los estudiantes no es el mismo? SOLUCION: A) B) C) Dado que 21 µµ = por hipótesis, entonces 021 =− µµ Escuela sin ventanas Escuela con ventanas 40 10 117 1 1 = = = n X σ 30 12 112 2 2 = = = n Y σ 211 210 : : µµ µµ > = H H 6 4 ,1 9 5 .010 5 .0 = =−⇒= Z αα ( ) ( ) )1;0( 2 2 2 1 2 1 21 N nn YX Zc ≈ + −−− = σσ µµ ( ) 85,1 7,2 5 30 144 40 100 112117 2 2 2 1 2 1 == + − = + − = nn YX Zc σσ tc ZZ > 0,95 R.A. 0 Z,99 1,64 = 0.05α
  • 22. D) COMO 1,85>1,64 Entonces Se “RECHAZA Ho” E. El impacto sobre la ansiedad de los niños no es el mismo, existe un efecto en la escuela sin ventanas. DOCIMA DE VARIANZAS Sabemos; De modo que; O dicho de otro modo Y Consecuentemente O sea; Ejemplo de aplicación Se posee cierta información sobre la estatura (pulgadas) de 100 estudiantes universitarios, en base al cual se pretende docimar la hipótesis de que la desviación típica es igual a 3 pulgadas. ¿Existirá alguna razón para rechazar la hipótesis al nivel del 5% de significación? ESTATURAS ESTUDIANTES 60-62 63-65 66-68 69-71 72-74 5 18 42 27 8 SOLUCION ( ) 2 )1( 2 Z1;0 χ≈⇒≈ NZ 2 )1( 1 2 1 χ≈∑ n Z 2 )1( 2 )1,0( χ σ µ σ µ ≈      − ⇒≈ − x N x 2 )1( 2 1 χ σ µ ≈      − ∑ n x 2 )1( 2 1 −≈        − ∑ n n Xx χ σ 2 )1( 2 1 −≈        − ∑ n n Xx χ σ 208,0125 214,2450 8,5050 41,6025 11,9025 0,2025 305 1152 2814 5 18 42 61 64 67 fxfx ( )2 XX − ( )2 XXf − 52,8 100 75,852 S;45,67 2 ===X
  • 23. A) B ( ) ( ) ( ) ( )95,005,01 95.0105.0 2 99 2 1100 χχ αα =− =−⇒= − NOTA: Si el numero de grados de libertad es menor o igual que 30 se lee directamente de las tablas. Sin embargo para un numero mayor de grados de libertad, se pude utilizar la siguiente formula aproximada Donde, n es el número de grados de libertad y la variable tipificada de la distribución normal 246,420030,8025584873 9: 9: 2 1 2 0 > = σ σ H H ( ) 3 2 1 9 2 9 2 1         +−=− n Z n n ααχ ( ) ( ) ( )         +−= 3 2 99 999 2 96,1 999 2 19995,0χ ( ) 42488,12895,02 99 =χ ( ) 4,1284,12895,0 2 t 2 99 =⇒= χχ R.C R.A. 0.95 0.05
  • 24. C) Utilizando (1) 75,94 9 75,852)( 2 2 2 == − = ∑ − σ χ XXf c D) Por regla general, si entonces se rechaza Ho. Pero en el caso concreto 94,75>128,4 entonces se “ACEPTA Ho” E) No existe razón para rechazar la hipótesis nula al nivel del 5% de significación DOCIMA DE DIFERENCIA DE VARIANZAS Se puede demostrar que si son variables aleatorias independientes, con distribución con n y m grados de libertad respectivamente, entonces: Recordando que sí Por otra parte; Del análisis anterior y si en vez de S2 se utilizara s2, sigue que; 22 tc χχ > 22 tc χχ > νµ y 2 χ [ ]mnF m n ,""≈ ν µ 2 )1(2 2 2 2 )1(2 2 2 22 2 2 22 2 )1(2 1 2 2 )1(2 1 2 11 1 2 11 22 11 )X - -(X tambien )MAT(n);( )X - -(X tambien )MAT(n);( −− −− ≈≈⇒ ≈ ≈≈⇒ ≈ ∑ ∑ nn nn o Sn yNY o Sn yNX χ σ χ σ σµ χ σ χ σ σµ 2 )1(2 2 2 2 )1(2 2 2 22 2 )1(2 1 2 2 )1(2 1 2 11 22 11 )X - -(X ó )1( )X - -(X ó )1( −− −− ≈≈ − ≈≈ − ∑ ∑ nn nn sn sn χ σ χ σ χ σ χ σ
  • 25. Consecuentemente; En resumen, en el caso de docimas de diferencia de varianzas Ejemplo de aplicación: La Corporación de Desarrollo del Sudoeste (CORDES), dentro de su programa pecuario ha venido utilizando un sistema de engorde al que desea sustituir por otro. Para este propósito, y debido a que se tiene que realizar inversiones en obras de infraestructura para el nuevo sistema, el personal Técnico del Departamento de Planificación, decide tomar una muestra aleatoria de 31 cabezas de ganado, de modo que pasado cierto lapso de tiempo se mide los resultados obtenidos con el sistema tradicional, arrojando los siguientes datos, una media de engorde por mes de 15 kilos, con una desviación típica de 5 kilos. Por otra parte, se sabe que con una muestra aleatoria de tamaño 61 del hato de la Corporación de Desarrollo del Norte (CORDENO), que practica el nuevo método, dio como resultado una media de 16 kilos, con una desviación de 4 kilos. Suponiendo que ambos hatos son criados en regiones de similares condiciones, temperatura, humedad, etc. ¿habrá alguna razón para pensar que el nuevo sistema es mejor, al nivel del 5% de significación? Solución B) C) 56,1 5625,1 16 25 2 2 2 1 )60;30( = === cF s s F 2 2 2 11 2 2 2 10 : : σσ σσ > = H HA) [ ])1();1( )1( )1( )1( )1( 1 )1( 1 )1( 21 2 2 2 2 2 1 2 1 2 2 2 2 22 1 2 1 2 11 2 2 2 2 22 1 2 1 2 11 −−≈= − − − − = − − − − nnF s s n sn n sn n sn n sn σ σ σ σ σ σ [ ])1();1( s s :espruebaaoestadisticel):Homaneraotradedichoo,0:( 212 2 2 1 2 2 2 1 2 2 2 1 −−= ==− nnF Ho σσσσ [ ] 74,1)95,0()1( 95,0105,0 )60;30()1();1( 21 ==−= =−⇒= −− FFF nnt α αα R.C R.A. 0.9 5 0.05
  • 26. D) La regla de decisión dice que sí Pero en nuestro caso E) No existe razón suficiente para rechazar la hipótesis nula. Por lo tanto, se puede considerar que ambos sistemas de engorde don iguales 0Hrechazasetc FF > HaceptaseEntonces 1,741,56 0 < < tc FF