SlideShare una empresa de Scribd logo
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 1
Combinatoria
1 Principios b´asicos
La combinatoria es una disciplina que se ocupa de estudiar t´ecnicas de conteo y enumeraci´on de
conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una
lista extensiva ser´ıa imposible o impr´actica). Aplicada a la teor´ıa de probabilidades permite en muchos
casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de
alg´un evento de inter´es.
Presentamos dos reglas b´asicas de la combinatoria:
Principio de la multiplicaci´on
Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden
darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la
segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados
del experimento es n · m
El principio se extiende de manera natural a un experimento en r etapas, donde la i-´esima etapa
tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares
de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del
experimento es
r
i=1
ni
Ejemplo: Una caja contiene 5 cartas distintas de una baraja espa˜nola. Se extraen dos cartas al azar.
Si se realiza la extracci´on con reposici´on ¿ De cu´antas maneras distintas es posible realizarlo? Rta: 5·
5 = 25 maneras distintas.
Si se realiza la extracci´on sin reposici´on ¿ De cu´antas maneras distintas es posible realizarlo? Rta: 5·
4 = 20 maneras distintas.
Principio de la adici´on
Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce
a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles.
Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados
posibles.
El principio de la adici´on tambi´en se generaliza a un experimento que se realiza de una entre r maneras
posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-´esima forma, donde
i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es
r
i=1
ni
Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compa˜n´ıas a´ereas o por
cinco empresas de omnibus ¿ Cu´antas maneras diferentes existen para contratar el viaje? Rta: 3 +
5 = 8 maneras distintas.
2 Variaciones
Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible
ordenamiento se denomina una variaci´on de los n objetos tomados de a k. Para calcular la cantidad
total de variaciones utilizamos el principio de la multiplicaci´on: Para el primer lugar de la fila hay
n posibles maneras de llenarlo con un objeto. Independientemente de cu´al sea el objeto que ocupe
el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que
uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cu´ales hayan
sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de
n − 2 objetos pues dos ya han sido utilizados. As´ı sicesivamente de modo que aplicando el principio
Prof.J.Gast´on Argeri 1
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 2
de la multiplicaci´on, la cantidad total de posibles variaciones de n tomados de a k resulta ser:
(n)k = n · (n − 1) · (n − 2) · · · · · [n − (k − 1)] =
n!
(n − k)!
Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de
presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente
y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer
lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el
siguiente:
AB AC AD AE
BA BC BD BE
CA CB CD CE
DA DB DC DE
EA EB EC ED
3 Permutaciones
Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal
caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes
maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta
entonces ser:
n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n!
Ejemplo: La cantidad de n´umeros de cuatro cifras que pueden formarse a partir de los d´ıgitos
3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos n´umeros:
3568 5368 5638 5683
3586 5386 5836 5863
3658 6358 6538 6583
3685 6385 6835 6853
3856 8356 8536 8563
3865 8365 8635 8653
4 Combinaciones
Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinaci´on
de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho
que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar
en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2
son:
AB AC AD
BC BD
CD
Comp´arese esto con las posibles variaciones de 4 tomados de a 2:
AB BA AC CA AD DA
BC CB BD DB
CD DC
Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del
modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinaci´on existen
k! maneras diferentes de ordenar sus elementos en una fila. Adem´as, combinaciones diferentes dar´an
Prof.J.Gast´on Argeri 2
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 3
lugar a filas con diferentes configuraciones, dado que diferir´an en al menos uno de los objetos presentes.
De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada
una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es
decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = n!
(n−k)!
Despejando x resulta que la cantidad de posibles combinaciones de n objetos tomados de a k,
n´umero que representaremos con el s´ımbolo n
k
es:
n
k
=
n!
k!(n − k)!
Este n´umero se denomina n´umero combinatorio n sobre k.
En el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es
4
2
= 4!
2!2!
= 4!
4
= 3! = 6
Propiedad 1
n
k
=
n
n − k
Dem:
La demostraci´on queda a cargo del lector.
Propiedad 2
n
j − 1
+
n
j
=
n + 1
j
Dem:
n
j−1
+ n
j
= n!
(j−1)!(n−j+1)!
+ n!
j!(n−j)!
=
= n!
(j−1)!(n−j)!(n−j+1)
+ n!
(j−1)!j(n−j)!
=
= n!
(j−1)!(n−j)!
1
n−j+1
+ 1
j
=
= n!
(j−1)!(n−j)!
· j+n−j+1
j(n−j+1)
=
= n!(n+1)
(j−1)!j(n−j)!(n+1−j)
= (n+1)!
j!(n+1−j)!
= n+1
j
5 Binomio de Newton
Dados n´umeros a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por:
(a + b)2
= a2
+ 2ab + b2
Podemos reescribir este desarrollo como:
(a + b)2
=
2
0
a0
b2
+
2
1
a1
b1
+
2
2
a2
b0
=
2
k=0
2
k
ak
b2−k
An´alogamente para el desarrollo del cubo de un binomio:
(a + b)3
= a3
+ 3a2
b + 3ab2
+ b3
Prof.J.Gast´on Argeri 3
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 4
que tambi´en puede reescribirse como:
(a + b)3
=
3
0
a0
b3
+
3
1
a1
b2
+
3
2
a2
b1
+
3
3
a3
b0
=
3
k=0
3
k
ak
b3−k
La f´ormula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural
de un binomio y se expresa de la siguiente manera.
Teorema 1 (F´ormula del binomio de Newton)
Para cualesquiera n´umeros a, b ∈ R y cualquier n´umero n ∈ N se verifica:
(a + b)n
=
n
k=0
n
k
ak
bn−k
Dem:
Por inducci´on respecto de n demostraremos que la proposici´on
p(n) : ∀a, b ∈ R, (a + b)n
=
n
k=0
n
k
ak
bn−k
es verdadera para todo n´umero natural n.
Paso base: Probemos que p(1) es V.
p(1) : ∀a, b ∈ R, (a + b)1
=
1
k=0
1
k
ak
b1−k
El miembro izquierdo de la igualdad es simplemente a + b. El miembro derecho es:
1
0
a0
b1
+
1
1
a1
b0
= b + a
de modo que p(1) es verdadera.
(HI)Hip´otesis inductiva: Supongamos que p(n) es verdadera.
Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello
Prof.J.Gast´on Argeri 4
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 5
procedemos as´ı:
(a + b)n+1 = (a + b)(a + b)n = (a + b)
n
k=0
n
k
akbn−k =
= a
n
k=0
n
k
akbn−k + b
n
k=0
n
k
akbn−k =
=
n
k=0
n
k
ak+1bn−k +
n
k=0
n
k
akbn−k+1 =
=
n+1
j=1
n
j−1
ajbn−j+1 +
n
j=0
n
j
ajbn−j+1 =
= n
n
an+1 +
n
j=1
n
j−1
ajbn−j+1 + n
0
bn+1 +
n
j=1
n
j
ajbn−j+1 =
= n
0
bn+1 +
n
j=1
n
j−1
+ n
j
ajbn−j+1 + n
n
an+1 =
= n
0
bn+1 +
n
j=1
n+1
j
ajbn−j+1 + n
n
an+1 =
= n+1
0
a0bn+1 +
n
j=1
n+1
j
ajbn−j+1 + n+1
n+1
an+1b0 =
=
n+1
j=0
n+1
j
ajbn+1−j
que muestra que p(n + 1) es verdadera. Luego, por inducci´on completa p(n) es verdadera para
todo n ∈ N
6 Permutaciones con repetici´on
Supongamos que queremos determinar cu´antas palabras de cuatro letras pueden formarse con las le-
tras de la palabra AZAR. Aqu´ı entendemos por ”palabra” cualquier secuencia que utilice las cuatro
letras de AZAR, tenga o no significado en alg´un lenguaje. Para averiguar cu´antas pueden formarse,
digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee
s´olo tres letras diferentes, a saber A,Z,R, moment´aneamente distingamos las dos apariciones de la
letra A, por ejemplo podr´ıamos ”pintar” de dos colores diferentes las dos letras A. En tal caso ya
sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien,
cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2!
ordenamientos (que s´ı distinguen entre ambas A), por simple permutaci´on de las dos letras A entre
s´ı. Por lo tanto podemos afirmar que: x · 2! = 4! Se deduce que: x = 4!
2!
El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. For-
malmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n1 veces,
el segundo n2 veces, · · · , el r-´esimo nr veces, la cantidad total de configuraciones en fila de
n = n1 + · · · + nr objetos con las repeticiones especificadas anteriormente es:
(n1 + n2 + · · · + nr)!
n1! n2! · · · nr!
Prof.J.Gast´on Argeri 5
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 6
El n´umero anterior se denomina coeficiente multinomial y suele anotarse tambi´en como
n
n1, n2, · · · , nr
=
(n1 + n2 + · · · + nr)!
n1! n2! · · · nr!
Por ejemplo, con las letras de la palabra AZAR pueden formarse 4!
2!
= 12 palabras diferentes. Para
convencernos las listamos todas:
AZAR AZRA AAZR
AARZ ARZA ARAZ
ZAAR ZARA ZRAA
RAAZ RAZA RZAA
Teorema 2 (Teorema multinomial) Para cualesquiera n´umeros x1, x2, · · · , xr ∈ R y cualquier
n´umero n ∈ N se verifica
(x1 + x2 + · · · + xr)n
=
0≤k1,··· ,kr≤n
k1+···+kr=n
n
k1, · · · , kr
xk1
1 · · · xkr
r
7 Distribuci´on de bolillas en urnas
Diversos problemas de ´ındole combinatorio pueden representarse mediante problemas ”modelo” basa-
dos en disposiciones de bolillas en urnas.
7.1 Disposiciones de n bolillas distintas en r urnas distintas
7.1.1 M´as de una bolilla es admisible por urna
En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en
ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la
segunda bolilla en alguna de las r urnas a´un disponibles, etc. De manera que la cantidad de posibles
disposiciones es en total
r · r · · · r
n
= rn
7.1.2 A lo sumo una bolilla es admisible por urna
Este caso exige que n ≤ r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la
segunda bolilla hay s´olo r − 1 urnas vac´ıas para ubicarla, para la tercer bolilla hay s´olo r − 2 urnas
vac´ıas disponibles, etc. De modo que la cantidad total de posibles disposiciones es r · (r − 1) · (r −
2) · · · [r − (n − 1)] es decir igual al n´umero de variaciones de r tomados de a n.
7.2 Disposiciones de n bolillas id´enticas en r urnas distintas
7.2.1 No pueden quedar urnas vac´ıas
En este caso debe ser n ≥ r pues de lo contrario necesariamente quedar´ıan urnas vac´ıas. Podemos
asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos ”∗” y
las separaciones entre urnas mediante barras ”|” As´ı por ejemplo una configuraci´on con tres urnas y
cinco bolillas podr´ıa representarse por: ∗ ∗ | ∗ | ∗ ∗ Esto quiere simbolizar de alg´un modo que en la
primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera
urna exactamente dos bolillas.
Si disponemos las bolillas en una hilera, ubicar las n bolillas id´enticas en las r urnas diferentes
equivale a ubicar r − 1 separadores ”|” en los n − 1 espacios entre bolillas consecutivas. Esto
Prof.J.Gast´on Argeri 6
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 7
puede realizarse de n−1
r−1
maneras distintas.
Ejemplo: Distribuir seis bolillas id´enticas en tres urnas diferentes, sin permitir urnas vac´ıas. Listamos
las posibilidades:
∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗
∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗
Ejemplo: Hallar todas las descomposiciones del n´umero 8 como suma de tres n´umeros naturales.
Considerar que el orden relativo de los tres t´erminos en la descomposici´on es relevante.
Se tendr´an las siguientes posibles descomposiciones:
1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111
1 + 1 + 6 1 + 2 + 5 1 + 3 + 4 1 + 4 + 3 1 + 5 + 2 1 + 6 + 1 2 + 1 + 5
11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11
2 + 2 + 4 2 + 3 + 3 2 + 4 + 2 2 + 5 + 1 3 + 1 + 4 3 + 2 + 3 3 + 3 + 2
111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1
3 + 4 + 1 4 + 1 + 3 4 + 2 + 2 4 + 3 + 1 5 + 1 + 2 5 + 2 + 1 6 + 1 + 1
Es decir un total de 8−1
3−1
= 7
2
= 7!
2!5!
= 21 descomposiciones.
7.2.2 Pueden quedar urnas vac´ıas
Tambi´en aqu´ı podemos pensar en bolillas ∗ y separadores entre urnas |, pero a diferencia de la
situaci´on previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la con-
figuraci´on siguiente: ∗ ∗ || ∗ | ∗ ∗ ∗ | que corresponde a n = 6 bolillas id´enticas en r = 5 urnas
distintas, donde hay 2 bolillas en la primer urna, la segunda urna est´a vac´ıa, 1 bolilla en la tercer
urna, 3 bolillas en la cuarta urna y la quinta urna est´a vac´ıa.
Se trata pues de disponer en fila n s´ımbolos ∗ y r − 1 s´ımbolos | Es decir en un total de
n + r − 1 lugares. Luego, la cantidad de posibles disposiciones es n+r−1
n
= n+r−1
r−1
puesto
que basta con elegir los lugares que ser´an ocupados por ∗ (o equivalentemente elegir los lugares a ser
ocupados por |).
Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversi´on (negocios). Se
desea adem´as que las inversi´on se realice en m´ultiplos de $1.000
a) Si se quiere invertir la totalidad del capital, ¿ de cu´antas formas diferentes puede realizarse?
Si ∗ representa una inversi´on de $1.000 el problema se asimila al de n = 20 bolillas y
r = 4 urnas y donde pueden quedar urnas vac´ıas (negocios en los cuales se decide no invertir
ningun monto). Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es
20+4−1
20
= 23
20
= 1.771
b) Si se quiere invertir la totalidad o parte del capital, ¿ de cu´antas formas diferentes puede realizarse?
El an´alisis es similar al anterior s´olo que ahora no es obligatorio invertir todo el capital disponible.
Podemos entonces pensar que la parte del capital que se decida no invertir es un ”quinto negocio
posible”. De este modo se trata de un problema de disposici´on de n = 20 bolillas en r = 5 urnas y
donde no pueden quedar urnas vac´ıas. Hay un total de 20+5−1
20
= 24
20
= 10.626 posibles maneras
de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto).
Prof.J.Gast´on Argeri 7
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 8
Teor´ıa axiom´atica de probabilidades
8 Experimentos aleatorios - Espacio muestral - Eventos
Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que con-
duzca a un resultado que cumpla con las siguientes caracter´ısticas:
• El proceso es repetible en id´enticas condiciones una cantidad ilimitada de veces. Cada realizaci´on
particular del proceso conduce a un ´unico resultado.
• Se conoce a priori (es decir previamente a cualquier realizaci´on particular) todos los posibles
resultados del experimento.
• El resultado del experimento est´a sujeto al azar. Es decir que es imposible determinar a priori
(es decir previamente a cualquier realizaci´on particular) cu´al de todos los resultados posibles del
experimento ocurrir´a.
Definici´on 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto
que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente
se anota mediante la letra griega omega may´uscula Ω.
En este contexto caracterizar significa que cada elemento del espacio muestral se corresponde con uno
y s´olo un posible resultado del experimento y a todo posible resultado del experimento le corresponde
uno y s´olo un elemento del espacio muestral. En este sentido podr´ıamos decir que un espacio muestral
es una forma de ”codificar” los posibles resultados del experimento.
Ejemplo:
1) Se arroja un dado una vez y se observa el n´umero que sale. Claramente es un experimento
aleatorio pues cada realizaci´on particular conduce a un ´unico n´umero saliente (es imposible que
arrojemos el dado y salgan simult´aneamente dos o m´as n´umeros) y adem´as:
• El experimento es reproducible en id´enticas condiciones una cantidad arbitraria de veces
(Al menos una versi´on idealizada del experimento, por ejemplo con un dado imaginario que
nunca se desgasta o deforma).
• Antes de arrojar el dado se sabe de antemano que los posibles resultados son los n´umeros
1, 2, 3, 4, 5, 6.
• El resultado del lanzamiento es al azar puesto que es imposible determinar el n´umero que
saldr´a, con anterioridad al lanzamiento.
Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6}
2) Se arroja un dado dos veces y se anota el puntaje total (suma de los n´umeros obtenidos en ambos
lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos
necesarios. En este ejemplo un espacio muestral es Ω = N
4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros.
Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta
el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25]
Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1
con los n´umeros naturales, es decir si existe alguna funci´on N
f
→ A con las propiedades siguientes:
Prof.J.Gast´on Argeri 8
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 9
i) ∀a ∈ A , ∃n ∈ N tal que a = f(n)
ii) ∀m, n ∈ N m = n ⇒ f(m) = f(n)
En tal caso la funci´on f determina una ”enumeraci´on” de A. Si en lugar de f(n) anotamos
an entonces los elementos de A son precisamente los de la secuencia infinita a1, a2, a3, · · · . Es
decir A = {a1, a2, a3, · · · }. Un conjunto que o bien sea finito o bien sea infinito numerable se dice
un conjuto a lo sumo numerable. Si se omite la condici´on ii) pero conservando la i), se dice que f es
una funci´on suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna
funci´on de N sobre A.
Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q
• Basta considerarla funci´on identidad N
f
→ N
• Por ejemplo tomando la funci´on N
f
→ Z dada por f(n) = (−1)n n
2
• Tomando N
f
→ 2N dada por f(n) = 2n
• En este caso es m´as engorroso encontrar una f´ormula expl´ıtica para una fuci´on de N sobre Q.
Es m´as secillo presentar un gr´afico ilustrativo de tal funci´on:
0

1/1 // 1/2
||zzzzzzzz
1/3 // 1/4
||zzzzzzzz
1/5 // · · ·
}}{{{{{{{{{
2/1 // 2/2
zzzzzzzz
2/3
||zzzzzzzz
2/4
zzzzzzzz
2/5
||zzzzzzzz
· · ·
3/1

3/2oo 3/3
zzzzzzzz
3/4
||zzzzzzzz
3/5
=={{{{{{{{{
· · ·
}}{{{{{{{{{
4/1 // 4/2
zzzzzzzz
4/3
||zzzzzzzz
4/4
zzzzzzzz
4/5
||zzzzzzzz
· · ·
5/1

5/2oo 5/3
zzzzzzzz
5/4
}}{{{{{{{{{{
5/5
=={{{{{{{{{
· · ·
~~||||||||||
...
// ...
=={{{{{{{{{{ ...
...
=={{{{{{{{{{ ...
Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad
de elementos):
Ω



Finito o infinito numerable
Infinito no numerable
En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio
muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable.
Moment´aneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. M´as
adelante precisaremos este concepto. Dos eventos de particular inter´es son el evento Ω (denominado
evento seguro o cierto) y el evento ∅ (denominado evento vac´ıo o imposible). Los elementos ω ∈ Ω del
Prof.J.Gast´on Argeri 9
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 10
espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}.
Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras
del alfabeto en may´usculas: A, B, C, D, etc.
Ejemplo:
1) Lanzamiento de un dado. Podemos considerar los siguientes eventos:
A = ”sale n´umero par” = {2, 4, 6}
B = ”sale m´ultiplo de tres” = {3, 6}
C = ”sale 3” = {3} (suceso elemental)
2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos:
A = ”el puntaje total excede 8” = {9, 10, 11, 12}
B = ”sale un par y un impar” = {3, 5, 7, 9, 11}
3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos
que fueron necesarios. Eventos que podr´ıan interesarnos:
A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5}
B = ”se requiere una cantidad impar de lanzamientos” = {3, 5, 7, 9, 11, 13, · · · }
3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados
es A = {x ∈ Ω : x ≤ 0, 2}
Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realizaci´on
del experimento conduce a un resultado ω ∈ Ω. Cuando ω ∈ A se dice que el resultado del
experimento es favorable a A o que ha ocurrido A en dicha realizaci´on. Caso contrario se dice
que el resultado ω es desfavorable a A o que no ha ocurrido A en dicha realizaci´on. Notemos
que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran tambi´en, en la misma
realizaci´on, otros eventos.
Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que
Ω = {(C, C), (C, S), (S, C), (S, S)}
donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realizaci´on es ω = (C, C) y si
A = ”la primera moneda sale cara” = {(C, C), (C, S)} y B = ”la segunda moneda sale ceca” =
{(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el
resultado del experimento ha sido favorable tanto al evento A como al evento B.
9 ´Algebra de eventos
Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente:
• El complemento de A es el evento Ac = {ω ∈ Ω : ω ∈ A}. Es el evento que ocurre cada vez
que no ocurre A. Los resultados favorables a Ac son los desfavorables al A y viceversa. El
complemento de A tambi´en suele anotarse A .
• La uni´on de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento
que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A ∪ B ocurre
sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren
simult´aneamente tanto A como B.
Prof.J.Gast´on Argeri 10
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 11
• La intersecci´on de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es
el evento que ocurre cuando A y B ocurren simult´aneamente. La intersecci´on de A con
B tambi´en suele anotarse AB
• La diferencia de A con B es el evento A  B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es el
evento que ocurre cuando ocurre A y simult´aneamente no ocurre B.
Ejemplo: En el ´ultimo ejemplo se tiene:
Ac = {(S, C), (S, S)}
A ∪ B = {(C, C), (C, S), (S, S)}
A ∩ B = {(C, S)}
A  B = {(C, S)} y B  A = {(S, C)}
M´as generalmente, sean A1, A2, · · · , An eventos.
• La uni´on de tales eventos es el evento
n
i=1
Ai = A1 ∪ · · · ∪ An = {ω ∈ Ω : ω ∈ A1 ∨ · · · ∨ ω ∈ An}
• La intersecci´on de tales eventos es el evento
n
i=1
Ai = A1 ∩ · · · ∩ An = {ω ∈ Ω : ω ∈ A1 ∧ · · · ∧ ω ∈ An}
Dicha intersecci´on tambi´en se anota A1A2 · · · An
M´as generalmente a´un necesitaremos definir uniones e intersecciones de una cantidad numerable de
eventos: Sea {An} una sucesi´on de eventos.
• La uni´on de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos
de la sucesi´on:
∞
n=1
An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An}
• La intersecci´on de dichos eventos es el evento que ocurre cuando ocurren simult´aneamente todos
y cada uno de los eventos de la sucesi´on:
∞
n=1
An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An}
Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario
hasta obtener por primera vez ”cara”. Podemos considerar:
Ω = {C, SC, SSC, SSSC, SSSSC, · · · }
Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-´esimo”
En este caso:
∞
n=1
An = ”sale C en una cantidad par de lanzamientos”
Prof.J.Gast´on Argeri 11
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 12
Definici´on 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos
si es imposible que ocurran simult´aneamente. Es decir que cada vez que ocurre A no ocurre B y
cada vez que ocurre B no ocurre A. Para destacar tal situaci´on nosotros anotaremos el evento uni´on
A ∪ B como A B.
M´as generalmente dada una sucesi´on {An} de eventos, se dice que dichos eventos son dos a dos
incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verifica:
∀m, n ∈ N , m = n ⇒ Am ∩ An = ∅
Para destacar tal situaci´on anotaremos la uni´on
∞
n=1
An como ∞
n=1 An
Dados eventos A, B se dice que A est´a contenido o incluido en B o tambi´en que B contiene o
incluye a A sii cada vez que ocurre A tambi´en ocurre B (pero no necesariamente a la inversa). Tal
relaci´on entre eventos se simboliza A ⊆ B o tambi´en B ⊇ A. En otras palabras: A ⊆ B sii todo
resultado favorable a A es tambi´en favorable a B. En la pr´actica para demostrar que A ⊆ B es
frecuente tomar un elemento gen´erico (es decir, no un elemento particular) de A y demostrar que
necesariamente tambi´en pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A.
Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de
ellos est´a contenido en el otro.
Damos a continuaci´on un listado de propiedades muy sencillas cuyas demostraciones formales omiti-
mos:
A ⊆ A
A ⊆ B ∧ B ⊆ C ⇒ A ⊆ C
A ∩ A = A ; A ∪ A = A
A ∪ B = B ∪ A ; A ∩ B = B ∩ A
A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C
∅ ⊆ A ⊆ Ω
A ∩ B ⊆ A ⊆ A ∪ B
∅ ∩ A = ∅ ; ∅ ∪ A = A
Ω ∩ A = A ; Ω ∪ A = Ω
(Ac)c
= A
(A ∪ B)c
= Ac ∩ Bc ; (A ∩ B)c
= Ac ∪ Bc
A ∪ B = A ∪ (B  A)
B = (B ∩ A) (B  A)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
n
i=1
Ai = A1
n
i=2
Ac
1 · · · Ac
n−1An
∞
n=1
An
c
=
∞
n=1
Ac
n ;
∞
n=1
An
c
=
∞
n=1
Ac
n
Prof.J.Gast´on Argeri 12
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 13
10 Algebras y σ-´algebras de subconjuntos de Ω - Espacio de prob-
abilidad
Todos hemos en alg´un momento realizado mediciones. Como ejemplo concreto supongamos que de-
seamos medir ´areas de rect´angulos. Como se sabe, el ´area de un rect´angulo es un n´umero positivo
igual al producto base × altura. Supongamos ahora que construimos figuras planas a partir de una
cantidad finita de rect´angulos. Podemos asignar un ´area a cada una de tales figuras del modo sigu-
iente: Primero descomponemos la figura en una uni´on finita de rect´angulos disjuntos dos a dos y
luego sumamos las ´areas de tales rect´angulos. Finalmente, supongamos que todos los rect´angulos
que consideramos est´an contenidos dentro de un ”gran” rect´angulo que llamamos Ω. Cada vez que
podamos medir el ´area de cierta figura contenida en Ω tambi´en podremos medir el ´area de la ”figura
complementaria”, es decir la figura que se obtiene a partir de todos los puntos de Ω que no pertenecen
a la figura original. En otros t´erminos, si podemos medir el ´area de una figura tambi´en podemos medir
el ´area de su complemento. Queda tambi´en claro que si hemos podido asignar un ´area A(F ) a la
figura F ⊆ Ω entonces tendremos A(F c) = A(Ω) − A(F ). Es decir que hay una cantidad de
propiedades b´asicas que esperamos de todo n´umero que represente una manera de medir. Para reflejar
estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podr´ıamos
denominar ”medibles” que ser´an precisamente aquellos a los cuales asignaremos una medida. En
nuestro ejemplo precedente, no queda claro en absoluto c´omo podr´ıamos medir el ´area de un c´ırculo
contenido en Ω, pero s´ı podremos asignar ´areas de modo sencillo tomando como conjuntos medibles la
clase de todos los subconjuntos de Ω que sean o bien rect´angulos, o bien uniones finitas de rect´angulos
o bien sus complementos sean uniones finitas de rect´angulos. Una clase de subconjuntos de Ω con
estas car´acter´ısticas es lo que denominaremos un ´algebra de subconjuntos de Ω.
Definici´on 3 Dados un conjunto no vac´ıo Ω y una clase A de subconjuntos de Ω, diremos que
A es un ´algebra de subconjuntos de Ω sii satisface las siguiente condiciones:
i) Ω ∈ A
ii) ∀A ∈ A , Ac ∈ A
iii) ∀n ∈ N , ∀A1, · · · , An ∈ A ,
n
i=1
Ai ∈ A
Ejemplo: Sea Ω cualquier rect´angulo no vac´ıo. Definamos, como vimos anteriormente, la siguiente
clase de subconjuntos de Ω:
A = {A ⊆ Ω : A es uni´on finita de rect´angulos}
Veamos que A tiene las propiedades de un ´algebra de subconjuntos de Ω:
i) Ω ∈ A pues Ω es uni´on finita de rect´angulos ya que es un rect´angulo.
ii) Supongamos que A ∈ A. Queremos ver que Ac es tambi´en uni´on finita de rect´angulos.
En primer lugar notemos que si R ⊆ Ω es un rect´angulo entonces Rc = Ω  R es uni´on finita
de rect´angulos (Esto le resultar´a evidente cuando dibuje el gran rect´angulo Ω y un rect´angulo
arbitrario R contenido en ´el).
Adem´as, si B =
n
i=1
Ri y C =
m
j=1
R∗
j son uniones finitas de rect´angulos entonces:
B ∩ C =
1≤i≤n
1≤j≤m
Ri ∩ R∗
j
de modo que B ∩ C es uni´on finita de rect´angulos (notar que Ri ∩ R∗
j es un rect´angulo).
Esto se extiende a la intersecci´on de un n´umero finito de uniones finitas de rect´angulos. Por lo
Prof.J.Gast´on Argeri 13
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 14
tanto podemos afirmar que la intersecci´on de un n´umero finito de miembros de A es tambi´en
miembro de A.
Como A ∈ A podemos escribir A =
n
i=1
Ri donde los Ri son ciertos subrect´angulos de Ω.
Entonces:
Ac
=
n
i=1
Ri
c
=
n
i=1
Rc
i
y dado que los Rc
i son uniones finitas de rect´angulos, la intersecci´on de ellos tambi´en lo es. Por
lo tanto Ac es uni´on finita de rect´angulos de modo que Ac ∈ A.
iii) Fijemos n ∈ N y sean A1, · · · , An ∈ A. Sabemos que cada Ai es uni´on finita de rect´angulos.
Pero entonces evidentemente A =
n
i=1
Ai tambi´en es uni´on finita de rect´angulos, de donde re-
sulta que A ∈ A.
Consideremos ahora un ejemplo que nos servir´a para generalizar la definici´on de ´algebra de subcon-
juntos de Ω.
Ejemplo: Supongamos que se tiene una secuencia {Rn} de rect´angulos contenidos en el gran
rect´angulo Ω. M´as a´un, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente
claro que tambi´en se le puede asignar un ´area al conjunto
∞
n=1
Rn, de la manera siguiente:
Cada Rn tiene asignada un ´area A(Rn)
Podemos asignar ´area al conjunto R1 R2 como A(R1 R2) = A(R1) + A(R2)
Podemos asignar ´area al conjunto R1 R2 R3 como A(R1 R2 R3) = A(R1)+A(R2)+
A(R3)
etc. En genral: A
n
i=1
Ri =
n
i=1
A(Ri)
De este modo vemos c´omo asignar un ´area al conjunto Sn =
n
i=1
Ri, cualquiera sea n ∈ N. Natu-
ralmente los n´umeros A(S1), A(S2), A(S3), · · · forman una sucesi´on creciente de n´umeros reales
positivos. Adem´as, dado que todos los Sn ⊆ Ω resulta A(Sn) ≤ A(Ω). Un resultado matem´atico
asegura que toda sucesi´on de n´umeros reales que sea creciente y acotada superiormente, posee un
l´ımite finito. Por lo tanto existe y es finito el n´umero:
lim
n →∞
A(Sn)
Resulta entonces natural definir
A
∞
n=1
Rn = lim
n →∞
A
n
i=1
Ri = lim
n →∞
A(Sn) =
= lim
n →∞
n
i=1
A(Ri) =
∞
n=1
A(Rn)
Este ejemplo muestra que podemos ampliar la definici´on de ´algebra de conjuntos para permitir que
no s´olo las uniones finitas de conjuntos medibles sean medibles, sino tambi´en las uniones infinitas
numerables. Esto conduce a la definici´on siguiente.
Prof.J.Gast´on Argeri 14
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 15
Definici´on 4 Una clase Σ de subconjuntos de un conjunto no vac´ıo Ω se dice una σ-´algebra de
subconjuntos de Ω sii verifica las siguientes condiciones:
i) Ω ∈ Σ
ii) ∀A ∈ Σ , Ac ∈ Σ
iii) ∀ {An} sucesi´on en Σ ,
∞
n=1
An ∈ Σ
Ejemplo: Consideremos un conjunto no vac´ıo Ω. La clase que consta de todos los subconjuntos de
Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-´algebra
de subconjuntos de Ω. De hecho es la m´as grande de todas.
Propiedad 3 Sea Σ una σ-´algebra de subconjuntos de Ω. Entonces ∅ ∈ Σ
Dem:
Puesto que Ω ∈ Σ resulta ∅ = Ωc ∈ Σ
Propiedad 4 Sea Σ una σ-´algebra de subconjuntos de Ω. Supongamos que Ω es finito o infinito
numerable. Se verifica:
∀ω ∈ Ω , {ω} ∈ Σ ⇒ Σ = P(Ω)
Dem:
Sea A ⊆ Ω. Puesto que Ω es finito o infinito numerable, lo mismo es cierto de A. Dado que:
A =
ω∈A
{ω} resulta inmediatamente que A ∈ Σ puesto que la uni´on anterior es a lo sumo
numerable y cada {ω} pertenece a Σ
Propiedad 5 Sea Σ una σ-´algebra de subconjuntos de Ω y sean A1, · · · , An ∈ Σ. Entonces
n
i=1
Ai ∈ Σ
Dem:
Definamos An+1 = An+2 = · · · = ∅. Entonces la secesi´on {Ai} est´a en Σ. Se tiene pues:
n
i=1
Ai =
∞
i=1
Ai ∈ Σ
Propiedad 6 Sea Σ una σ-´algebra de subconjuntos de Ω y sea {An} una sucesi´on en Σ.
Entonces
∞
n=1
An ∈ Σ
Dem:
∞
n=1
An =
∞
n=1
Ac
n
c
∈ Σ dado que cada Ac
n ∈ Σ
Propiedad 7 Sea Σ una σ-´algebra de subconjuntos de Ω y sean A1, · · · , An ∈ Σ.
Entonces
n
i=1
Ai ∈ Σ
Dem:
Definamos An+1 = An+2 = · · · = Ω. Tenemos as´ı una sucesi´on {An} en Σ. Por la propiedad
anterior resulta:
n
i=1
Ai =
∞
i=1
Ai ∈ Σ
Prof.J.Gast´on Argeri 15
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 16
Propiedad 8 Sean Ω un conjunto no vac´ıo y {Σi}i∈I una familia no vac´ıa, donde cada Σi es
una σ-´algebra de subconjuntos de Ω. Entonces
i∈I
Σi es una σ-´algebra de subconjuntos de Ω.
Dem: Anotemos Σ =
i∈I
Σi. Debemos probar que Σ satisface los axiomas de σ-´algebra de
subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que:
• Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi
• Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi. Luego: ∀i ∈ I , Ac ∈ Σi. Entonces Ac ∈ Σ
• Sea {An} sucesi´on en Σ. Entonces ∀i ∈ I , {An} es una sucesi´on en Σi. Por lo tanto
∀i ∈ I ,
∞
n=1
An ∈ Σi. Luego:
∞
n=1
An ∈ Σ
Propiedad 9 Dados un conjunto no vac´ıo Ω y un subconjunto G de P(Ω), existe una m´ınima
σ-´algebra de subconjuntos de Ω que contiene a G
Dem: Basta considerar la familia de todas las σ-´algebras de subconjuntos de Ω que contienen a
G (una de ellas es P(Ω)) y aplicarle la propiedad anterior
Estamos ahora en condiciones de definir la noci´on axiom´atica de probabilidad.
Definici´on 5 Sean Ω un conjunto no vac´ıo y Σ una σ-´algebra de subconjuntos de Ω. Una medida
de probabilidad o funci´on de probabilidad o simplemente una probabilidad sobre Σ es una funci´on
P : Σ → R que verifica los siguientes axiomas:
i) ∀A ∈ Σ , P (A) ≥ 0
ii) P (Ω) = 1
iii) Para toda sucesi´on {An} de elementos de Σ disjuntos dos a dos se cumple:
P
∞
n=1
An =
∞
n=1
P (An)
Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea
convergente.
Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ.
Ejemplo: Sea Ω un conjunto no vac´ıo a lo sumo numerable, que podemos anotar Ω = {ωn}. Sea
Σ una σ-´algebra de subconjuntos de Ω tal que ∀n , {ωn} ∈ Σ. Como vimos antes esto implica que
Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que:
• Las probabilidades pn = P ({ωn}) determinan la probabilidad de cualquier evento aleatorio.
En efecto: Sea A ⊆ Ω. Entonces A =
ωn∈A
{ωn}. Por lo tanto:
P (A) = P
ωn∈A
{ωn} =
ωn∈A
P ({ωn}) =
ωn∈A
pn
• Dada una sucesi´on {pn} de n´umeros reales tal que:
a) ∀n , pn ≥ 0
b)
∞
n=1
pn = 1
existe una ´unica probabilidad P sobre Σ tal que P ({ωn}) = pn
Prof.J.Gast´on Argeri 16
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 17
11 Espacios de equiprobabilidad
Si Ω = {ω1, · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N} , pn = 1
N
entonces se cumplen
las condiciones a) y b) del item anterior, de manera que queda definida una ´unica probabilidad sobre
Σ = P(Ω) tal que ∀n ∈ {1, · · · , N} , P {ωn} = 1
N
= 1
#(Ω)
. Esta manera de asignar probabili-
dades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En
un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω
P (A) = P
ω∈A
{ω} =
ω∈A
P ({ω}) =
ω∈A
1
#(Ω)
=
#(A)
#(Ω)
Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente:
P (A) =
# {resultados favorables al evento A}
# {resultados posibles del experimento}
En la pr´actica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una
cantidad finita de resultados posibles, la asignaci´on de probabilidades a dichos eventos elementales no
siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem-
plos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podr´ıamos
tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabili-
dades del modo siguiente:
∀n ∈ {2, · · · , 12} , P ({n}) =
1
11
¿ Qu´e inconvenientes observa acerca de esta asignaci´on de probabilidad?
El mismo experimento aleatorio podr´ıa modelizarse mediante el siguiente espacio muestral:
Ω = {(i, j) : 1 ≤ i, j ≤ 6}
Con este espacio muestral s´ı es adecuada la asignaci´on de probabilidad en forma equiprobable:
∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) =
1
36
Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso
A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo
tanto P (A) = #(A)
#(Ω)
= 6
36
= 1
6
Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin
reposici´on. Calculemos P (A) y P (C) siendo:
A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras”
Una posible representaci´on del espacio muestral asociado a este experimento aleatorio podr´ıa ser Ω =
{BB, BN, NB, NN}. Sin embargo, dada esta representaci´on es evidente que no resulta natural
considerar los cuatro posibles resultados como equiprobables puesto que hay m´as bolillas blancas que
negras. De hecho, si utiliz´aramos el artificio de numerar las bolillas blancas como B1, B2, B3 y
numerar las bolillas negras como N1, N2 resulta claro que el resultado A se da en m´as casos que el
resultado C. De hecho:
A = {(B1, B2), (B1, B3), (B2, B1), (B2, B3), (B3, B1), (B3, B2)} tiene 6 elementos
C = {(N1, N2), (N2, N1)} tiene 2 elementos
Lo natural entonces es elegir una representaci´on del espacio muestral en la que resulte natural la
equiprobabilidad. Tal representaci´on podr´ıa ser la siguiente:
Ω = {(x, y) : x, y ∈ {B1, B2, B3, N1, N2} , x = y}
Prof.J.Gast´on Argeri 17
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 18
Con este espacio muestral es natural plantear equiprobabilidad. Se tiene:
P (A) = #(A)
#(Ω)
= 3·2
5·4
= 3
10
= 0, 3
P (C) = #(C)
#(Ω)
= 2·1
5·4
= 1
10
= 0, 1
Otra posible representaci´on del espacio muestral es la siguiente, que prescinde del orden en que se
extraen las bolillas:
Ω = {{x, y} : x, y ∈ {B1, B2, B3, N1, N2} , x = y}
Tambi´en en este caso es natural la equiprobabilidad. Se tiene:
P (A) = #(A)
#(Ω)
=
(3
2)
(5
2)
= 3
10
= 0, 3
P (C) = #(C)
#(Ω)
=
(2
2)
(5
2)
= 1
10
= 0, 1
Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de
extracci´on. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras.
Se extraen al azar dos bolillas, pero esta vez con reposici´on. Calculemos las probabilidades de los
mismos eventos A y C del ejemplo anterior.
En este caso conviene representar el espacio muestral como:
Ω = {(x, y) : x, y ∈ {B1, B2, B3, N1, N2}}
Entonces:
P (A) = #(A)
#(Ω)
= 3·3
5·5
= 9
25
= 0, 36
P (C) = #(C)
#(Ω)
= 2·2
5·5
= 4
25
= 0, 16
12 Propiedades de una probabilidad
Una cantidad de resultados ´utiles se desprenden de la definici´on axiom´atica de probabilidad dada en
el par´agrafo anterior.
Propiedad 10 P (∅) = 0
Dem:
Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que:
P (∅) = P
∞
n=1
An =
∞
n=1
P (An) =
∞
n=1
P (∅)
Puesto que la serie a la derecha de la ´ultima igualdad es convergente, necesariamente su t´ermino
general debe tender a 0. Pero dicho t´ermino general, siendo constantemente igual a P (∅), tiende a
P (∅). Por lo tanto: P (∅) = 0
Propiedad 11 Sean A1, · · · , An ∈ Σ dos a dos disjuntos. Entonces:
P
n
i=1
Ai =
n
i=1
P (Ai)
Prof.J.Gast´on Argeri 18
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 19
Dem:
Definamos An+1 = An+2 = · · · = ∅. Se tiene:
P
n
i=1
Ai = P
∞
i=1
Ai =
∞
i=1
P (Ai) =
n
i=1
P (Ai)
Propiedad 12 Sean A, B ∈ Σ tales que A ⊆ B. Se verifica:
P (B  A) = P (B) − P (A)
Dem:
Podemos escribir B = A (B  A) siendo la uni´on disjunta. Por lo tanto: P (B) = P (A (B  A)) =
P (A) + P (B  A). Despejando se tiene: P (B  A) = P (B) − P (A)
Propiedad 13 Sean A, B ∈ Σ (no necesariamente disjuntos). Se verifica:
P (A ∪ B) = P (A) + P (B) − P (AB)
Dem:
Primeramente notemos que BAc = B  AB. Ahora bien, por la propiedad anterior y teniendo en
cuenta que AB ⊆ B se tiene:
P (BAc) = P (B  AB) = P (B) − P (AB). Luego:
P (A ∪ B) = P (A BAc
) = P (A) + P (BAc
) = P (A) + P (B) − P (AB)
Corolario 1 Para cualesquiera eventos A, B ∈ Σ se verifica la siguiente desigualdad:
P (A ∪ B) ≤ P (A) + P (B)
Dem: P (A ∪ B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B) pues P (AB) ≥ 0
Propiedad 14 Dados A, B, C ∈ Σ se verifica:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC)
Dem:
P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) =
= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC) =
= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ACBC)) =
= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ABC)) =
= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC)
Propiedad 15 Sea (Ω, Σ, P ) un espacio de probabilidad. Dados A1, · · · , An ∈ Σ se cumple:
P (A1 ∪ · · · ∪ An) =
n
i=1
P (Ai) −
1≤i1i2≤n
P (Ai1 Ai2 ) + · · ·
+ (−1)r+1
1≤i1i2···ir≤n
P (Ai1 Ai2 · · · Air ) + · · · +
+ .................................................... +
+ (−1)n+1 P (A1A2 · · · An)
(1)
Prof.J.Gast´on Argeri 19
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 20
Dem:
Por inducci´on sobre n.
• Paso base: n = 2 ya fue demostrada.
• Hip´otesis inductiva (HI): Suponemos v´alida (1) para n.
• Supongamos A1, · · · , An+1 ∈ Σ.
P (A1 ∪ · · · ∪ An+1) = P (A1 ∪ · · · ∪ An) + P (An+1) − P ((A1 ∪ · · · ∪ An)An+1) =
=
n
i=1
P (Ai) −
1≤i1i2≤n
P (Ai1 Ai2 ) + · · ·
+ (−1)r+1
1≤i1i2···ir≤n
P (Ai1 Ai2 · · · Air ) + · · · +
+ (−1)n+1 P (A1A2 · · · An) + P (An+1) − P (A1An+1 ∪ · · · ∪ AnAn+1) =
=
n+1
i=1
P (Ai) −
1≤i1i2≤n
P (Ai1 Ai2 ) + · · ·
+ (−1)r+1
1≤i1i2···ir≤n
P (Ai1 Ai2 · · · Air ) + · · · +
+ (−1)n+1 P (A1A2 · · · An) − {
n
i=1
P (AiAn+1) −
1≤i1i2≤n
P (Ai1 Ai2 An+1) + · · ·
+ (−1)n+1P (A1A2 · · · AnAn+1)}
=
n+1
i=1
P (Ai) −
1≤i1i2≤n+1
P (Ai1 Ai2 ) + · · ·
+ (−1)r+1
1≤i1i2···ir≤n+1
P (Ai1 Ai2 · · · Air ) + · · · +
+ (−1)n+2 P (A1A2 · · · An+1)
Propiedad 16 Dados A, B ∈ Σ con A ⊆ B se tiene P (A) ≤ P (B)
Dem:
Como A ⊆ B resulta B = A BAc. Luego: P (B) = P (A) + P (BAc) ≥ P (A)
Corolario 2 Para todo A ∈ Σ es P (A) ≤ 1
Dem:
Como A ⊆ Ω y dado que P (Ω) = 1 resulta P (A) ≤ P (Ω) = 1
Propiedad 17 Para cualquier A ∈ Σ se verifica:
P (Ac) = 1 − P (A) ; P (A) = 1 − P (Ac)
Dem:
Puesto que Ω = A Ac resulta 1 = P (Ω) = P (A) + P (Ac)
Prof.J.Gast´on Argeri 20
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 21
13 Propiedades de continuidad
Propiedad 18 Sea {An} una sucesi´on en Σ. Supongamos dicha sucesi´on de eventos es creciente,
es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica:
P
∞
n=1
An = lim
n →∞
P (An)
Dem:
Definamos los siguientes eventos:
B1 = A1
B2 = A2  A1
B3 = A3  A2
· · · · · · · · ·
Bn = An  An−1
· · · · · · · · ·
Se tiene as´ı una sucesi´on {Bn} en Σ tal que:
n
i=1
Ai =
n
i=1
Bi y
∞
i=1
Ai =
∞
i=1
Bi
Por conveniencia definamos tambi´en Ao = ∅. Entonces:
P
n
i=1
Ai = P
n
i=1
Bi =
n
i=1
P (Bi) =
=
n
i=1
P (Ai  Ai−1) =
n
i=1
(P (Ai) − P (Ai−1)) =
= P (An) − P (Ao) = P (An) − P (∅) = P (An)
Luego:
lim
n →∞
P (An) = lim
n →∞
n
i=1
P (Bi) =
∞
i=1
P (Bi) =
= P
∞
i=1
Bi = P
∞
i=1
Ai
Propiedad 19 Sea {An} una sucesi´on en Σ. Supongamos dicha sucesi´on de eventos es decreciente,
es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica:
P
∞
n=1
An = lim
n →∞
P (An)
Dem:
Notemos que dado que los An decrecen entonces los Ac
n crecen.
P
∞
n=1
An = 1 − P
∞
n=1
An
c
=
= 1 − P
∞
n=1
Ac
n = 1 − lim
n →∞
P (Ac
n) =
= lim
n →∞
1 − P (Ac
n) = lim
n →∞
P (An)
Prof.J.Gast´on Argeri 21
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 22
Probabilidad condicional - Sucesos independientes
14 Probabilidad condicional
Seguramente al lector no se le habr´a pasado por alto, cuando definimos los axiomas de una probabili-
dad, la relaci´on intuitiva que existe entre ´estos y lo que se conoce como el enfoque ”frecuentista” de
las probabilidades, que pasamos a explicar someramente.
Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a
cierto evento A. El enfoque frecuentista consiste en repetir el experimento un n´umero finito y grande
de veces, digamos N veces. A continuaci´on determina lo que se conoce como frecuencia relativa del
evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos fA,
se define por:
fA =
n´umero de veces que ha ocurrido A en las N realizaciones
n´umero total N de realizaciones
Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del
experimento. En otro cap´ıtulo formalizaremos esta idea intuitiva. Por el momento nos conformamos
con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades:
Dados eventos A, B se verifica
i) fA ≥ 0
ii) fΩ = 1
iii) Si A y B son disjuntos entonces fA∪B = fA + fB
Las propiedades anteriores nos hacen recordar propiedades an´alogas a las de la definici´on axiom´atica
de probabilidad.
Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi-
cional. La importancia de este concepto se debe a dos motivos principales:
• Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna
informaci´on parcial adicional acerca del resultado del experimento. En tal caso dichas probabil-
idades se dicen condicionales (a la informaci´on adicional).
• A´un en situaciones en las cuales no disponemos de tal informaci´on parcial adicional, es frecuente
el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades
deseadas de un modo m´as sencillo.
Para fijar ideas consideremos el ejemplo que sigue.
Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son
equiprobables. Supongamos que se observa adem´as que el primer dado es un 3. Con esta informaci´on
adicional, ¿ cu´al es la probabilidad de que el puntaje total obtenido sea 8 ?
Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado
que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el n´umero que
sale. Sabemos que los posibles resultados de este experimento parcial seran s´olo seis y definir´an un
espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar
estos seis resultados como equiprobables, es decir que podemos definir una probabilidad PH de modo
que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede
pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento
original, definiendo:
• La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6
Prof.J.Gast´on Argeri 22
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 23
• La probabilidad condicional de {(i, j)} como 0 si i = 3. Anotamos P ({(i, j)} |H) = 0 si
i = 3
Por lo tanto, la probabilidad condicional de obtener puntaje total 8 ser´a
P (”se obtiene puntaje 8”|H) = P ({(3, 5)} |H) = 1/6
Ejemplo: M´as generalmente consideremos dos eventos E y H en el contexto de un experimento
aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condici´on que haya
ocurrido H. Intuitivamente lo que podr´ıamos hacer es repetir el experimento un gran n´umero N de
veces y contar en cu´antas de ellas ha ocurrido H, digamos NH veces, y luego contar en cu´antas de
estas NH ha ocurrido tambi´en E, digamos NEH veces. Entonces podr´ıamos considerar el n´umero:
NEH
NH
Equivalentemente, dividiendo numerador y denominador por N se obtiene: NEH/N
NH /N
= fEH
fH
Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la
definici´on siguiente.
Definici´on 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H)  0. Dado un
evento E ∈ Σ se define la probabilidad de E condicional a F como:
P (E|F ) =
P (EF )
P (F )
Ejemplo: Se lanza dos veces una moneda normal. Calculemos:
a) La probabilidad de que ambas salgan cara.
b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara.
Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente
asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales
tiene probabilidad 1/4. Luego:
P (”ambas salen cara”) = P ({CC}) =
1
4
Para responder a b) utilizamos la definici´on de probabilidad condicional. Sean E = ”ambas salen cara” y
H = ”la primera sale cara”. Entonces:
P (E|H) =
P (EF )
P (F )
=
P ({CC})
P ({CC, CS})
=
1/4
1/2
=
1
2
Propiedad 20 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H)  0.
Sea Σ
P (·|H)
−→ R la funci´on que asigna a cada E ∈ Σ el n´umero real P (E|H). Entonces
(Ω, Σ, P (·|H)) es un espacio de probabilidad.
Dem:
La demostraci´on se propone como ejercicio al final del cap´ıtulo
Propiedad 21 Sean Σ una σ-´algebra de subconjuntos de Ω y H ∈ Σ. Sea ΣH la siguiente clase
de subconjuntos de H:
ΣH = {EH : E ∈ Σ}
Entonces ΣH es una σ-´algebra de subconjuntos de H.
Dem:
i) Dado que H ∈ Σ y H = HH resulta H ∈ ΣH
Prof.J.Gast´on Argeri 23
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 24
ii) Supongamos que B ∈ ΣH. Luego, existe cierto E ∈ Σ tal que B = EH. Dado que tanto
E como H son miembros de Σ tambi´en lo es B. Luego, tambi´en Bc ∈ Σ. Entonces el
complemento de B relativo a H es H  B = BcH. Por ende este complemento pertenece a
ΣH, siendo este complemento la intersecci´on entre H y un miembro de Σ.
iii) Sea {Bn} una sucesi´on en ΣH. Luego, existe una sucesi´on {En} en Σ tal que ∀n , Bn =
EnH. Luego:
∞
n=1
Bn =
∞
n=1
EnH =
∞
n=1
En ∩ H
Sea E =
∞
n=1
En. Dado que los En son miembros de Σ resulta E ∈ Σ. Pero como
∞
n=1
Bn = EH resulta que
∞
n=1
Bn ∈ ΣH
Definici´on 7 La σ-´algebra ΣH definida arriba se denomina la relativizaci´on de Σ a H o la
reducci´on de Σ a H.
Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H)  0, la funci´on
Σh
PH
−→ R definida por
PH(B) =
P (B)
P (H)
es una probabilidad sobre (H, ΣH). M´as a´un, se verifica: ∀E ∈ Σ , PH(EH) = P (E|H)
Dem:
La demostraci´on se propone como ejercicio al final del cap´ıtulo
Definici´on 8 Se dice que el espacio de probabilidad (H, ΣH, PH) se ha obtenido reduciendo a H el
espacio de probabilidad (Ω, Σ, P ).
La idea es la siguiente: Calcular en Σ probabilidades condicionalmente a H equivale a calcular en
ΣH probabilidades sin condicionar. En determinados ejemplos es m´as sencillo calcular probabilidades
condicionales por definici´on mientras que en otros es m´as f´acil calcularlas trabajando directamente
sobre el espacio muestral reducido.
Teorema 3 (Regla del producto)
Sea (Ω, Σ, P ) espacio de probabilidad.
i) Si A, B ∈ Σ con P (B)  0 entonces P (AB) = P (A|B) · P (B)
ii) M´as generalmente, dados A1, · · · , An+1 ∈ Σ con P (A1 · · · An)  0 se verifica:
P (A1 · · · An+1) = P (A1) · P (A2|A1) · P (A3|A1A2) · · · · · P (An+1|A1A2 · · · An)
Dem:
Por inducci´on sobre n.
Paso base: n = 1
Este caso corresponde a demostrar i). Sean A1, A2 ∈ Σ con P (A)  0. Se tiene:
Como P (A2|A1) =
P (A1A2)
P (A1)
se deduce P (A1A2) = P (A1)P (A2|A1)
Prof.J.Gast´on Argeri 24
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 25
Hip´otesis inductiva: Suponemos la propiedad v´alida para n
Ahora queremos demostrar que vale para n + 1. Sean A1, · · · , An+2 ∈ Σ. Se tiene:
P (A1A2 · · · An+1
A
An+2
B
) = P (A1 · · · An+1
A
)P (An+2
B
| A1 · · · An+1
A
)
HI
=
HI
= P (A1)P (A2|A1) · · · P (An+1|A1 · · · An)P (An+2|A1 · · · An+1)
Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para
n. Luego, por inducci´on es v´alida para todo n ∈ N
Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente
experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo
color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo
color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas
rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la
composici´on de la urna de extracci´on, es adecuado condicionar una extracci´on a los resultados de las
extracciones previas.
Definamos Ri = ”la i-´esima extracci´on resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretende-
mos calcular es precisamente P (R1R2R3). Planteamos la regla del producto:
P (R1R2R3) = P (R1)P (R2|R1)P (R3|R1R2)
Por la composici´on inicial de la urna es claro que
P (R1) =
r
r + b
Por la composici´on de la urna inmediatamente luego que ha ocurrido R1 es claro que
P (R2|R1) =
r + c
r + c + b
Por la composici´on de la urna inmediatamente luego que han ocurrido R1, R2 se tiene an´alogamente
P (R3|R1R2) =
r + 2c
r + 2c + b
Por lo tanto:
P (R1R2R3) =
r
r + b
·
r + c
r + c + b
·
r + 2c
r + 2c + b
Definici´on 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesi´on {An} en Σ se dice una
partici´on de Ω sii se verifican:
i) ∀n ∈ N , P (An)  0
ii) Ω =
∞
n=1
An
iii) ∀n, n ∈ N , n = m ⇒ An ∩ Am = ∅
Ejemplo: Consideremos un espacio de equiprobabilidad Ω = {1, 2, · · · , 12}. Es decir: ∀i ∈
Ω , P ({i}) = 1/n  0. Una posible partici´on de Ω es {A1, A2, A3} donde
A1 = {1, 3, 5, 7, 9, 11} ; A2 = {6, 12} ; A3 = {2, 4, 8, 10}
Prof.J.Gast´on Argeri 25
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 26
Teorema 4 (Teorema de la probabilidad total)
Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn} una partici´on de Ω. Entonces para cualquier
B ∈ Σ se verifica:
P (B) =
∞
n=1
P (B|Hn)P (Hn)
Dem:
Dado que {Hn} es una partici´on de Ω, sabemos que
∞
n=1
An = Ω. Por lo tanto
B = B ∩ Ω = B ∩
∞
n=1
Hn =
∞
n=1
BHn
Adem´as esta uni´on es disjunta dos a dos:
n = m ⇒ (BHn)(BHm) = BHnHm = B∅ = ∅
Luego:
P (B) =
∞
n=1
P (BHn)
Pero como ∀n ∈ N , P (Hn)  0 podemos escribir P (BHn) = P (B|Hn)P (Hn). Entonces:
P (B) =
∞
n=1
P (BHn) =
∞
n=1
P (B|Hn)P (Hn)
Nota: El teorema de la probabilidad total es tambi´en v´alido para particiones finitas.
Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2.
Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U1 que contiene
r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna
U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una
bolilla roja.
La composici´on de la urna de la que se extrae la bolilla depende de la primera etapa del experimento
(extracci´on de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera
etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1, F2} es claramente una
partici´on de Ω. Definamos tambi´en R = ”sale bolilla roja”. Por lo tanto:
P (R) =
2
n=1
P (R|Fn)P (Fn) = P (R|F1)P (F1) + P (R|F2)P (F2)
Es claro que
P (F1) = n1
n1+n2
; P (F2) = n2
n1+n2
Tambi´en es claro que:
P (R|F1) = r1
r1+b1
; P (R|F2) = r2
r2+b2
Por lo tanto:
P (R) =
r1
r1 + b1
·
n1
n1 + n2
+
r2
r2 + b2
·
n2
n1 + n2
Teorema 5 (Regla de Bayes)
Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn} una partici´on de Ω. Para cualquier B ∈ Σ tal
que P (B)  0 y para cualquier j ∈ N se verifica:
P (Hj|B) =
P (B|Hj)P (Hj)
∞
n=1
P (B|Hn)P (Hn)
Prof.J.Gast´on Argeri 26
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 27
Dem:
Se tiene:
P (Hj|B) =
P (BHj)
P (B)
=
P (B|Hj)P (Hj)
∞
n=1
P (B|Hn)P (Hn)
Nota: La regla de Bayes tambi´en es v´alida para particiones finitas.
Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 est´an numeradas con
”1”, n2 est´an numeradas con ”2” y n3 est´an numeradas con ”3”. Se dispone adem´as de tres urnas
U1, U2, U3. La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al
azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo
n´umero que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cu´al es la probabilidad de
que haya provenido de la urna U2 ?
Sean
Fi = ”sale ficha i” ; i = 1, 2, 3
R = ”sale bolilla roja” y B = ”sale bolilla blanca”
Se pretende calcular P (F2|R). Ac´a se quiere averiguar la probabilidad de un evento que ocurri´o
en una etapa previa del experimento basados en infromaci´on de una etapa posterior. Es natural
entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que
{F1, F2, F3} es una partici´on de Ω. Entonces:
P (F2|R) = P (R|F2)P (F2)
P (R|F1)P (F1)+P (R|F2)P (F2)+P (R|F3)P (F3)
=
=
r2
r2+b2
·
n2
n1+n2+n3
r1
r1+b1
·
n1
n1+n2+n3
+
r2
r2+b2
·
n2
n1+n2+n3
+
r3
r3+b3
·
n3
n1+n2+n3
=
=
r2n2
r2+b2
r1n1
r1+b1
+
r2n2
r2+b2
+
r3n3
r3+b3
Ejemplo: Un procedimiento llamado fluoroscop´ıa card´ıaca (FC) se utiliza para determinar si existe
calcificaci´on en las arterias coronarias. El test permite detectar si hay 0,1,2,´o 3 arterias coronarias
calcificadas. Anotemos:
T +
i : la FC detecta i arterias calcificadas (i = 0, 1, 2, 3)
D+ : hay enfermedad coronaria ; D− : no hay enfermedad coronaria
Supongamos que se conocen los datos de la siguiente tabla
i P (T +
i |D+) P (T +
i |D−)
0 0.41 0.96
1 0.24 0.02
2 0.20 0.02
3 0.15 0.00
a) Si P (D+) = 0.05 calcular P (D+|T +
i ) para i = 0, 1, 2, 3
b) Si P (D+) = 0.92 calcular P (D+|T +
i ) para i = 0, 1, 2, 3
En ambos casos el c´alculo se reduce a utilizar la regla de Bayes:
P (D+
|T +
i ) =
P (T +
i |D+)P (D+)
P (T +
i |D+)P (D+) + P (T +
i |D−)P (D−)
Prof.J.Gast´on Argeri 27
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 28
donde P (D−) = 1 − P (D+)
Se obtienen los resultados siguientes:
i P (D+|T +
i ) cuando P (D+) = 0.05 P (D+|T +
i ) cuando P (D+) = 0.92
0 0.022 0.831
1 0.387 0.993
2 0.345 0.991
3 1.000 1.000
15 Independencia estoc´astica
Sean A, B eventos con P (A)  0 y P (B)  0. Intuitivamente podemos decir que dichos eventos
son independientes (entre s´ı) si el hecho que ocurra A no influye sobre la chance de ocurrir B y
rec´ıprocamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la
ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva
diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando
mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional
de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente
definici´on.
Definici´on 10 Los eventos A y B se dicen independientes sii P (AB) = P (A) · P (B)
Nota: No debe confundirse la noci´on de independencia con la de eventos excluyentes. De hecho, si
A y B son mutuamente excluyentes y si P (A)  0 y P (B)  0, entonces A y B distan mucho
de ser independientes pues P (AB) = P (∅) = 0 = P (A)P (B)
Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos
A : ”sale un as” ; C : ”sale una carta de corazones”
Analicemos la independencia entre ellos:
P (A) = 4
52
P (C) = 13
52
P (AC) = 1
52
P (AC) = 1
52
= 4
52
· 13
52
= P (A)P (C)
Por lo tanto A y C son independientes.
Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos
A : ”puntaje total 6” ; B : ”el dado rojo sale 4”
Analicemos la independencia entre ellos:
P (A) = 5
36
P (B) = 1
6
P (AB) = 1
36
P (AB) = 1
36
= 5
36
· 1
36
= P (A)P (B)
Por lo tanto A y C no son independientes.
Propiedad 23 Los eventos A y B son independientes sii los eventos A y B son independientes
Dem:
⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces:
P (AB ) = P (AB) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B )
Prof.J.Gast´on Argeri 28
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 29
Luego, A y B son independientes.
⇐) Si ahora suponemos A y B independientes, podemos aplicarles la parte ⇒) ya demostrada.
Se deduce que A y (B ) = B son independientes
Corolario 3 Los eventos A y B son independientes sii A y B son independientes
Generalicemos la noci´on de independencia a tres eventos A, B, C. Imaginemos que C represente la
presencia de cierta enfermedad y que A y B representen la presencia de dos s´ıntomas cl´ınicos.
Supongamos que dichos s´ıntomas se presentan independientemente (que un paciente presente un
s´ıntoma no lo hace m´as ni menos proclive a presentar el otro s´ıntoma). Supongamos tambi´en que
A y C sean independientes y que B y C sean independientes. Podr´ıa sin embargo ocurrir
que la presencia simult´anea de ambos s´ıntomas s´ı aumentara (o disminuyera) la chance de tener la
enfermedad. En tal caso los eventos AB y C no ser´ıan independientes. Esto motiva la siguientes
definici´on.
Definici´on 11 Los eventos A, B, C se dicen independientes sii se verifican
P (AB) = P (A)P (B) , P (AC) = P (A)P (C) , P (BC) = P (B)P (C)
P (ABC) = P (A)P (B)P (C)
Ejemplo: Sea Ω = {1, 2, 3, 4} un espacio de equiprobabilidad. Definamos los eventos:
A = {1, 4} , B = {2, 4} , C = {3, 4}
Entonces:
P (A) = 1
2
, P (B) = 1
2
, P (C) = 1
2
P (AB) = 1
4
= P (A)P (B) , P (AC) = 1
4
= P (A)P (C) , P (BC) = 1
4
= P (B)P (C)
P (ABC) = 1
4
= 1
8
= P (A)P (B)P (C)
Luego A, B, C no son independientes.
Ejemplo: Sea Ω = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Definamos los eventos:
A = {1, 2, 3, 4} , B = {1, 2, 7, 8} , C = {1, 5, 6, 7}
Entonces:
P (A) = 1
2
, P (B) = 1
2
, P (C) = 1
2
P (AB) = 1
4
= P (A)P (B) , P (BC) = 1
4
= P (B)P (C) , P (AC) = 1
8
= 1
4
= P (A)P (C)
P (ABC) = 1
8
= P (A)P (B)P (C)
Luego A, B, C no son independientes.
Definici´on 12 Se dice que los eventos A1, · · · , An son independientes sii para cualquier secuencia
estrictamente creciente 1 ≤ i1  · · ·  ir ≤ n de enteros, se verifica
P (Ai1 · · · Air ) =
r
j=1
P (Aij )
Prof.J.Gast´on Argeri 29
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 30
Nota: Vemos que en general es necesario verificar n
2
+ n
3
+ · · · + n
n
= 2n − (n + 1) condiciones
para asegurar la independencia de n eventos.
Propiedad 24 Supongamos que A1, · · · , An son independientes. Sean B1, · · · , Bn eventos tales
que
Bi = Ai ´o Bi = Ai (i = 1, · · · , n)
Entonces B1, · · · , Bn son independientes.
Prof.J.Gast´on Argeri 30
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 31
Variables aleatorias - Distribuciones de probabilidad
16 Funciones
Sea Ω
X
→ C una funci´on. Recordemos que esto significa que X establece una correspondencia entre
elementos de Ω y elementos de C con la caracter´ıstica que a cada elemento de Ω le asigna uno y s´olo
un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos
que c es el valor de X en ω o la imagen de ω por X, situaci´on que se anota X(ω) = c.
El conjunto Ω se denomina dominio de la funci´on y suele anotarse Dom(X). La imagen o rango (o
a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por
todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como RX. Es decir:
RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)}
Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de
Ω cuyas im´agenes por X pertenecen a B. Si anotamos X−1(B) a la imagen inversa de B por
X esta definici´on establece que
X−1
(B) = {ω ∈ Ω : X(ω) ∈ B}
Ejemplo: Sea R
X
→ R dada por X(t) = t2. En este caso la imagen o rango de X es RX = [0, ∞).
Por otra parte:
X−1 ({4}) = {2, −2} , X−1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞)
X−1 ({0}) = {0} , X−1 ({0, 2, 4, 7}) = 0, ±
√
2, ±2, ±
√
7
X−1 ((−∞, 0)) = ∅ , X−1 (R) = R
Ejemplo: Sea {ω1, ω2, ω3, ω4}
X
→ R dada mediante la siguiente tabla de valores:
ω X(ω)
ω1 2
ω2 1
ω3 1
ω4 0
Entonces por ejemplo:
X−1 ({2}) = {ω1} X−1 ({1}) = {ω2, ω3}
X−1 ({0}) = {ω4} X−1 ((−∞, 0]) = {ω4}
X−1 ((−∞, 1]) = {ω2, ω3, ω4} X−1 ((−∞, −1]) = ∅
Dado A ⊆ R se denomina funci´on indicadora o funci´on caracter´ıstica de A a la funci´on IA : R →
R dada por
IA(x) =



1 si x ∈ A
0 si x ∈ A
17 Variables aleatorias y funciones de distribuci´on
Cuando se realiza un experimento aleatorio existen diversas caracter´ısticas observables o medibles. No
obstante ello, generalmente el experimentador centra su inter´es en algunas de estas caracter´ısticas. Por
ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podr´ıamos interesarnos en las
siguientes caracter´ısticas: ”cantidad de dados que salen 3”, ”puntaje total obtenido”, ”m´ınimo n´umero
obtenido”,etc. Cada una de estas caracter´ısticas relaciona cada posible resultado del experimento
con un n´umero real. As´ı por ejemplo podemos considerar que ”puntaje total obtenido” relaciona el
resultado ω = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el n´umero real 1+5+4+3+4+6+5+1+2+2 = 33.
Esto motiva la siguiente definici´on.
Prof.J.Gast´on Argeri 31
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 32
Definici´on 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (Ω, Σ, P ) a
toda funci´on X : Ω → R con la siguiente propiedad:
∀a ∈ R , X−1
((−∞, a]) ∈ Σ (2)
Las variables aleatorias suelen designarse mediante las ´ultimas letras del abecedario y en may´usculas:
· · · , P, · · · , X, Y, Z. Tambi´en se las designa mediante alguna de estas letras junto con uno o m´as
sub´ındices, por ejemplo: X1, X2, S12
Nota: Dados un n´umero real a y una variables aleatoria X, puesto que seg´un la definici´on X es
una funci´on de Ω en R, tiene sentido calcular la imagen inversa de B = (−∞, a] por X, que es
precisamente:
X−1
((−∞, a]) = {ω ∈ Ω : X(ω) ∈ (−∞, a]} = {ω ∈ Ω : X(ω) ≤ a}
En el contexto de variables aleatorias es frecuente una notaci´on alternativa y mucho m´as frecuente
para las im´agenes inversas por X. En general, para B ⊆ R la imagen inversa de B por X se anota
tambi´en {X ∈ B}. Es decir:
{X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X−1
(B)
Por lo tanto la definici´on establece que una funci´on X : Ω → R es una variable aleatoria sobre
(Ω, Σ, P ) sii se cumple
∀x ∈ R , {X ≤ x} ∈ Σ
Tengamos presente que cuando el espacio de probabilidad es finito (es decir cuando #(Ω) es finito)
y Σ = P(Ω) es la σ-´algebra de todos los subconjuntos de Ω, entonces la condici´on (2) es superflua
puesto que se satisface autom´aticamente. Lo mismo ocurre cuando Ω = {ω1, ω2, · · · } es infinito
numerable y cada {ωn} ∈ Σ puesto que:
{X ≤ x} = {ωn : X(ωn) ≤ x} =
∞
n=1
X(ωn)≤x
{ωn}
Siendo la uni´on a lo sumo numerable y cada {ω} ∈ Σ se deduce que {X ≤ x} ∈ Σ.
Luego, en los casos donde el espacio de probabilidad es discreto, la noci´on de variable aleatoria coincide
con la de funci´on X : Ω → R.
Definici´on 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es
discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1.
Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta
tomar A = Ω.
Propiedad 25 Dada una v.a. discreta X existe un m´ınimo A ∈ Σ con la propiedad que P (X ∈
A) = 1
Dem:
Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos
SX = {x ∈ R : P (X = x)  0}. Entonces:
A = SX (A  SX)
de manera que 1 = PX(A) = PX(SX) + PX(A  SX). Mostraremos que PX(A  SX) = 0. En
efecto: Anotemos B = A  SX. En primer lugar, como B ⊆ Sc
X resulta ∀x ∈ B , PX ({x}) = 0.
Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego:
PX(B) = PX
x∈B
{x} =
x∈B
PX ({x}) = 0
Prof.J.Gast´on Argeri 32
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 33
Es decir que hemos demostrado que si A es a lo sumo numerable y P (X ∈ A) = 1 entonces
P (A  SX) = 0
En particular: PX(SX) = 1. Es decir P (X ∈ SX) = 1.
Supongamos ahora que SX ⊆ A. Entonces existir´ıa xo ∈ SX con xo ∈ A. Luego: P (X = xo) 
0. Entonces PX(X ∈ A {xo}) = PX(A) + P (X = xo)  PX(A) = 1. Absurdo. Entonces
necesariamente es SX ⊆ A. Esto demuestra que:
P (X ∈ SX) = 1
Si A es a lo sumo numerable y P (X ∈ A) = 1 entonces SX ⊆ A
Por lo tanto SX es el m´ınimo conjunto buscado
Definici´on 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o
simplemente rango) de X al m´ınimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X.
Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”du-
raci´on”, etc, es de esperar que dichas variables aleatorias no est´en restringidas a un rango a lo sumo
numerable. Una posible clasificaci´on de las variables aleatorias es la siguiente:
variables aleatorias



discretas
continuas
mixtas
Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas
que poseen una ”densidad” (concepto que precisaremos m´as adelante). Las mixtas son aquellas que
ni son discretas ni son continuas.
Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso
Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω).
Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango RX = N. Para
familiarizarnos con la notaci´on de imagen inversa vemos como ejemplo que:
{X ≤ 0} = ∅ , {X ≤ 5} = {C, SC, SSC, SSSC, SSSSC}
Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X =
”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso:
{X ≤ x} =



∅ si x  0
{S} si 0 ≤ x  1
{C, S} si x ≥ 1
Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un
punto fijo xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad  0 (el radio de
la bola). Es decir
B (xo) = {x ∈ Rn
: x − xo  }
Un subconjunto A ⊆ Rn se dice abierto sii para cada x = (x1, · · · , xn) ∈ A existe al menos una
n−bola abierta en Rn centrada en x y completamente contenida en A. Formalmente: A ⊆ Rn es
abierto sii se verifica
∀x ∈ A , ∃  0 , ∀y ∈ Rn
, y − x  ⇒ y ∈ A
Definici´on 16 Se denomina σ-´algebra de Borel en R a la m´ınima σ-´algebra de subconjuntos de
R que contiene a todos los conjuntos de la forma (−∞, x] con x ∈ R. Anotaremos B a esta
σ-´algebra de subconjuntos de R.
Prof.J.Gast´on Argeri 33
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 34
Propiedad 26 Dada una variable aleatoria discreta X, se verifica:
∀B ∈ B , P (X ∈ B) =
x∈B∩RX
P (X = x)
Dem:
Como B = (B ∩ RX) B ∩ Rc
X se deduce que:
PX(B) = PX(B ∩ RX) + PX(B ∩ Rc
X)
Pero como PX(RX) = 1 entonces PX(Rc
X) = 0. Luego: PX(B ∩ Rc
X) = 0, de manera que
PX(B) = PX(B ∩ RX) =
x∈B∩RX
P (X = x)
Definici´on 17 Sea (Ω, Σ, P ) un espacio de probabilidad. Consideremos una variable aleatoria
X : Ω → R. La funci´on PX : B → R dada por E −→ P (X ∈ E) se denomina funci´on de
distribuci´on de X.
Propiedad 27 La funci´on de distribuci´on PX de una variable aleatoria X es una funci´on de
probabilidad sobre (R, B).
Dem: En lo que sigue B, Bn ∈ B
PX(R) = P (X ∈ R) = P (Ω) = 1
PX(B) = P (X ∈ B) ≥ 0 pues P es una probabilidad y {X ∈ B} ∈ Σ
Supongamos {Bn} sucesi´on en B, tal que n = m ⇒ Bn ∩ Bm = ∅. Entonces:
PX
∞
n=1
Bn = P X ∈
∞
n=1
Bn = P X−1
∞
n=1
Bn =
= P
∞
n=1
X−1(Bn) =
∞
n=1
P X−1(Bn) =
∞
n=1
P (X ∈ Bn)
puesto que los eventos {X ∈ Bn} son disjuntos dos a dos.
Definici´on 18 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.
Se dice que X e Y son equidistribuidas o id´enticamente distribuidas sii ambas poseen la misma
funci´on de distribuci´on, i.e. ∀B ∈ B , PX(B) = PY (B)
Nota: El hecho de ser X e Y equidistribuidas no significa que sean iguales. Esto se ver´a m´as
adelante. Ejemplo: Un fabricante produce un art´ıculo en dos variedades A y B. Desea recabar
informaci´on acerca de la preferencia de los consumidores. Para ello seleccionar´a al azar 30 clientes a
quienes se les preguntar´a si prefieren A o B. Se trata de un experimento aleatorio en el cual el espacio
muestral Ω puede definirse como el conjunto de todas las 30-uplas de 1’s y/o 0’s, donde un 1 en la
i-´esima coordenada de la 30-upla indica que el i-´esimo cliente encuestado prefiere la variedad A sobre
la B. Supongamos que estos 230 posibles resultados de la encuesta sean equiprobables. Consideremos
X = ”cantidad de consumidores que prefieren A”. Se tiene RX = {0, 1, · · · , 30}. Calculemos para
cada 0 ≤ k ≤ 30, las probabilidades siguientes:
P (X = k) = #{X=k}
#(Ω)
=
(30
k )
230
(k = 0, 1, · · · , 30)
P (X ≤ k) =
k
j=0
P (X = j)
Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente
sobre el eje de ordenadas:
Prof.J.Gast´on Argeri 34
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 35
k
P(X=k)
0 5 10 15 20 25 30
0.00.020.040.060.080.100.120.14
kP(X=k)
0 5 10 15 20 25 30
0.00.20.40.60.81.0
Definici´on 19 Dada una variable aleatoria X : Ω → R se denomina funci´on de distribuci´on
acumulada (fda) de X a la funci´on designada FX y definida por:
FX : R → R dada por FX(x) = P (X ≤ x)
Nota: Para indicar que la variable aleatoria posee fda F anotamos X ∼ F .
Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces
RX = {0, 1, 2, 3}. La funci´on de distribuci´on acumulada de X es
FX(x) =



0 si x  0
1/8 si 0 ≤ x  1
1/2 si 1 ≤ x  2
7/8 si 2 ≤ x  3
1 si x ≤ 3
Distribucion binomial acumulada
x
F(x)
-1 0 1 2 3 4
0.00.20.40.60.81.0
)
)
)
)
Prof.J.Gast´on Argeri 35
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 36
Ejemplo: Se arroja una moneda normal hasta que sale cara.
Sea X = ”cantidad de lanzamientos antes que salga cara”. Se tiene RX = {0, 1, 2, 3, · · · }. La fda
de X es:
FX(x) =



0 si x  0
1/2 si 0 ≤ x  1
1/2 + 1/4 si 1 ≤ x  2
1/2 + 1/4 + 1/8 si 2 ≤ x  3
...
...
...
k+1
i=1
1
2
i
si k ≤ x  k + 1
...
...
...
Propiedad 28 Sea X una variable aleatoria con funci´on de distribuci´on acumulada FX. Se cumple:
i) ∀x ∈ R , 0 ≤ FX(x) ≤ 1
ii) FX es no decreciente, es decir: ∀x, y ∈ R , x  y ⇒ FX(x) ≤ FX(y)
iii) FX es continua por la derecha, es decir: ∀x ∈ R , lim
t → x+
FX(t) = FX(x)
iv) lim
x →−∞
FX(x) = 0 y lim
x →∞
FX(x) = 1
Dem:
i) Evidente pues FX(x) = P (X ≤ x) es una probabilidad.
ii) Sean x, y ∈ R con x  y. Entonces {X ≤ x} ⊆ {X ≤ y}. Por lo tanto FX(x) =
P (X ≤ x) ≤ P (X ≤ y) = FX(y)
iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim
t → x+
FX(t) existe (es finito). Como
x + 1
n
es una sucesi´on de t´erminos a la derecha de x y tal que lim
n →∞
x + 1
n
= x, en-
tonces lim
t → x+
FX(t) = lim
n →∞
FX x + 1
n
. Pero: {X ≤ x} =
∞
n=1
X ≤ x + 1
n
. Como esta
intersecci´on es decreciente, pues X ≤ x + 1
n+1
⊆ X ≤ x + 1
n
, entonces por propiedad
de una funci´on de probabilidad es P (X ≤ x) = lim
n →∞
P X ≤ x + 1
n
. Luego:
FX(x) = P (X ≤ x) = lim
n →∞
P X ≤ x +
1
n
= lim
n →∞
FX x +
1
n
= lim
t → x+
FX(t)
iv) Dado que Ω = {X ∈ R} =
∞
n=1
{X ≤ n} y siendo la uni´on creciente, por propiedad de una
funci´on de probabilidad se tiene lim
n →∞
FX(n) = lim
n →∞
P (X ≤ n) = P (Ω) = 1. Pero siendo
FX no decreciente y acotada resulta lim
x →∞
FX(x) = lim
n →∞
FX(n). Entonces:
lim
x →∞
FX(x) = lim
n →∞
FX(n) = 1
La demostraci´on del otro l´ımite es an´aloga y queda a cargo de ustedes.
Teorema 6 Sea F : R → R una funci´on. Se cumple:
F satisface las propiedades siguientes:
i) F es no decreciente en R.
Prof.J.Gast´on Argeri 36
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 37
ii) F es continua a derecha en R
iii) lim
x →−∞
F (x) = 0 y lim
x →∞
F (x) = 1
si y s´olo si F es la funci´on de distribuci´on de probabilidad acumulada de cierta variable aleatoria.
Dem: ⇐) Ya se demostr´o (Prop. anterior)
⇒) La demostraci´on excede el alcance y los objetivos de este curso de modo que la omitimos. S´olo
comentar´e que es necesario demostrar que existe cierto espacio de probabilidad (Ω, Σ, P ) y cierta
variable aleatoria X en dicho espacio, tal que FX = F
Ejemplo: Consideremos la funci´on
F (x) =
1 − e− x si x ≥ 0
0 si x  0
El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto
espacio de probabilidad) tal que F = FX. En efecto:
F es no decreciente.
F es continua a derecha en R. De hecho F continua en R
Se tiene
lim
x →−∞
F (x) = lim
x →−∞
0 = 0 y lim
x →∞
F (x) = lim
x →∞
1 − e− x
= 1
La gr´afica de F tiene el siguiente aspecto:
x
F(x)
-2 0 2 4 6 8 10
0.00.20.40.60.81.0
Propiedad 29 Sean X una variable aleatoria, xo ∈ R. Se cumple:
i) FX(xo) − FX(xo−) = P (X = xo)
ii) FX es continua a izquierda en xo sii P (X = xo) = 0
iii) FX posee una cantidad a lo sumo numerable de discontinuidades.
Prof.J.Gast´on Argeri 37
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 38
Dem:
i) Utilizando las propiedades de continuidad de una probabilidad resulta:
FX(xo−) = lim
x → xo−
FX(x) = lim
x → xo−
P (X ≤ x) = lim
n →∞
P (X ≤ xo − 1/n) =
= P
∞
n=1
{X ≤ xo − 1/n} = P (X  xo)
Por lo tanto: P (X = xo) = P (X ≤ xo) − P (X  xo) = FX(xo) − FX(xo−)
ii) Evidente a partir de i).
iii) Si FX es discontinua en xo entonces P (X = xo)  0. Anotemos A = {x0 ∈ R : P (X = xo)  0}.
Queremos ver que A es a lo sumo numerable. Pero:
A =
∞
k=1
Ak donde Ak = {x0 ∈ R : P (X = xo)  1/k}
Bastar´a entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal
que Ak fuera infinito. Entonces existir´ıa una sucesi´on de t´erminos todos distintos {xn} tal que
∀n , xn ∈ Ak. Luego:
P (A) ≥ P
∞
n=1
{xn} =
∞
n=1
P ({xn}) = ∞
dado que la serie posee t´ermino general que no tiende a cero. Absurdo. Luego los Ak son todos
finitos, con lo cual A es a lo sumo numerable
Propiedad 30 Sea X una variable aleatoria y sea FX su fda. Dados a, b ∈ R , a ≤ b, se cumple:
i) P (a  X ≤ b) = FX(b) − FX(a)
ii) P (a ≤ X ≤ b) = FX(b) − FX(a−)
iii) P (a  X  b) = FX(b−) − FX(a)
iv) P (a ≤ X  b) = FX(b−) − FX(a−)
Dem:
Demostremos i):
{a  X ≤ b} = {X ≤ b}  {X ≤ a}
Entonces
P (a  X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX(b) − FX(a)
Definici´on 20 Para n ∈ N, se denomina sucesi´on de n ensayos de Bernoulli a todo experimento
aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones:
• Las n repeticiones son independientes entre s´ı.
• Cada ensayo tiene s´olo dos posibles resultados, digamos E (”´exito”) y F (”fracaso”).
• La probabilidad de E es la misma en cada uno de los n ensayos.
Prof.J.Gast´on Argeri 38
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 39
Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que
p+q = 1, es decir q = 1−p. El espacio muestral asociado a una sucesi´on de n ensayos de Bernoulli
es Ω = {(ω1, · · · , ωn) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. As´ı, el experimento consta de 2n posibles
resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De
hecho:
P ({ω}) = pr
· qn−r
sii ω posee exactamente r ´exitos
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo
que F = ”no sale 3”. Se trata de una sucesi´on de n = 5 ensayos de Bernoulli con probabilidad de
´exito p = 1/6 en cada ensayo. Entonces, por ejemplo:
P ({(3, 1, 1, 3, 6)}) =
1
6
2
·
5
6
3
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale m´ultiplo de 3”,
de modo que F = ”no sale m´ultiplo de 3”. Se trata de una sucesi´on de n = 5 ensayos de Bernoulli
con probabilidad de ´exito p = 1/3 en cada ensayo. Entonces, por ejemplo:
P ({(3, 1, 1, 3, 6)}) =
1
3
3
·
2
3
2
Ejemplo: Dada un sucesi´on de n ensayos de Bernoulli, con probabilidad de ´exito p en cada ensayo,
sea X = ”cantidad de ´exitos en los n ensayos”. Esta variable aleatoria tiene RX = {0, 1, 2, · · · , n}.
El evento {X = k} estar´a formado por todos aquellos resultados elementales que consten exac-
tamente de k ”´exitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad
individual pk(1 − p)n−k, para calcular la probabilidad de {X = k} bastar´a multiplicar dicha
probabilidad individual por la cantidad total de resultados elementales que consten de exactamente
k ”´exitos” y n − k ”fracasos”, es decir n
k
. Entonces se tiene: P (X = k) = n
k
pk(1 − p)n−k
(k = 0, 1, · · · , n)
Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”´exito” y ”fracaso”, donde la
probabilidad de ”´exito” es 0  p  1. Nuestro experimento aleatorio consiste en repetir el ensayo en
forma independiente hasta obtener el primer ”´exito”. El espacio muestral puede representarse como
Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho:
P





F · · · F
k
E




 = (1 − p)k
p
Sea X = ”cantidad de ensayos hasta obtener ´exito”, de modo que RX = N. Se tiene: P (X = k) =
(1 − p)k−1p , k = 1, 2, · · · Hallemos la fda de la variable aleatoria X. Para x ≥ 0 se tiene:
FX(x) = P (X ≤ x) =
[x]
k=1
(1 − p)k−1
p = p ·
1 − q[x]
1 − q
= 1 − q[x]
donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por
ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces:
FX(x) =
0 si x  1
1 − q[x] si x ≥ 1
Definici´on 21 Dada una variable aleatoria X se denomina funci´on de probabilidad puntual o funci´on
de masa de probabilidad (fmp) de X a la funci´on
pX : R → R dada por pX(x) = P (X = x)
Prof.J.Gast´on Argeri 39
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 40
Nota: Cuando la variable aleatoria X es discreta, con rango RX = {xn}, la fmp pX de
X queda un´ıvocamente determinada conociendo los valores pn = pX(xn). Por este motivo nos
referiremos indistintamente a pX o a {pn} cuando X sea discreta. Ejemplo: Consideremos
una sucesi´on de n ensayos de Bernoulli con probabilidad de ´exito p en cada ensayo. Sea X =
”cantidad de ´exitos en los n ensayos”. En este caso RX = {0, 1, · · · , n}. La fmp de X es:
pX(x) =
n
x
px(1 − p)n−x si x ∈ {0, 1, · · · , n}
0 si x ∈ {0, 1, · · · , n}
Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4
p=0.5
x
fdp(x)
0 2 4 6 8 10
0.00.050.100.150.200.250.30
p=0.25
x
fdp(x)
0 2 4 6 8 10
0.00.050.100.150.200.250.30
Propiedad 31 Para toda variable aleatoria X se cumple: ∀x ∈ R , pX(x) = FX(x) − FX(x−)
Dem: Podemos escribir {X  x} =
∞
n=1
X ≤ x − 1
n
. Esta uni´on es creciente de manera que
por propiedades de las funciones de probabilidad vale: P (X  x) = lim
n →∞
P X ≤ x − 1
n
=
lim
n →∞
FX x − 1
n
= FX(x−). Entonces pX(x) = P (X = x) = P (X ≤ x) − P (X  x) =
FX(x) − FX(x−)
Nota: Obs´ervese que FX(xo)−FX(xo−) representa el valor del ”salto” de la fda de X en el punto
x = xo. Cuando FX es continua en xo entonces no hay salto all´ı y en consecuencia la fmp de X es
nula en x = xo.
Propiedad 32 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.
Se verifica: X e Y son id´enticamente distribuidas sii ∀x ∈ R , FX(x) = FY (x)
Dem: ⇒) Supongamos X e Y id´enticamente distribuidas. Sea x ∈ R arbitrario. Entonces
(−∞, x] ∈ B de modo que FX(x) = P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) = FY (x). Luego,
X e Y poseen la misma fda.
⇐) Supongamos que FX = FY . Consideremos la clase G de todos los miembros de B donde
PX coincide con PY , es decir:
G = {B ∈ B : PX(B) = PY (B)} = {B ∈ B : P (X ∈ B) = P (Y ∈ B)}
Prof.J.Gast´on Argeri 40
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 41
Por construcci´on es G ⊆ B. Adem´as por hip´otesis, tomando B = (−∞, x] se tiene PX(B) =
FX(x) = FY (x) = PY (B), de modo que G contiene a todos los subconjuntos de R de la forma
(−∞, x] con x ∈ R. Pero dado que B es la m´ınima σ-´algebra de subconjuntos de R que contiene
a todos los conjuntos de la forma (−∞, x], resulta G ⊇ B. Por lo tanto: G = B. Esto significa que
∀B ∈ B , PX(B) = PY (B)
Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y =
”cantidad de cecas obtenidas”. Veamos que X e Y son id´enticamente distribuidas. En efecto, dado
que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene:
FX(x) =
[x]
k=0
3
k
1
2
3
= FY (x)
Observemos, de paso, que X = Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que
Y (ω) = 1
Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn}. La fmp de X verifica
las propiedades siguientes:
i) ∀x ∈ R , pX(x) ≥ 0
ii)
∞
n=1
pX(xn) = 1
Dem:
Ω = {X ∈ RX} =
∞
n=1
{X = xn} siendo la uni´on disjunta. Por lo tanto: 1 = P (Ω) =
∞
n=1
P ({X = xn}) =
∞
n=1
pX(xn)
Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn}. La fmp de X determina
un´ıvocamente su fda. En efecto:
FX(x) = P (X ≤ x) = P



∞
n=1
xn≤x
{X = xn}


 =
∞
n=1
xn≤x
P (X = xn) =
∞
n=1
xn≤x
pX(xn)
Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”n´umero del dado i” (i =
1, 2). Sea X = ”m´aximo n´umero en los dos dados”. Es decir: X = max {X1, X2}. Hallemos la
fmp y la fda de X.
Hallemos primeramente las fmp de X1 y X2. Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por
equiprobabilidad vale:
pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6)
Por lo tanto:
FX1 (x) = FX2 (x) =
6
k=1
k≤x
1
6
=
[x]
6
Observemos ahora que
{X ≤ x} = {X1 ≤ x} ∩ {X2 ≤ x}
Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos:
FX(x) = P (X ≤ x) = P ({X1 ≤ x} ∩ {X2 ≤ x}) =
= P (X1 ≤ x)P (X2 ≤ x) = FX1 (x)FX2 (x) = [x]
6
2
= [x]2
36
Prof.J.Gast´on Argeri 41
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 42
Luego, para k = 1, 2, · · · , 6 se tiene:
pX(k) = P (X ≤ k) − P (X ≤ k − 1) = FX(k) − FX(k − 1) =
k2 − (k − 1)2
36
=
2k − 1
36
Generalicemos esta situaci´on para el experimento que consiste en arrojar una dado normal n-veces.
Definamos:
Xi = ”n´umero obtenido en el i-´esimo lanzamiento”
X = ”m´aximo n´umero obtenido en los n lanzamientos”
Como antes: {X ≤ k} =
n
i=1
{Xi ≤ k} Por lo tanto, teniendo en cuenta la independencia de los
n lanzamientos, resulta:
P (X ≤ x) = P
n
i=1
{Xi ≤ x} =
n
i=1
P (Xi ≤ x) =
=
n
i=1
FXi (x) =
n
i=1
[x]
6
= [x]
6
n
Luego, para k = 1, 2, · · · , 6 se tiene:
pX(k) = FX(k) − FX(k − 1) =
k
6
n
−
k − 1
6
n
=
kn − (k − 1)n
6n
La propiedad anterior no es v´alida para variables aleatorias no discretas. De hecho, existen fda que son
funciones continuas en todo R. Si X una tal variable aleatoria entonces ∀x ∈ R , FX(x) = FX(x−).
Por lo tanto:
P (X = x) = P (X ≤ x) − P (X  x) = FX(x) − FX(x−) = 0
Es decir, para variables aleatorias continuas la fmp carece por completo de inter´es dado que es
id´enticamente nula.
Propiedad 35 Sea {pn} una sucesi´on tal que:
i) ∀n ∈ N , pn ≥ 0
ii)
∞
x=1
pn = 1
Entonces {pn} es una fmp.
Dem:
Definamos F (x) =
∞
n=1
n≤x
pn. Dejo a cargo de ustedes verificar que F satisface las condiciones para
ser una fda (Teorema 1)
Motivaremos ahora la noci´on de variable aleatoria continua.
Ejemplo: Consideremos una poblaci´on formada por un gran n´umero N = 1000 de personas. Supong-
amos que nos interesa la distribuci´on de la variable aleatoria X que mide la altura de un individuo
seleccionado al azar dentro de esta poblaci´on. Supongamos para fijar ideas que las alturas se miden
en cm y que se encuentran en el intervalo [150, 190] Dado el gran n´umero de personas en la poblaci´on
podemos tener una idea aproximada de la distribuci´on de alturas dividiendo el intervalo [150, 190]
Prof.J.Gast´on Argeri 42
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 43
en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de-
terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo
subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla:
Intervalo f(frecuencia) fr(frecuencia relativa) fr/(longitud subintervalo)
[150, 160) 80 0.10 0.01
[160, 170) 150 0.25 0.025
[170, 180) 500 0.50 0.05
[180, 190) 150 0.15 0.015
Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin-
tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria
X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna fr y
que podemos resumir en esta otra tabla:
k pD(k) pD(k)/(long.subintervalo)
150 0.10 0.01
160 0.25 0.025
170 0.50 0.05
180 0.15 0.015
Para obtener una variable aleatoria discreta cuya distribuci´on represente m´as fielmente la distribuci´on
de X podemos refinar nuestra partici´on del intervalo original [150, 190] y recalcular la fmp de la
variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva-
los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la poblaci´on
es tan grande que puede suponerse ”infinita” y por ende este proceso podr´ıa segir indefinidamente,
obtendr´ıamos por lo general una situaci´on como se muestra en los gr´aficos siguientes, en la que se
grafica pD/(long.subintervalo) versus x para particiones con norma cada vez menor. Comente-
mos algunas caracter´ısticas interesantes acerca de estos gr´aficos:
• Permiten ”reconstruir” la fmp de la v.a.discreta simplemente hallando el ´area de cada rect´angulo.
• Dado que hemos considerado ´unicamente particiones regulares, los rect´angulos m´as altos y los
m´as bajos permiten visualizar los valores m´as probables y los menos probables de la variable
discreta y, como la discreta aproxima a la v.a. X, tambi´en podemos localizar los intervalos
donde X cae con mayor y con menor probabilidad.
• Cuidado: Las alturas de los rect´angulos no dan probabilidades sino probabilidades por unidad
de longitud.
• Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de
cierto momento habr´a una enorme cantidad de subintervalos donde fr/L (L la long. del
subintervalo) ser´a nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde
fr/L ser´a muy grande (pues L tiende a cero en tanto que fr permanecer´a fija). En el l´ımite
podr´ıamos decir que las gr´aficas tienden a ser nulas salvo en una cantidad a lo sumo numerable
de ”picos infinitos”.
• La suma de las ´areas de los rect´angulos es 1
• Las gr´aficas de las alturas de los rect´angulos se asemejan cada vez m´as a la gr´afica de una
funci´on, digamos f(x), de argumento continuo.
Prof.J.Gast´on Argeri 43
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 44
150 160 170 180 190
0.00.010.030.05
x
150 160 170 180 190
0.00.010.030.05
x
150 160 170 180 190
0.00.010.030.05
x
150 160 170 180 190
0.00.010.030.05
x
Este ejemplo motiva la definici´on que sigue.
Definici´on 22 Se dice que una variable aleatoria X es continua (o m´as precisamente absolutamente
continua) sii existe al menos una funci´on fX : R → R tal que:
i) ∀x ∈ R , fX(x) ≥ 0
ii) ∀A ∈ B , P (X ∈ A) =
A
fX(x) dx
Una tal funci´on fX se denomina una funci´on de densidad de probabilidad (fdp) de X o de FX.
Nota:
• Dado que la integral involucrada en esta definici´on puede ser impropia, se presupone su conver-
gencia.
• Tomando A = (−∞, x] se tiene que FX(x) =
x
−∞
fX(t) dt
En particular, si fX sea una funci´on continua en el intervalo (a, b) resulta FX derivable en
(a, b) y vale ∀x ∈ (a, b) , FX(x) = fX(x).
• Observemos que
∞
−∞
fX(x) dx = P (X ∈ R) = 1. Es decir, el ´area bajo la curva y =
fX(x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser mon´otona
puesto que para la convergencia de esta integral impropia es necesario que se verifique:
lim
x →−∞
fX(x) = 0 y lim
x →∞
fX(x) = 0
• Si X es variable aleatoria continua entonces para cualquier intervalo I ⊆ R de extremos a y
b se tiene
P (X ∈ I) = FX(b) − FX(a) =
b
−∞
fX(x) dx −
a
−∞
fX(x) dx =
b
a
fX(x) dx
Prof.J.Gast´on Argeri 44
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 45
• Si fX es continua en x, entonces fX(x) = FX(x) de modo que se tiene la siguiente
interpretaci´on de la fdp:
fX(x) = lim
h → 0+
fX (x+h)−FX (x)
h
= lim
h → 0+
P (X≤x+h)−P (X≤x)
h
=
= lim
h → 0+
P (xXx +h)
h
Es decir que fX(x) representa la probabilidad de que X pertenezca al intervalo (x, x +
h) dividida por la longitud de dicho intervalo. De ah´ı el nombre ”densidad” de probabilidad.
Ejemplo: Sea F : R → R dada por F (x) = 1
1+e− x . Comprueben que F satisface las condiciones
de una fda, es decir que existe una variable aleatoria X tal que F = FX. Esta va es continua.
Hallemos su fdp:
fX(x) = FX(x) = d
dx
1
1+e− x = e− x
(1+e− x
)
2 = ex
(1+ex)2
Propiedad 36 Sea f : R → R una funci´on satisfaciendo las siguientes condiciones:
i) ∀x ∈ R , f(x) ≥ 0
ii)
∞
−∞
f(x) dx = 1
Entonces f una fdp.
Dem: Definamos F : R → R por F (x) =
x
−∞
f(t) dt. Vamos a verificar que esta F es una fda.
• F es no decreciente pues si x, y ∈ R con x  y se tiene:
F (x) =
x
−∞
f(t) dt ≤
y
−∞
f(t) dt = F (y)
ya que f ≥ 0 y (−∞, x) ⊆ (−∞, y)
• Para cualquier x ∈ R es F continua en x. S´olo demostraremos esto en el caso partirular en
que f es continua en x. En tal caso el teorema fundamental del c´alculo asegura que:
lim
h → 0
1
h
x+h
x
f(t) dt = f(x)
Entonces:
lim
h → 0
F (x + h) − F (x) = lim
h → 0
x+h
−∞
f(t) dt −
x
−∞
f(t) dt = lim
h → 0
x+h
x
f(t) dt =
= lim
h → 0
h · 1
h
x+h
x
f(t) dt = 0 · f(x) = 0
Por lo tanto lim
h → 0
F (x + h) − F (x) = 0. Es decir: lim
h → 0
F (x + h) = F (x)
Prof.J.Gast´on Argeri 45
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 46
• Finalmente:
lim
x →−∞
F (x) = lim
x →−∞
x
−∞
f(t) dt =
−∞
−∞
f(t) dt = 0
lim
x →∞
F (x) = lim
x →∞
x
−∞
f(t) dt =
∞
−∞
f(t) dt = 1
Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y
por ende, con fdp f)
Definici´on 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene
al conjunto {x ∈ R : f(x)  0}. Anotaremos RX al soporte de f.
Propiedad 37 Sean X v.a. continua con fdp fX y sea B ∈ B. Entonces: P (X ∈ B) = P (X ∈
B ∩ RX)
Dem:
P (X ∈ B) = B fX(x) dx = B∩RX
fX(x) dx + B∩Rc
X
fX(x) dx = B∩RX
fX(x) dx =
P (X ∈ B ∩ RX) puesto que B∩Rc
X
fX(x) dx = B∩Rc
X
0 dx = 0
Propiedad 38 La funci´on f(x) = 1√
2π
· e− x2/2 es una fdp.
Dem:
Claramente: ∀x ∈ R , f(x)  0. Por otra parte:
∞
−∞
1√
2π
· e− x2/2 dx
2
=
∞
−∞
1√
2π
· e− x2/2 dx ·
∞
−∞
1√
2π
· e− y2/2 dy =
=
∞
−∞
∞
−∞
1
2π
· e− (x2+y2)/2 dy dx =
∞
0
2π
0
1
2π
· e− r2/2 r dθ dr =
=
∞
0
e− r2/2 r dr =
∞
0
e− t dt = − e− t ∞
0
= 1
En lo anterior hemos utilizado coordenadas polares (se multiplic´o por r, el m´odulo del jacobiano).
Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta
necesariamente:
∞
−∞
1
√
2π
· e− x2/2
dx = 1
Esta fdp es sumamente importante en estad´ıstica y se denomina densidad gaussiana (es frecuente
llamarla tambi´en densidad normal standard). Suele anotarse ϕ(x).
Ejemplo: Sea
f(x) =
kx si 0  x  1
0 si x ≤ 0 ∨ x ≥ 1
Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar tambi´en la fda.
En primer lugar debe ser
∞
−∞
f(x) dx = 1. En este caso:
1 =
1
0
kx dx = k
x2
2
1
0
=
k
2
Prof.J.Gast´on Argeri 46
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 47
Por lo tanto k = 2. Hallemos la fda asociada:
F (x) =
x
−∞
f(t) dt =



0 si x ≤ 0
x
0
2t dt si 0  x  1
1 si x ≥ 1
=



0 si x ≤ 0
x2 si 0  x  1
1 si x ≥ 1
Nota: El soporte de f en este ejemplo es [0, 1].
Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a.
continua con fdp dada por:
fT (t) =



λe− t/100 si t ≥ 0
0 si t  0
Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon-
erse. Calcular tambi´en la probabilidad de que funciones menos de 100 horas.
Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene:
1 =
∞
− ∞
fT (t) dt =
∞
0
λe− t/100
dt = −100λ e− t/100
∞
0
= 100λ
Luego λ = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es:
P (50  T  150) =
150
50
1
100
e− t/100
dt = − e− t/100
150
50
= e−0.5
− e−1.5
≈ 0.384
La probabilidad de que funcione menos de 100 horas viene dada por:
P (T  100) =
100
0
1
100
e− t/100
dt = − e− t/100
100
0
= 1 − e−1
≈ 0.633
18 Cuantiles de una distribuci´on
Definici´on 24 Sea X una variable aleatoria con fda FX. Dado α ∈ R , 0  α  1, un n´umero
real xα se dice un α-cuantil de FX o de X sii se verifican:
P (X  xα) ≤ α y P (X  xα) ≤ 1 − α
Equivalentemente, xα es un α-cuantil de FX sii se cumplen:
P (X  xα) ≤ α y P (X ≤ xα) ≥ α
Suponi´endolos ´unicos, cuando α = 0.5 hablamos de la mediana de FX, cuando α = 0.25 hablamos
del primer cuartil de FX y para α = 0.75 hablamos del tercer cuartil de X. Cuando se consideran
cuantiles asociados a una divisi´on del intervalo (0, 1) en cien partes iguales es frecuente hablar de
percentiles de FX.
Nota: Cuando X es variable aleatoria continua (es decir que FX es funci´on continua) la condici´on
anterior se expresa de manera m´as simple:
xα es cuantil α de FX sii F (xα) = α sii
xα
− ∞
fX(x) dx = α sii P (X ≤ xα) = α
De manera m´as gr´afica, el cuantil α de una distribuci´on continua es el punto del eje de abscisas que
deja a su izquierda y por debajo de la gr´afica de fX (obviamente por encima del eje de abscisas) un
Prof.J.Gast´on Argeri 47
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 48
´area exactamente igual a α. Equivalentemente si se grafica FX (siempre supuesta continua), hallar
el cuantil α de FX es hallar la abscisa del punto de la gr´afica que posee ordenada igual a α
Ejemplo: Si X es una variable aleatoria con distribuci´on gaussiana standard entonces la mediana es
x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene:
FX(0) =
0
−∞
ϕ(x) dx =
1
2
∞
−∞
ϕ(x) dx = 0.5
El cuantil α = 0.05 se determina planteando Φ(x0.05) = 0.05. Entonces x0.05 = Φ−1(0.05). Para
calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo
recurrir al SPlus. Para ilustrar un poco m´as, veamos la siguiente tabla (junto con los comandos
utilizados):
p_c(0.01,0.05,0.1)
alfa_c(p,0.5,1-rev(p))
round(qnorm(alfa),3)
α xα
0.01 −2.326
0.05 −1.645
0.1 −1.282
0.5 0.000
0.9 1.282
0.95 1.645
0.99 2.326
Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es ´unica cuando n par pero deja de serlo
cuando n es impar.
• Si n = 2r entonces x0.5 = r pues:
P (X  r) =
r−1
k=0
2r
k
1
2
2r
= 1
2
2r
r−1
k=0
2r
k
P (X  r) =
2r
j=r+1
2r
j
1
2
2r
= 1
2
2r 2r
j=r+1
2r
j
=
= 1
2
2r 2r
j=r+1
2r
2r−j
= 1
2
2r
r−1
k=0
2r
k
Entonces P (X  r) = P (X  r). Pero P (X  r) + P (X = r) + P (X  r) = 1. Luego:
P (X  r) = 1−P (X=r)
2
≤ 0.5 y P (X  r) = P (X  r) ≤ 0.5 = 1 − 0.5
• Si n = 2r − 1 entonces cualquier punto del intervalo (r − 1, r] es una posible mediana de X.
En efecto: Sea x∗ ∈ (r − 1, r]. Se tiene
P (X  x∗) =
r−1
k=0
2r−1
k
1
2
2r−1
= 1
2
2r−1
r−1
k=0
2r−1
k
P (X  x∗) =
2r−1
j=r
2r−1
j
1
2
2r−1
= 1
2
2r−1
2r−1
j=r
2r−1
j
=
= 1
2
2r−1
2r−1
j=r
2r−1
2r−1−j
= 1
2
2r−1
r−1
k=0
2r−1
k
Prof.J.Gast´on Argeri 48
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 49
Luego: P (X  x∗) = P (X  x∗). Pero como P (X  x∗) + P (X  x∗) = 1,
necesariamente es P (X  x∗) = P (X  x∗) = 1/2. Luego: P (X  x∗) ≤ 0.5 y
P (X  x∗) ≤ 1 − 0.5 = 0.5
Prof.J.Gast´on Argeri 49
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 50
Familias param´etricas de distribuciones univariadas
19 Distribuciones discretas
19.1 Distribuci´on uniforme discreta
Dado N ∈ N, se dice que una v.a. tiene distribuci´on uniforme discreta en {1, · · · , N} sii su fmp
viene dada por:
pX(X = k) =
1
N
(1 ≤ k ≤ N)
Obs´ervese que RX = {1, · · · , N} y esta distribuci´on de probabilidades es uniforme en el sentido
que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X.
Podemos comprobar que pX verifica los axiomas de una fmp:
• ∀k ∈ RX , pX(k) = 1/N ≥ 0
•
N
k=1
pX(k) =
N
k=1
1
N
= N · 1
N
= 1
Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee
distribuci´on uniforme discreta en {1, · · · , 6}
Ejemplo: Se extrae una carta al azar de un mazo de cartas espa˜nolas. Sea X la v.a. definida por
X =



1 si sale carta de oro
2 si sale carta de copa
3 si sale carta de espada
4 si sale carta de basto
Entonces X posee distribuci´on uniforme discreta en {1, 2, 3, 4}
Ejemplo: Un sereno tiene un llavero con n llaves y s´olo una de ellas abre la puerta de su habitaci´on,
pero no recuerda cu´al. Decide probarlas una por una (separando las que no abren) hasta lograr
abrir la puerta. Sea X el n´umero de ensayos que necesita hasta abrir la puerta, de manera que
RX = {1, 2, · · · , n}. Veamos que X posee distribuci´on uniforme discreta en {1, 2, · · · , n}. En
efecto:
P (X = 1) = 1
n
P (X = 2) = (n−1)1
n(n−1)
= 1
n
P (X = 3) = (n−1)(n−2)1
n(n−1)(n−2)
= 1
n
...
...
...
...
...
P (X = n) = (n−1)(n−2)···2·1
n!
= 1
n
19.2 Distribuci´on binomial
Una variable aleatoria X se dice con distribuci´on binomial de par´ametros n, p, siendo n ∈ N y
p ∈ R , 0  p  1, sii su fmp viene dada por:
pX(k) =
n
k
pk
(1 − p)n−k
(0 ≤ k ≤ n)
En tal caso anotamos X ∼ Bi(n, p). Obs´ervese que RX = {0, 1, · · · , n}. Comprobemos que
pX verifica los axiomas de una fmp:
Prof.J.Gast´on Argeri 50
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 51
• ∀k ∈ RX , pX(k) = n
k
pk(1 − p)n−k ≥ 0
•
n
k=0
pX(k) =
n
k=0
n
k
pk(1 − p)n−k = (p + (1 − p))n = 1
Adem´as la fda de X viene dada por:
FX(x) =
[x]
k=0
n
k
pk
(1 − p)n−k
Cuando p = 1/2 la fmp resulta sim´etrica con centro de simetr´ıa x∗ = n/2. En efecto: Consideremos
por separado los casos n par e impar.
• n impar. Anotemos n = 2r − 1. En este caso el sim´etrico de x = r − j respecto de
x∗ = r − 1/2 es x = 2x∗ − (r − j) = 2 r − 1
2
− (r − j) = 2r − 1 − r + j = r + j − 1
pX(r − j) =
2r − 1
r − j
1
2
n
pX(r + j − 1) =
2r − 1
r + j − 1
1
2
n
Pero
2r − 1
r − j
=
2r − 1
(2r − 1) − (r − j)
=
2r − 1
r + j − 1
• n par. Anotemos n = 2r. En este caso el sim´etrico de x = r − j respecto de x∗ = r es
x = 2x∗ − (r − j) = 2 2r
2
− (r − j) = 2r − (r − j) = r + j
pX(r − j) =
2r
r − j
1
2
n
pX(r + j) =
2r
r + j
1
2
n
Pero
2r
r − j
=
2r
(2r) − (r − j)
=
2r
r + j
La distribuci´on binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de ´exitos en
una sucesi´on de n ensayos de Bernoulli con probabilidad de ´exito p en cada ensayo individual.
N´otese que en tal caso la distribuci´on del n´umero de fracasos es una variable aleatoria con distribuci´on
Bi(n, 1 − p).
Ejemplo: Se lanza 8 veces un dado equilibrado. Sea
X = ”cantidad de ensayos en los que se obtiene m´ultiplo de 3”
Se trata de una sucesi´on de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale m´ultiplo
de 3”. la probabilidad de ´exito en cada ensayo es pues p = 1/3. La distribuci´on de X es entonces
Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos:
a) ”Cinco veces sale m´ultiplo de 3”
Rta: P (X = 5) = 8
5
1
3
5 2
3
3
= 0.0683
Prof.J.Gast´on Argeri 51
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 52
b) ”Al menos dos veces sale m´ultiplo de 3”
Rta: P (X ≥ 2) = 1−P (X  2) = 1−P (X = 0)−P (X = 1) = 1− 8
0
2
3
8
− 8
1
1
3
· 2
3
7
c) ”A lo sumo cinco veces sale m´ultiplo de 3”
Rta: P (X ≤ 5) = 1 − P (X  5) = 1 − P (X = 6) − P (X = 7) − P (X = 8) =
1 − 8
6
1
3
6
· 2
3
2
− 8
7
1
3
7
· 2
3
− 8
8
1
3
8
Propiedad 39 La fmp de una v.a. con distribuci´on Bi(n, p) alcanza un m´aximo en el punto
x∗ = [(n + 1)p]
Dem:
Dado que la fmp es discontinua, no es posible aplicar t´ecnicas de c´alculo (derivada) para obtener
su m´aximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) =
pX(k)/pX(k − 1) Mientras este cociente se mantenga mayor que la unidad ser´a pX creciente como
funci´on de k. En cambio mientras el cociente permanezca menor que la unidad entonces pX ser´a
decreciente. Ante todo hallemos este cociente:
C(k) =
n
k
n
k−1
=
n!(k − 1)!(n − k + 1)!pkqn−k
k!(n − k)!n!pk−1qn−k+1
=
(n − k + 1)p
kq
Luego:
C(k)  1 ⇔ (n − k + 1)p  k(1 − p) ⇔ k  (n + 1)p
C(k) = 1 ⇔ (n − k + 1)p  k(1 − p) ⇔ k = (n + 1)p
C(k)  1 ⇔ (n − k + 1)p  k(1 − p) ⇔ k  (n + 1)p
Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su m´aximo en un ´unico punto
(unimodal), a saber x∗ = [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la
fmp alcanza su m´aximo en dos puntos (bimodal), a saber: x∗ = (n + 1)p y x∗∗ = x∗ − 1
Esta situaci´on se puede comprobar en los siguientes gr´aficos:
0 1 2 3 4 5 6
0.00.10.20.3
fmp de una Bi(6,1/3)
0 1 2 3 4 5 6 7 8
0.00.050.100.150.200.25
fmp de una Bi(8,1/3)
Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ Bi(n, p). Sea k un vector, k =
(k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero).
dbinom(k,n,p)
da como resultado el vector (pX(k1), · · · pX(ks)).
Por ejemplo:
Prof.J.Gast´on Argeri 52
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 53
 n - 8
 p - 0.25
 k - c(3, 4, 6, 7)
 dbinom(k, n, p)
[1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109
 round(dbinom(k, n, p), 5)
[1] 0.20764 0.08652 0.00385 0.00037
 k - 0:8
 dbinom(k, n, p)
[1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398
[6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879
 round(dbinom(k, n, p), 5)
[1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002
pbinom(k,n,p)
da como resultado el vector (FX(k1), · · · FX(ks)).
19.3 Distribuci´on geom´etrica
Dado p ∈ (0, 1), una v.a. X se dice con distribuci´on geom´etrica de par´ametro p sii su fmp viene
dada por:
pX(k) = (1 − p)k−1
· p (k ∈ N)
En tal caso anotamos X ∼ G(p). Observemos que RX = N. Verifiquemos que pX satisface los
axiomas de una fmp. Para abreviar anotemos q = 1 − p:
• ∀k ∈ N , pX(k) = qk−1p ≥ 0
•
∞
k=1
pX(k) =
∞
k=1
qk−1p = p
∞
k=1
qk−1 = p
1−q
= p
p
= 1
Calculemos su fda:
FX(x) = P (X ≤ x) =
[x]
k=1
(1 − p)k−1p = p
[x]−1
j=0
(1 − p)j =
= p · 1−(1−p)[x]
1−(1−p)
= 1 − (1 − p)[x] = 1 − q[x]
Algunas de estas gr´aficas se muestran en la figura siguiente: Graficamos tambi´en algunas fmp:
Una propiedad interesante de esta distribuci´on es la siguiente.
Propiedad 40 (”Ausencia de memoria”) Sea X una v.a. con distribuci´on geom´etrica de
par´ametro p ∈ (0, 1). Sean s, t ∈ N con s  t. Se verifica:
P (X  s|X  t) = P (X  s − t)
Dem:
En efecto, anotemos q = 1 − p. Como s  t resulta {X  s} ⊆ {X  t}. Por lo tanto:
{X  s} ∩ {X  t} = {X  s}
Luego:
P (X  s|X  t) = P (Xs , Xt )
P (Xt)
= P (Xs)
P (Xt)
= 1−FX (s)
1−FX (t)
= qs
qt = qs−t = 1 − 1 − qs−t =
= 1 − FX(s − t) = P (X  s − t)
Prof.J.Gast´on Argeri 53
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 54
fda de una G( 0.2 )
k
P(X=k)
0 5 10 15 20
0.00.20.40.60.81.0 fda de una G( 0.4 )
k
P(X=k)
0 2 4 6 8 10 12
0.00.20.40.60.81.0
fda de una G( 0.6 )
k
P(X=k)
0 2 4 6 8
0.00.20.40.60.81.0
fda de una G( 0.8 )
k
P(X=k)
0 1 2 3 4 5
0.00.20.40.60.81.0
1 2 3 4 5 6 7 8 9
0.00.050.100.150.20
fmp de una G( 0.2 )
k
P(X=k)
1 2 3 4 5 6 7 8 9
0.00.10.20.30.4
fmp de una G( 0.4 )
k
P(X=k)
1 2 3 4 5 6 7 8 9
0.00.20.40.6
fmp de una G( 0.6 )
k
P(X=k)
1 2 3 4 5 6 7 8 9
0.00.20.40.60.8
fmp de una G( 0.8 )
k
P(X=k)
Ejemplo: La distribuci´on geom´etrica surge tambi´en en el contexto de ensayos de Bernoulli con proba-
bilidad de ´exito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer ´exito” entonces
X posee distribuci´on geom´etrica con par´ametro p. Por ejemplo, si se arroja un dado equilibrado hasta
que sale el n´umero 6 y X representa la cantidad de lanzamientos necesarios, entonces RX = N y
X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-´esimo sale 6. Dado que los
lanzamientos son independientes entre s´ı, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6.
Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ G(p). Sea k un vector, k =
(k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero).
dgeom(k,p)
da como resultado el vector (pX(k1), · · · pX(ks)).
Por ejemplo:
 p - 0.25
 k - c(1, 4, 6, 7)
 dgeom(k, p)
[1] 0.18750000 0.07910156 0.04449463 0.03337097
 round(dgeom(k, p), 5)
[1] 0.18750 0.07910 0.04449 0.03337
Prof.J.Gast´on Argeri 54
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 55
 k - 4:10
 dgeom(k, p)
[1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117
[7] 0.01407838
 round(dgeom(k, p), 5)
[1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408
pgeom(k,p)
da como resultado el vector (FX(k1), · · · FX(ks)).
19.4 Distribuci´on hipergeom´etrica
Dados n, D, N ∈ N con n  N , D  N, se dice que una v.a. X posee distribuci´on hiper-
geom´etrica con par´ametros n, D, N sii su fmp viene dada por:
pX(k) =
D
k
N−D
n−k
N
n
para max {0, D − (N − n)} ≤ k ≤ min {n, D}
En tal caso anotaremos X ∼ H(n, D, N). Observemos que cuando n ≤ min {D, N − D} resulta
RX = {0, 1, · · · , n} .
Ejemplo: Un lote de tama˜no N de cierta clase de art´ıculos contiene D art´ıculos defectuosos (y
N − D art´ıculos no defectuosos). Se extrae al azar una muestra de art´ıculos de tama˜no n, sin
reposici´on. Sea X la cantidad de art´ıculos defectuosos presentes en dicha muestra. Evidentemente
el rango de X es de la forma RX = {m, · · · , M}, donde m = max {n − (N − D), 0} y
M = min {D, n}. Dado k ∈ RX calculemos P (X = k). Abreviemos In = {1, · · · , n}. El
espacio muestral puede pensarse como
Ω = {A ⊆ {M1, · · · , MD, B1, · · · , BN−D} : #(A) = n}
donde M indica defectuoso y B indica no defectuoso. Puesto que la extracci´on se realiza al azar,
resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables.
Entonces:
P (X = k) =
# {X = k}
#Ω
Contar la cantidad de elementos en Ω equivale a contar la cantidad de posibles subconjuntos de
tama˜no n elegidos entre N elementos diferentes. Hay N
n
formas diferentes. Contemos ahora
en cu´antas de ellas hay exactamente k objetos defectuosos. Para ello debemos contar de cu´antas
formas es posible elegir los k objetos defectuosos que participar´an, a saber D
k
, y por cada una de
estas elecciones habr´a que determinar de cu´antas formas es posible elegir los otros n − k elementos
participantes no defectuosos, a saber N−D
n−k
. Por lo tanto # {X = k} = D
k
N−D
n−k
. Por lo tanto:
P (X = k) =
D
k
N−D
n−k
N
n
Es decir, efectivamente X posee distribuci´on hipergeom´etrica de par´ametros n, D, N. Anotaremos
esta distribuci´on como H(n, D, N).
Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ H(n, D, N). Sea k un vector,
k = (k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero).
dhyper(k,D,N-D,n)
da como resultado el vector (pX(k1), · · · pX(ks)).
Por ejemplo:
Prof.J.Gast´on Argeri 55
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 56
 D - 6
 ND - 8
 n - 4
 k - 0:3
 round(dhyper(k, D, ND, n), 4)
[1] 0.0699 0.3357 0.4196 0.1598
phyper(k,D,N-D,n)
da como resultado el vector (FX(k1), · · · FX(ks)).
La fmp de una v.a. H(n, D, N) alcanza un m´aximo cuando k = k∗ = (n+1)(D+1)
N+2
, como puede
demostrarse y comprobarse en los siguientes gr´aficos. N´otese que si (n+1)(D+1)
N+2
no es entero, el
m´aximo se alcanza ´unicamente en k∗ (unimodal), mientras que si (n+1)(D+1)
N+2
es entero, entonces
pX alcanza su m´aximo en los dos puntos k∗ = (n+1)(D+1)
N+2
y k∗∗ = k∗ − 1 (bimodal)
0 1 2 3 4 5 6 7 8 9 10
fmp de H(10,12,26)
k
P(X=k)
0.00.050.100.150.200.250.30
0 1 2 3 4 5 6 7
fmp de H(7,6,10)
k
P(X=k)
0.00.10.20.30.4
19.5 Distribuci´on de Poisson - Procesos de Poisson
Dado λ ∈ R , λ  0, se dice que una v.a. X posee distribuci´on de Poisson con par´ametro λ sii su
fmp viene dada por:
pX(k) = e− λ
·
λk
k!
(k = 0, 1, 2, · · · )
En tal caso anotaremos X ∼ P(λ). El par´ametro λ suele llamarse intensidad. Observemos que
RX = N ∪ {0}. Verifiquemos que efectivamente pX es una fmp:
• ∀k ∈ N ∪ {0} , pX(k) = e− λ · λk
k!
≥ 0
•
∞
k=0
pX(k) =
∞
k=0
e− λ · λk
k!
= e− λ
∞
k=0
λk
k!
= e− λeλ = e0 = 1
Cuando λ no es entero, la distribuci´on P(λ) alcanza su m´aximo en el ´unico (unimodal) punto
k = [λ]. En cambio cuando λ es entero, la distribuci´on alcanza su m´aximo en dos puntos (bimodal),
a saber k = λ y k = λ − 1. Grafiquemos algunas fmp de v.a. Poisson:
Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter-
minado evento de inter´es ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos
en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrir´a en de-
terminados instantes (horas). Supongamos que para cierta constante λ  0 se verifican las siguientes
suposiciones:
Prof.J.Gast´on Argeri 56
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 57
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 1.5 )
k
P(X=k)
0.00.10.20.3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 3 )
k
P(X=k)
0.00.050.100.150.20
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 4.5 )
k
P(X=k)
0.00.050.100.15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 6 )
k
P(X=k)
0.00.050.100.15
1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de
longitud h es de la forma: λh + o(h)
2. La prbabilidad de que dos o m´as eventos ocurran en un intervalo de tiempo dado y de longitud
h de la forma: o(h)
3. Dados cualesquiera n´umeros n ∈ N , j1, · · · , jn ∈ N∪{0} y cualquier conjunto de n intervalos
temporales disjuntos dos a dos, si se define Ei como el suceso que exactamente ji de los eventos
bajo consideraci´on ocurran en el i-´esimo intervalo temporal (i = 1, · · · , n), entonces los sucesos
E1, · · · , En son mutuamente independientes.
Intuitivamente hablando, el supuesto 1 significa que para valores peque˜nos de h, la probabilidad de
ocurrencia de exactamente uno de los eventos en un lapso de duraci´on h es λh m´as una cantidad
despreciable respecto de h. Obs´ervese que podemos interpretar λ como la tasa o raz´on instant´anea
de ocurrencia de un evento. El supuesto 2 significa que la probabilidad de que ocurran dos o m´as
eventos en un lapso de tiempo de duraci´on h es despreciable respecto de h. El supuesto 3 significa
que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es influenciada por la
cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero.
Antes de continuar vamos a establecer un lema que nos resultar´a ´util dentro de poco.
Lema 1 Sea {αn} una sucesi´on de n´umeros reales tal que existe α ∈ R con lim
n →∞
αn = α.
Entonces se cumple:
lim
n →∞
1 −
αn
n
n
= e− α
Dem:
Sea f(x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene:
f(x) = −x −
x2
2
·
1
(1 − c)2
con c entre 0 y x
Evaluando en x = αn/n y multiplicando por n se obtiene:
n · ln 1 −
αn
n
= −αn −
α2
n
2n
·
1
(1 − cn)2
(3)
Dado que cn se encuentra entre 0 y αn/n y como lim
n →∞
αn = α, resulta lim
n →∞
cn = 0. Luego,
tomando l´ımite para n → ∞ en (3) vemos que la sucesi´on (3) tiene l´ımite − α. Tomando exponencial
y teniendo en cuenta que esta funci´on es continua, resulta lo afirmado en el teorema
Prof.J.Gast´on Argeri 57
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 58
Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo
de duraci´on h es una variable aleatoria con distribuci´on de Poisson de par´ametro λh.
Dem:
Designemos N(t) el n´umero de ocurrencias de eventos en el intervalo [0, t). Formemos una par-
tici´on regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) .
Consideremos los siguientes sucesos:
A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos”
Bi = ”el subint. i-´esimo contiene dos o m´as eventos” (i = 1, · · · , n)
B = ”al menos uno de los subint. contiene dos o m´as eventos”
C = {N(t) = k} ∩ B
Entonces claramente:
B =
n
i=1
Bi (uni´on no disjunta)
P (N(t) = k) = P (A ∪ C) = P (A) + P (C) pues A y C son disjuntos
Pero:
P (C) ≤ P (B) ≤
n
i=1
P (Bi) =
n
i=1
o
t
n
= n · o
t
n
= t ·
o(t/n)
t/n
Para cada t fijo es lim
n →∞
o(t/n)
t/n
= 0. Luego: lim
n →∞
P (C) = 0. Por otra parte, si I es un intervalo
de duraci´on h, los supuestos 1 y 2 implican que:
P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)−
−P (”ocurren dos o m´as eventos en I”) =
= 1 − (λh + o(h)) − o(h) = 1 − λh − o(h)
Adem´as en virtud del supuesto 3 se tiene:
P (A) = n
k
λt
n
+ o t
n
k
1 − λt
n
− o t
n
n−k
=
= n(n−1)···(n−k+1)
k!
· 1
nk n λt
n
+ o t
n
k
1 − λt
n
+ o t
n
n−k
=
= n(n−1)···(n−k+1)
nk · 1
k!
n λt
n
+ o t
n
k
1 − λt
n
+ o t
n
n−k
=
= 1
k!
n λt
n
+ o t
n
k
1 − λt
n
+ o t
n
n
1 − λt
n
+ o t
n
−k k
i=1
1 − i−1
n
(4)
Pero como
lim
n →∞
n
λt
n
+ o
t
n
= λt + lim
n →∞
t
o(t/n)
t/n
= λt
se deduce del lema 1 con αn = n λt
n
+ o t
n
que:
lim
n →∞
1 −
λt
n
+ o
t
n
n
= e− λt
La primera expresi´on entre llaves en la ´ultima de las expresiones en (4) tiende a λk y la tercera
expresi´on entre llaves tiende a 0. La productoria consta de un n´umero fijo de factores y cada uno de
ellos tiende a 1. Por lo tanto:
lim
n →∞
P (A) = e− λt
·
(λt)k
k!
Prof.J.Gast´on Argeri 58
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 59
Nota: Definamos para cada t  0 la variable aleatoria
Xt = ”cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)”
La colecci´on de variables aleatorias {Xt : t  0} se denomina porceso de Poisson de par´ametro
λ. N´otese que para cada t  0 es Xt ∼ P(λt). Volveremos a los procesos de Poisson cuando
presentemos las distribuciones exponencial y gama.
Corolario 4 (Aproximaci´on de Poisson a la distribuci´on binomial)
Sea λ ∈ R , λ  0. Para cada k ∈ N ∪ {0} se verifica:
lim
n →∞
n
k
λ
n
k
1 −
λ
n
n−k
= e− λ
·
λk
k!
Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos
n grande, p peque˜no y np es moderado. Entonces la fmp de X es aproximadamente igual a la
fmp de Y , siendo Y ∼ P(np). La recomendaci´on suele ser el uso de la aproximaci´on cuando:
n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20
Mencionemos que las variables Poisson no ocurren ´unicamente contando ocurrencias de eventos en el
tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribuci´on de Poisson:
• La cantidad de errores de impresi´on en cierta/s p´agina/s de un libro.
• La cantidad de bacterias en cierta regi´on de cierto cultivo.
Ejemplo: Supongamos que la cantidad de errores tipogr´aficos por p´agina de apuntes te´orico-pr´acticos
tipeados por Gast´on Argeri posee distribuci´on P(0.25) (i.e. en promedio Gast´on comete un error
de tipeo cada cuatro p´aginas). Si se escoge al azar un apunte te´orico-pr´actico de Gast´on, calcular la
probabilidad de que la primera p´agina presente al menos un error tipogr´afico.
Rta: Si anotamos X a la cantidad de errores en la primera p´agina entonces:
P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25
≈ 0.221
Ejemplo: Supongamos que en promedio uno de cada diez art´ıculos producidos por cierta m´aquina
resultan defectuosos. Se eligen al azar 20 art´ıculos producidos por la m´aquina. Hallar la probabilidad
de que al menos 3 de ellos resulten defectuosos.
Rta: Se trata de una sucesi´on de n = 20 ensayos de Bernoulli, donde ”´exito=se produce art´ıculo
defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre
20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es:
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) =
= 1 − 20
0
(0.9)20 − 20
1
(0.1)(0.9)19 − 20
2
(0.1)2(0.9)18 ≈
≈ 1 − 0.1215767 − 0.2701703 − 0.2851798 ≈ 0.3231
Utilizando la aproximaci´on de Poisson con λ = np = 20(0.1) = 2 se obtiene:
P (X ≥ 3) ≈ 1 −
2
k=0
e− 2
·
2k
k!
≈ 1 − 0.1353353 − 0.2706706 − 0.2706706 ≈ 0.3233
En este caso la aproximaci´on ha resultado muy buena.
Prof.J.Gast´on Argeri 59
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 60
19.6 Distribuci´on binomial negativa
Dados r ∈ N y p ∈ (0, 1), se dice que una variable aleatoria X posee distribuci´on binomial negativa
con par´ametros r y p sii su fmp est´a dada por:
pX(k) =
k − 1
r − 1
pr
(1 − p)k−r
(k = r, r + 1, · · · )
En tal caso anotaremos X ∼ BN (r, p). Obse´ervese que RX = {r, r + 1, · · · }. Verifiquemos que
efectivamente pX es una fmp:
• pX(k) = k−1
r−1
pr(1 − p)k−r ≥ 0 (k = r, r + 1, · · · )
•
∞
k=r
pX(k) =
∞
k=r
k−1
r−1
pr(1 − p)k−r = pr
∞
k=r
k−1
r−1
(1 − p)k−r
Consideremos la funci´on g(q) =
∞
j=0
qj = 1
1−q
Si la derivamos r − 1 veces obtenemos:
∞
j=1
jqj−1 = 1
(1−q)2
∞
j=2
j(j − 1)qj−2 = 2
(1−q)3
· · · · · ·
∞
j=r−1
j(j − 1) · · · (j − r + 2)qj−r+1 = (r−1)!
(1−q)r
Es decir (r − 1)!
∞
j=r−1
j
r−1
qj−r+1 = (r−1)!
(1−q)r Por lo tanto, tomando q = 1 − p se tiene:
pr
∞
k=r
k − 1
r − 1
(1 − p)k−r
= pr
∞
j=r−1
j
r − 1
(1 − p)j−r+1
=
pr
pr
= 1
La distribuci´n binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob-
abilidad de ´exito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la
distribuci´on de la cantidad de ´exitos en los n ensayos. En cambio, la BN (r, p) es la distribuci´on
de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-´esimo ´exito (es
decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que
el r-´esimo ´exito ocurre en el k-´esimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe
haber exactamente r − 1 ´exitos y k − r fracasos. Entonces para calcular la probabilidad del evento
{X = k} utilizamos asignaci´on de probabilidad por ensayos independientes: Hay k−1
r−1
maneras
de ubicar los r − 1 ´exitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan
autom´aticamente determinados). Cada ordenamiento de r ´exitos y k−r fracasos tiene probabilidad
pr(1 − p)k−r. Luego P (X = k) = k−1
r−1
pr(1 − p)k−r Es decir X ∼ BN (r, p).
Nota: Comandos ´utiles eb SPlus son dnbinom , pnbinom
Presentamos algunos ejemplos de fmp binomiales negativas: Obs´ervese que la fmp de una v.a. BN (r, p)
alcanza su m´aximo en el punto k∗ = r+p−1
p
. Cuando r+p−1
p
no es entero, el m´aximo se alcanza
´unicamente (unimodal) en k = k∗. En cambio, cuando r+p−1
p
es entero, el m´aximo se alcanza en
k = k∗ y en k = k∗ − 1 (bimodal).
Prof.J.Gast´on Argeri 60
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 61
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.25 )
k
P(X=k)
0.00.020.040.060.08
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.45 )
k
P(X=k)
0.00.050.100.15
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.7 )
k
P(X=k)
0.00.10.20.3
20 Distribuciones continuas
20.1 Distribuci´on uniforme
Sean a, b ∈ R con a  b. Se dice que una variable aleatoria X posee distribuci´on uniforme en el
intervalo [a, b] sii X posee fdp fX dada por
fX(x) =
1
b−a
si a ≤ x  b
0 si x  a ∨ x ≥ b
Anotamos X ∼ U(a, b) para indicar que X posee distribuci´on uniforme en [a, b]. Verifiquemos
que fX es realmente un fdp:
• ∀x ∈ R , fX(x) ≥ 0
•
∞
− ∞
fX(x) dx =
b
a
1
b−a
dx = 1
b−a
b
a
dx = b−a
b−a
= 1
Obtengamos la fda. FX(x) =
x
− ∞
fX(t) dt. Debemos distinguir tres casos, seg´un el valor de x:
• Si x  a: FX(x) = 0
• Si a ≤ x  b: FX(x) =
x
a
1
b−a
dt = x−a
b−a
• Si x ≥ b: FX(x) =
b
a
1
b−a
dt = 1
Es decir:
FX(x) =



0 si x  a
x−a
b−a
si a ≤ x  b
1 si x ≥ b
Las gr´aficas de la fdp y la fda tienen el siguiente aspecto:
20.2 Distribuci´on gaussiana
Sean µ, σ ∈ R , σ  0. Se dice que una variable aleatoria X posee distribuci´on gaussiana (tambi´en
llamada distribuci´on normal) de par´ametros µ, σ sii X posee fdp dada por
fX(x) =
1
√
2π σ
· e− 1
2
(x−µ)2/σ2
; x ∈ R
Prof.J.Gast´on Argeri 61
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 62
fdp de U(a,b)
x
y
0 1 2
0.00.20.40.60.8
1 / ( b - a )
fda de U(a,b)
x
y
0 1 2
0.00.20.40.60.81.01.2
a b
Para indicar que X posee distribuci´on gaussiana de par´ametros µ, σ anotamos X ∼ N (µ, σ). En
particular, cuando µ = 0 y σ = 1 se habla de la distribuci´on gaussiana (o normal) standard. Su
fdp suele anotarse con la letra ϕ. As´ı, la fdp gaussiana standard est´a dada por
ϕ(x) =
1
√
2π
· e− 1
2
x2
; x ∈ R
Mediante c´alculo es posible estudiar las caracter´ısticas de la gr´afica de ϕ. Resulta sim´etrica respecto
del eje de ordenadas (funci´on par), con m´aximo en el origen. Adem´as tiene la conocida forma de
”campana de Gauss”. Volviendo al caso general, obs´ervese que:
fX(x) =
1
√
2π σ
ϕ
x − µ
σ
Es decir que fX se puede obtener a partir de ϕ mediante una traslaci´on paralela al eje de abscisas
y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada
de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas:
La fda asociada viene dada por:
FX(x) =
x
− ∞
1
√
2π σ
e−1
2
(t−µ)2/σ2
dt
La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por:
Φ(x) =
x
− ∞
1
√
2π
e−1
2
x2
dt
Dado que esta funci´on no es elemental (no puede expresarse elementalmente la integral indefinida
correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar alg´un software
o f´ormula que aproxime sus valores. En el caso general, observemos que:
FX(x) = Φ
x − µ
σ
si X ∼ N (µ, σ)
Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm)
o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”.
Prof.J.Gast´on Argeri 62
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 63
misma sigma, distintas mu
x
y
-2 0 2 4 6 8 10 12
0.00.10.20.30.40.5
N(4,1.5)
N(2,1.5)
N(7,1.5)
misma mu, distintas sigma
x
y
-2 0 2 4 6 8 10 12
0.00.10.20.30.40.5
N(4,1.5)
N(4,3)
N(4,0.75)
Familia de densidades gaussianas
20.3 Distribuci´on exponencial
Dado λ ∈ R , λ  0, se dice que una variable aleatoria X posee distribuci´on exponencial con
par´ametro λ sii su fdp vien dada por:
fX(x) = λe− λx
(x  0)
En tal caso anotaremos X ∼ E(λ). El par´ametro λ suele denominarse par´ametro de intensidad.
Verifiquemos que fX es efectivamente una fdp:
• Para todo x ∈ R, fX(x) = λe− λx ≥ 0
• Efectuando el cambio de variables t = λx se obtiene:
∞
0
λe− λx
dx =
∞
0
e−t
dt = − lim
c →∞
e−t c
0
= − lim
c →∞
(e− c
− 1) = 1
Hallemos al fda de X:
• Si x ≤ 0 entonces FX(x) =
x
− ∞ fX(t) dt = 0 pues fX(t) = 0 si t ≤ 0
• Si x  0 se tiene: FX(x) =
x
− ∞ fX(t) dt =
x
0 λe− λt dt = − e− λt x
0
= 1 − e− λx
Por lo tanto la fda viene dada por:
FX(x) =
0 si x ≤ 0
1 − e− λt si x  0
Prof.J.Gast´on Argeri 63
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 64
fdp
x
y
0 2 4 6 8 10 12 14
0.00.10.20.30.40.50.6
lambda=0.2
lambda=0.4
lambda=0.6
fda
x
y
0 2 4 6 8 10 12 14
0.00.20.40.60.81.0
lambda=0.2
lambda=0.4
lambda=0.6
Familia de densidades exponenciales
Para observar las caracter´ısticas m´as importantes de la distribuci´on exponencial, grafiquemos algunos
ejemplos de fdp y fda en el caso exponencial:
Propiedad 41 (”Ausencia de memoria”) Supongamos que X ∼ E(λ). Sean s, t ∈ R , s  t ≥
0. Se verifica:
P (X  s | X  t) = P (X  s − t)
Dem:
P (X  s|X  t) = P (Xs , Xt )
P (Xt)
= P (Xs)
P (Xt)
= 1−FX (s)
1−FX (t)
= e− λs
e− λt = e− λ(s−t) = P (X  s − t)
Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {Xt : t  0}
de par´ametro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria:
T1 = ”tiempo hasta la primera ocurrencia del evento”
Hallemos la fda de T1. Para ello calculemos:
P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) =
= P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · (λt)0
0!
= e− λt
Por lo tanto FT1 (t) = 1 − e− λt si t  0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la
variable aleatoria T1 tiene distribuci´on exponencial de par´ametro λ.
Nota: Comandos de SPlus dexp , pexp , qexp
20.4 Distribuci´on gamma
Se denomina funci´on gama a la funci´on Γ : (0, ∞) → R definida por:
Γ(x) =
∞
0
tx−1
e−t
dt (5)
Para ver que esta funci´on est´a correctamente definida es necesario demostrar que la integral impropia
en (5) es convergente. Obs´ervese que el integrando es positivo y que cuando x ≥ 1 la integral es
impropia en el infinito, en tanto que si 0  x  1 la integral es impropia tanto en el infinito como
en el origen.
Prof.J.Gast´on Argeri 64
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 65
Lema 2 Para cada u ∈ R , u ≥ 0 y para cada n ∈ N se verifica
eu
≥ 1 + u +
u2
2!
+
u3
3!
+ · · · +
un
n!
(6)
Dem:
Por inducci´on sobre n
Paso base:
Dado que ∀u ≥ 0 , eu ≥ 0, la monoton´ıa de la integral definida garantiza que
u
0 eu du ≥ 0. Luego:
eu − 1 ≥ 0. Por lo tanto eu ≥ 1
Hip´otesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera.
En base a la HI queremos probar que:
eu
≥ 1 + u +
u2
2!
+
u3
3!
+ · · · +
un+1
(n + 1)!
(u ≥ 0)
Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monoton´ıa de
la integral, se deduce que
eu
− 1 ≥ u +
u2
2!
+
u3
3!
+ · · · +
un+1
(n + 1)!
que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono
n natural
Corolario 5 Para cada u ≥ 0 y cada n natural (o cero) se verifica la siguiente desigualdad
eu
≥
un
n!
Dem:
Siendo u ≥ 0, todos los t´erminos en el mienbro de la derecha de la desigualdad (6) son no negativos.
Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual
que el ´ultimo t´ermino. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema
Propiedad 42 Para cada x ∈ R , x  0, la integral en (5) es convergente.
Dem:
Consideramos dos casos por separado.
• Caso x ≥ 1
En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1  1. Entonces para
t  0 se verifica
tx−1
e−t
=
tx−1
et
≤
tx−1n!
tn
=
n!
tn−x+1
Como la integral impropia
∞
1
n!
tn−x+1 dt es convergente, por criterio de comparaci´on resulta
∞
1 tx−1e−t dt tambi´en convergente. Puesto que
1
0 tx−1e−t dt es propia (finita), se deduce
que
∞
0 tx−1e−t dt es convergente.
• Caso 0  x  1
Prof.J.Gast´on Argeri 65
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 66
– Para t ≥ 1 resulta t1−x = e(1−x) ln t ≥ 1 dado que (1 − x) ln t  0. Entonces:
tx−1
e−t
=
1
t1−xet
≤
1
et
= e−t
Pero como
∞
1 e−t dt es convergente, por criterio de comparaci´on resulta
∞
1 tx−1e−t dt
convergente.
– Para 0  t  1 resulta e−t ≤ 1. Luego tx−1e−t ≤ tx−1 = 1
t1−x . Puesto que
1
0
1
t1−x dt es convergente por ser 0  x  1, el criterio de comparaci´on asegura que
1
0 tx−1e−t dt es convergente
Propiedad 43 La funci´on gama verifica:
i) ∀x ∈ R, x  0, Γ(x + 1) = xΓ(x)
ii) ∀n ∈ N , Γ(n) = (n − 1)!
Dem:
i) Integrando por partes con u = e−t, dv = tx−1 se tiene du = − e−t, v = tx/x
tx−1
e−t
dt =
txe−t
x
+
1
x
tx
e−t
dt =
1
x
tx
e−t
+ t(x+1)−1
e−t
dt
Entonces:
h
1 tx−1e−t dt = 1
x
txe−t h
1
+
h
1 t(x+1)−1e−t dt =
= 1
x
hxe−h − e−1 +
h
1 t(x+1)−1e−t dt
Tomando l´ımite para h → ∞ se obtiene:
∞
1
tx−1
e−t
dt =
1
x
−e−1
+
∞
1
t(x+1)−1
e−t
dt (7)
An´alogamente:
1
h tx−1e−t dt = 1
x
txe−t 1
h
+
1
h t(x+1)−1e−t dt =
= 1
x
e−1 − hxe−h +
1
h t(x+1)−1e−t dt
Tomando l´ımite para h → 0+ se obtiene:
1
0
tx−1
e−t
dt =
1
x
e−1
+
1
0
t(x+1)−1
e−t
dt (8)
Juntando los resultados (7) y (8) se tiene Γ(x) = 1
x
Γ(x + 1) como se quer´ıa demostrar.
ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. M´as
formalmente, utilicemos inducci´on completa:
• Paso base:
Γ(1) =
∞
0
e−t
dt =
1
0
e−t
dt +
∞
1
e−t
dt = lim
h → 0+
e−h
+ lim
k →∞
e−k
= 1 = 0!
• Hip´otesis inductiva (HI): Suponemos Γ(n) = (n − 1)!
Prof.J.Gast´on Argeri 66
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 67
• En base a la HI queremos demostrar que Γ(n + 1) = n!. Para ello:
Γ(n + 1) = nΓ(n) = n(n − 1)! = n!
Por lo tanto Γ(n) = (n − 1)! es verdadera para todo n ∈ N
Dados α, λ ∈ R , α, λ  0 se dice que una variable aleatoria X posee distribuci´on gama de
par´ametros α, λ sii posee fdp dada por
fX(x) =
λα
Γ(α)
xα−1
e− λx
(x  0)
En tal caso anotaremos X ∼ Γ(α, λ). El par´ametro α suele llamarse par´ametro de forma (”shape”)
y el par´ametro λ se suele denominar par´ametro de intensidad (”rate”). Verifiquemos que fX es
efectivamente una fdp:
• Para todo x ∈ R es fX(x) = λα
Γ(α)
xα−1e− λx ≥ 0
• Debemos verificar que la integral de fX sobre R es 1. Si en la integral se realiza el cambio de
variables t = λx se tendr´a:
∞
0
λα
Γ(α)
xα−1
e− λx
dx =
1
Γ(α)
∞
0
tα−1
e−t
dt =
Γ(α)
Γ(α)
= 1
Grafiquemos algunos ejemplos de densidades gama:
alfa= 0.5
x
y
0.0 0.02 0.04 0.06 0.08 0.10
02468101214
lambda=0.2
lambda=0.4
lambda=0.6
alfa= 1
x
y
0 2 4 6
0.00.10.20.30.40.50.6
lambda=0.2
lambda=0.4
lambda=0.6
alfa= 1.5
x
y
0 5 10 15
0.00.050.100.150.200.250.30
lambda=0.2
lambda=0.4
lambda=0.6
Familia de densidades gama
Examinando los distintos gr´aficos se dar´a cuenta porque α y λ se dicen par´ametros de ”forma” e
”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero
para x → ∞), respectivamente.
Observemos que la distribuci´on Γ(1, λ) es precisamente la distribuci´on exponencial de par´ametro λ.
En efecto, sea X ∼ Γ(1, λ):
fX(x) =
λ1
Γ(1)
x1−1
e− λx
= λe− λx
Nota: Comandos de SPlus dgamma , pgamma , qgamma
Vamos a vincular las distribuciones gamma y Poisson.
Prof.J.Gast´on Argeri 67
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 68
Propiedad 44 Sean n ∈ N, x  0. Sea X ∼ Γ(n, λ). Si Y ∼ P(λx) entonces se cumple:
FX(x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1)
Dem:
Mediante integraci´on por partes, con u = tn−1 y dv = e− λtdt, se tiene:
tn−1
e− λt
dt = −λ−1
tn−1
e− λt
+ (n − 1) tn−2
e− λt
dt
Aplicando la regla de Barrow entre t = 0 y t = x y anotando In(x) =
x
0 tn−1e− λt dt resulta:
λIn(x) = (n − 1)In−1(x) − xn−1
e− λx
(9)
Queremos demostrar (lo haremos por inducci´on sobre n):
∀n ∈ N , ∀x  0 ,
x
0
λn
(n − 1)!
tn−1
e− λt
dt = 1 −
n−1
k=0
(λx)k
k!
e− λx
En otro t´erminos, queremos probar que:
λn
(n − 1)!
In(x) = 1 −
n−1
k=0
(λx)k
k!
e− λx
(10)
Entonces:
• Paso base: I1(x) =
x
0 λe− λt dt = 1− e− λt x
0
= 1−e− λx Esto es precisamente (10) cuando
n = 1
• Hip´otesis inductiva (HI): Supongamos (10) es verdadera.
• Utilizando (9) junto con (HI) se tiene:
λn+1
n!
In+1(x) = λn
n!
nIn(x) − xne− λx = λn
(n−1)!
In(x) − (λx)n
n!
e− λx =
= 1 −
n−1
k=0
(λx)k
k!
e− λx − (λx)n
n!
e− λx = 1 −
n
k=0
(λx)k
k!
e− λx
20.5 Distribuci´on chi cuadrado
Esta distribuci´on es un caso particular de la distribuci´on gama. Si en la familia de distribuciones gama
se considera α = n/2, siendo n natural, y se toma λ = 1/2 se obtiene la llamada distribuci´on chi
cuadrado con n grados de libertad (g.l.). Es decir:
Dado n ∈ N, se dice que una variable aleatoria X posee distribuci´on chi cuadrado con n grados de
libertad sii posee fdp dada por:
fX(x) =
1
2n/2Γ(n/2)
x(n/2)−1
e− x/2
(x  0)
En tal caso anotamos X ∼ χ2(n). La distribuci´on chi cuadrado con g.l.=2 tambi´ense denomina
distribuci´on de Raleygh y la chi cuadrado con g.l.=3 tambi´en se llama distribuci´on de Maxwell-
Boltzman (Estos t´erminos son m´as frecuentes en mec´anica estad´ıstica).
Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados:
Nota: En SPlus los comandos ´utiles son dchisq , pchisq , qchisq.
Prof.J.Gast´on Argeri 68
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 69
x
y
0.0 0.5 1.0 1.5 2.0
0.00.51.01.5
g.l=1
g.l=2
x
y 0 5 10 15
0.00.050.100.150.200.25
g.l=3
g.l=4
g.l=8
Familia de densidades chi cuadrado
20.6 Distribuci´on beta
Se denomina funci´on beta la fuenci´on B : (0, ∞) × (0, ∞) → R dada por
B(α, β) =
1
0
xα−1
(1 − x)β−1
dx
Obs´ervese que seg´un los valores de α, β la integral que define a la funci´on beta puede ser impropia
en el origen (cuando 0  α  1) y/o en x = 1 (cuando 0  β  1), o directamente ser propia.
Una aplicaci´on trivial del creiterio de comparaci´on muestra que la integral impropia es convergente
para cualesquiera α, β  0. Mencionemos dos propiedades ´utiles de la funci´on beta.
Propiedad 45 Para cualesquiera α, β ∈ R, α  0, β  0 se verifican:
i) B(α, β) = Γ(α)Γ(β)
Γ(α+β)
ii) B(β, α) = B(α, β)
Dados α, β ∈ R , α  0, β  0 se dice que una variable aleatoria X posee distribuci´on beta con
par´amteros α, β si posee fdp dada por:
fX(x) =
1
B(α, β)
xα−1
(1 − x)β−1
(0  x  1)
En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp:
• Para x ∈ (0, 1) , 1
B(α,β)
xα−1(1 − x)β−1 ≥ 0
•
1
0
1
B(α,β)
xα−1(1 − x)β−1 dx = 1
B(α,β)
B(α, β) = 1
Grafiquemos algunos ejemplos de fdp para distribuciones beta:
Prof.J.Gast´on Argeri 69
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 70
alfa= 0.5
x
y
0.0 0.2 0.4 0.6 0.8 1.0
01234
beta= 0.4
beta= 1
beta= 1.5
alfa= 0.7
x
y
0.0 0.2 0.4 0.6 0.8 1.0
012345
beta= 0.4
beta= 1
beta= 1.5
alfa= 1
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0123456
beta= 0.4
beta= 1
beta= 1.5
alfa= 1.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0246
beta= 0.4
beta= 1
beta= 1.5
Familia de densidades beta
Cuando α = β la distribuci´on beta es sim´etrica respecto de x = 0.5 Un caso particular (evidente)
de la distribuci´on beta es la U(0, 1). Esto tambi´en se aprecia en el gr´afico correspondiente a los
valores α = 1 , β = 1
20.7 Distribuci´on de Cauchy
Dados λ ∈ R, θ ∈ R, θ  0, se dice que una variable aleatoria tiene distribuci´on de Cauchy con
par´ametros λ, θ sii posee fdp dada por:
fX(x) =
θ
π
1
θ2 + (x − λ)2 (x ∈ R)
En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el par´ametro de posici´on y θ el par´ametro de
escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho m´as pesadas,
como veremos posteriormente. Esta familia de distribuciones es importante en estudios te´oricos y de
simulaci´on. En la gr´afica se observan fdp Cauchy para distintos valores de los par´ametros: Nota: En
SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy.
Prof.J.Gast´on Argeri 70
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 71
misma theta, distintas lambda
x
y
-2 0 2 4 6 8 10 120.00.050.100.150.20
C(4,1.5)
C(2,1.5)
C(7,1.5)
misma lambda, distintas theta
x
y
0 2 4 6 8
0.00.10.20.30.4
C(4,0.75)
C(4,1.5)
C(4,2.25)
Familia de densidades Cauchy
20.8 Distribuci´on lognormal
Sean µ, σ ∈ R , σ  0. Se dice que una variable aleatoria X tiene distribuci´on lognormal con
par´ametros µ, σ sii ln X posee distribuci´on N (µ, σ2). Para hallar la fdp de X, llamemos Y =
ln X de manera que Y ∼ N (µ, σ2), y procedamos como sigue:
FX(x) = P (X ≤ x) = P (eY
≤ x) = P (Y ≤ ln x) = FY (ln x)
Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos:
fX(x) = fY (ln x) ·
1
x
=
1
√
2π σx
e− 1
2
(ln x−µ)2/σ2
Las caracter´ısticas salientes de la gr´afica de una fdp lognormal puede estudiarse anal´ıticamente. Pre-
sentamos algunos ejemplos: Nota: Los comandos ´utiles en SPlus son dlnorm , plnorm , qlnorm.
misma mu,distintas sigma
x
y
0 1 2 3 4 5 6
0.00.10.20.3
logN(1,0.25)
logN(1,1)
logN(1,2.25)
misma sigma,distintas mu
x
y
0 1 2 3 4 5 6
0.00.100.200.30
logN(0.7,1)
logN(1,1)
logN(1.3,1)
Familia de densidades lognormales
Prof.J.Gast´on Argeri 71
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 72
20.9 Distribuci´on t doble exponencial o de Laplace
Dados µ, λ ∈ R , σ  0, se dice que una variable aleatoria tiene distribuci´on doble exponencial con
par´ametros µ, λ sii posee fdp dada por:
fX(x) =
1
2λ
e− λ|x−µ|
(x ∈ R)
En tal caso anotamos X ∼ DE(µ, λ). Obs´ervese que, para µ = 0, esta fdp se obtiene al dividir por
dos la fdp exponencial de par´ametro λ y simetrizando por paridad con respecto al eje de ordenadas
(Cada mitad encierra ´area 0.5 por debajo, de modo que el ´area total por debajo es la unidad).
Tambi´en notemos que ambas mitades se han ”pegado” de manera no suave en el origen, resultando
una fdp no diferenciable all´ı. En la gr´afica se observa este hecho como un ”pico” en forma angulosa
(en el origen duando µ = 0 y en x = µ en general). La doble exponencial resulta interesante puesto
que posee colas m´as pesadas que la distribuci´on normal. Entre otras razones resulta ´util cuando se
estudia la eficiencia asint´otica de ciertos estimadores, como veremos posteriormente.
misma lambda, distintas mu
x
y
-2 0 2 4 6 8 10
0.00.20.40.6
DE(3,0.6)
DE(2,0.6)
DE(5,0.6)
misma mu, distintas lambda
x
y
-2 0 2 4 6 8 10
0.00.20.40.60.8
DE(3,0.3)
DE(3,0.6)
DE(3,0.9)
Familia de densidades doble exponencial
Nota: La distribuci´on doble exponencial no est´a disponible mediante comandos de SPlus, dada su
sencilla vinculaci´on con la distribuci´on exponencial.
20.10 Distribuci´on t de Student
Dado n ∈ N, se dice que una variable aleatoria tiene distribuci´on t de Student con n grados de
libertad (g.l) sii posee fdp dada por:
fX(x) =
Γ n+1
2
Γ n
2
√
nπ
1 +
x2
n
− (n+1)/2
(x ∈ R)
En tal caso anotaremos X ∼ t(n). Esta distribuci´on es de aspecto acampanado, semejante a primera
vista a la N (0, 1), pero es de colas m´as pesadas que ´esta y cobrar´a importancia a medida que
avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante:
La distribuci´on C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student:
Se observa que a medida que aumentan los grados de libertad, la distribuci´on t de Student se aproxima
cada vez m´as a la N (0, 1).
Nota: Los comandos ´utiles en SPlus son dt , pt , qt.
Prof.J.Gast´on Argeri 72
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 73
Familia de densidades t de Student
x
y
-4 -2 0 2 4
0.00.10.20.30.4
t(2)
t(5)
t(12)
N(0,1)
20.11 Distribuci´on F de Fisher
Dados m, n ∈ N, se dice que una variable aleatoria X tiene distribuci´on Fisher con m, n grados de
libertad (g.l) sii posee fdp expresada por:
fX(x) =
Γ m+n
2
Γ m
2
Γ n
2
x(m/2)−1 m
n
m/2
1 +
mx
n
− (m+n)/2
(x  0)
En tal caso se anota X ∼ F (m, n). Esta distribuci´on cobrar´a importancia cuando estudiemos prob-
lemas de inferencia m´as adelante.
Nota: Los comandos de SPlus que utilizaremos son df , pf , qf.
Familia de densidades F de Fisher
x
y
0 1 2 3 4 5 6
0.00.20.40.6
F(3,4)
F(5,4)
F(12,4)
Familia de densidades F de Fisher
x
y
0 1 2 3 4 5 6
0.00.20.40.6
F(4,3)
F(4,5)
F(4,12)
Prof.J.Gast´on Argeri 73
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 74
20.12 Distribuci´on Weibull
Dados α, β ∈ R , α  0, β  0, se dice que una variable aleatoria X tiene distribuci´on Weibull de
par´ametros α, β si posee fdp dada por:
fX(x) =
1
βα
xα−1
e− (x/β)α
(x  0)
En tal caso anotamos X ∼ W(α, β). La distribuci´on Weibull es importante en el estudio de tiempos
de sobrevida. El aspecto de la gr´afica de una fdp Weibull puede observarse en las siguientes figuras:
x
y
0 1 2 3 4
0.00.51.01.5
W(0.5,1)
W(1,1)
W(1.5,1)
x
y
0 1 2 3 4
0.00.51.01.5
W(1,0.5)
W(1,1)
W(1,1.5)
Familia de densidades Weibull
Nota: Como caso particular, observemos que tomando α = 1 y λ = β−1 se obtiene la distribuci´on
exponencial de par´ametro λ.
20.13 Distribuci´on log´ıstica
Dados θ, λ ∈ R , θ  0, se dice que una variable aleatoria X tiene distribuci´on log´ıstica de
par´ametros λ, θ si posee fdp dada por:
fX(x) =
1
θ
e− (x−λ)/θ
1 + e− (x−λ)/θ 2
En tal caso anotamos X ∼ L(λ, θ). Las gr´aficas de las fdp log´ısticas asemejan a la gaussiana, pero
con colas m´as pesadas. Presentemos algunas figuras comparativas:
Prof.J.Gast´on Argeri 74
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 75
misma theta, distintas lambda
x
y
-4 -2 0 2 4 6 8
0.00.10.20.30.4
L(2,1)
L(3,1)
L(5,1)
N(0,1)
misma lambda, distintas theta
x
y
-4 -2 0 2 4 6 8
0.00.10.20.30.40.5
L(0,0.5)
L(0,1)
L(0,1.5)
N(0,1)
Familia de densidades logisticas
Prof.J.Gast´on Argeri 75
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 76
Funciones de variables aleatorias
21 Transformaciones de variables aleatorias
21.1 Distribuci´on de una funci´on de una variable aleatoria
Supongamos que un experimento aleatorio est´a dise˜nado para estudiar el ´area de la secci´on transver-
sal de una poblaci´on de tubos cil´ındricos (circulares). Posiblemente cuando se estudia una muestra
aleatoria de tubos se mida el radio de su secci´on transversal, en lugar del ´area de dicha secci´on. Del
mismo modo, podr´ıamos conocer la distribuci´on poblacional del radio de un tubo y estar interesados
en investigar la distribuci´on poblacional del ´area de la secci´on transversal del mismo. Si anotamos
X a la variable aleatoria ”radio del tubo” e Y a la variable aleatoria ”´area de la secci´on transver-
sal del tubo”, existe una relaci´on funcional determin´ıstica entre ambas variables aleatorias, a saber:
Y = πX2. Dado que la distribuci´on de X queda determinada por FX, es de esperar que ´esta
tambi´en determine la distribuci´on FY .
Definici´on 25 Sean Σ una σ-´algebra de subconjuntos de Ω, X una variable aleatoria sobre
(Ω, Σ) con rango RX y D
g
→ R una funci´on con RX ⊆ D. Definimos Ω
g(X)
→ R como
la funci´on compuesta g(X) = g ◦ X. Es decir, para cada ω ∈ Ω se define (g(X)) (ω)
def
=
(g ◦ X) (ω) = g (X(ω))
Recordemos que B designa la σ-´algebra de Borel en R, es decir la m´ınima σ-´algebra de subconjuntos
de R que contiene a todos los abiertos.
Nos preguntamos qu´e caracter´ıstica debe tener la funci´on g en la def. anterior de modo que g(X) sea
una variable aleatoria sobre (Ω, Σ). Para responder a esta pregunta necesitamos una definici´on previa.
Definici´on 26 Diremos que una funci´on D
g
→ R, con D ⊆ R, es boreliana sii se verifica:
∀B ∈ B , g−1
(B) ∈ B
Las funciones continuas son s´olo un ejemplo de la ampl´ısima variedad de funciones borelianas.
Propiedad 46 Sean X , g como en la primera definici´on. Anotemos Y = g(X). Si g es una
funci´on boreliana entonces Y es una variable aleatoria sobre (Ω, Σ).
Dem:
Sea B ∈ B. Para ver que Y es variable aleatoria sobre (Ω, Σ) debemos verificar que Y −1(B) ∈ Σ.
Pero:
{Y ∈ B} = Y −1(B) = {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g (X(ω)) ∈ B} =
= ω ∈ Ω : X(ω) ∈ g−1(B) = ω ∈ Ω : ω ∈ X−1 g−1(B)
= X ∈ g−1(B)
Siendo g boreliana y B ∈ B se cumple g−1(B) ∈ B. Pero puesto que X es variable aleatoria
sobre (Ω, Σ) resulta X−1 g−1(B) ∈ Σ. Esto demuestra que Y −1(B) ∈ Σ, como dese´abamos
ver
Investiguemos la relaci´on entre la fda de X y la fda de Y = g(X) (suponi´endola v.a.). Notemos
ante todo que RY = g (RX) = {g(x) : x ∈ RX}. Fijado y ∈ R hemos visto que
{Y ≤ y} = X ∈ g−1 ((− ∞, y])
Prof.J.Gast´on Argeri 76
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 77
Por lo tanto:
FY (y) = P X ∈ g−1 ((− ∞, y])
As´ı, cuando X es v.a.discreta, digamos con RX = {xn}, resulta tambi´en Y discreta con RY =
{g(xn)} (Notar que como g no necesita ser 1-1, los valores g(xn) pueden estar repetidos). Si
anotamos RY = {yn} se tiene:
FY (y) =
∞
n=1
yn≤y
pY (yn) =
∞
n=1
yn≤y
P (Y = yn) =
∞
n=1
yn≤y
P X ∈ g−1 ({yn}) =
=
∞
n=1
g(xn)≤y
pX(xn)
An´alogamente:
pY (yn) = P (Y = yn) = P X ∈ g−1(yn) =
∞
n=1
g(xn)=yn
P (X = xn) =
=
∞
n=1
g(xn)=yn
pX(xn)
En cambio, si X es v.a. continua con fdp fX, resulta:
FY (y) = P X ∈ g−1 ((− ∞, y]) =
g−1 ((− ∞,y])
fX(x) dx
En este caso no queda claro si Y posee fdp. Esta situaci´on se analizar´a m´as adelante. Por ahora nos
dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver.
Nota: Cuando X discreta, la funci´on g no necesita ser boreliana puesto que en este caso es
Σ = P(Ω).
Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e
id´enticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide
la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X.
Ac´a g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX. Para k ∈ RY se tiene:
pY (k) = P (Y = k) = P (n − X = k) =
= P (X = n − k) = pX(n − k) = n
n−k
pn−k(1 − p)k = n
k
(1 − p)kpn−k
Esto muestra (aunque es obvio) que Y ≈ Bi(n, 1 − p).
Ejemplo: Sea X ≈ E(λ). Determinemos la distribuci´on de Y = 1
X
. Evidentemente RY = (0, ∞).
Se tiene para y  0:
FY (y) = P (Y ≤ y) = P 1
X
≤ y = P X ≥ 1
y
=
=
∞
1/y
λe− λx dx = − e− λx ∞
1/y
= e− λ/y
Por lo tanto:
fY (y) = FY (y) =
λe− λ/y
y2
(para Y  0)
Prof.J.Gast´on Argeri 77
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 78
Ejemplo: Sea X ≈ N (0, 1). Definamos Y = X2. Hallemos la fda de Y . Naturalmente RY =
(0, ∞). Fijado y  0 se tiene:
FY (y) = P (Y ≤ y) = P (X2 ≤ y) = P (|X| ≤ (y)) = P (−
√
y ≤ X ≤
√
y) =
=
√
y
−
√
y
1√
2π
· e− x2/2 dx = Φ(
√
y) − Φ(−
√
y) = 2Φ(
√
y) − 1
Luego:
fY (y) = FY (y) = 2Φ(
√
y) − 1 =
2ϕ(
√
y)
2
√
y
=
ϕ(
√
y)
√
y
=
= 1√
2π
· y− 1/2e−y/2 (para y  0)
Habr´an reconocido que ´esta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es
decir:
X ≈ N (0, 1) ⇒ X2
≈ χ2
(1)
Hay dos casos donde la relaci´on entre FX y FY es muy sencilla: Cuando la funci´on g es estrictamente
mon´otona sabemos que existe la funci´on inversa g(D)
g−1
→ D la cual verifica:
• ∀x ∈ D , g−1 (g(x)) = x
• ∀y ∈ g(D) , g g−1(y) = y
Consideremos por separado los casos g creciente y g decreciente:
• Cuando g es creciente tambi´en g−1 lo es. En efecto: Si y, u ∈ g(D) , y  u entonces
no puede ser g−1(y) ≥ g−1(u) porque en tal caso, sabiendo que g crece resultar´ıa la con-
tradicci´on y = g(g−1(y)) ≥ g(g−1(u)) = u. Luego, necesariamente es g−1(y)  g−1(u).
Por lo tanto podemos reescribir:
X ∈ g−1 ((− ∞, y]) ⇔ g(X) ∈ (− ∞, y] ⇔ g(X) ≤ y ⇔ g−1 (g(X)) ≤ g−1(y)
⇔ X ≤ g−1(y)
Entonces se obtiene:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g−1
(y)) = FX(g−1
(y))
Dicho de otro modo: FY = FX ◦ g−1
• Cuando g es decreciente tambi´en g−1 lo es (sencillo de demostrar) y en tales casos la relaci´on
entre FX y FY viene dada por: FY (y) = 1 − lim
t g−1 (y)
FX(t). Si adem´as FX es continua
en el punto x = g−1(y) esto se simplifica a´un m´as: FY (y) = 1 − FX(g−1(y))
Teorema 8 Sea X ∼ N (µ, σ2) y sean a, b ∈ R , a = 0. Entonces:
Y = aX + b ∼ N (aµ + b, a2
σ2
)
Prof.J.Gast´on Argeri 78
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 79
Dem:
Consideremos primeramente el caso a  0. Se tiene: FY (y) = P (Y ≤ y) = P (aX + b ≤
y) = P (aX ≤ y − b) = P X ≤ y−b
a
= FX
y−b
a
. Esto mismo se pod´ıa obtener a partir
de g(x) = ax + b hallando la inversa: g−1(y) = (y − b)/a. Entonces seg´un las observaciones
anteriores es FY (y) = FX(g−1(y)) = FX
y−b
a
.
Luego, derivando respecto de y se obtiene:
fY (y) = 1
a
FX
y−b
a
= 1
a
1√
2π σ
e
− 1/2
y−b
a −µ
σ
2
= 1√
2π aσ
e
− 1/2
y−(aµ+b)
aσ
2
Pero esta es precisamente la fdp N (aµ + b, a2σ2)
Ahora consideremos el caso a  0. Se tiene: FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤
y − b) = P X ≥ y−b
a
= 1 − FX
y−b
a
. Por lo tanto, derivando respecto de y se tiene:
fY (y) = −1
a
FX
y−b
a
= 1
|a|
1√
2π σ
e
− 1/2
y−b
a −µ
σ
2
= 1√
2π |a|σ
e
− 1/2
y−(aµ+b)
|a|σ
2
Reconocemos aqu´ı nuevamente la fdp N (aµ + b, (|a| σ)2
) es decir N (aµ + b, a2σ2)
Corolario 6
X ∼ N (µ, σ2
) ⇔
X − µ
σ
∼ N (0, 1)
Nota: A partir de una variable aleatoria X ∼ N (µ, σ2), el proceso de restarle mu y dividir el
resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ
σ
, se denomina standarizar X.
O sea, Z es la standarizaci´on de X.
Ejemplo: Si X ∼ N (2, 9) calcular:
a) P (1  X  5)
Rta:
P (1  X  5) = P 1−2
3
 X−2
3
 5−2
3
= P (− 1/3  Z  1) = Φ(1) − Φ(− 1/3) ≈
0.841 − 0.369 = 0.472
b) P (|X − 3|  6)
Rta:
P (|X − 3|  6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) =
= 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P −3−2
3
≤ X−2
3
≤ 9−2
3
=
= 1 − P (−5/3 ≤ Z ≤ 7/3) = 1 − [Φ(7/3) − Φ(−5/3)] ≈
≈ 1 − 0.990 + 0.048 = 0.058
Teorema 9 (Teorema de cambio de variables) Sea [c, d]
g
→ R diferenciable con continuidad
en [c, d] (es decir g existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica:
g(d)
g(c)
f(x) dx =
d
c
f (g(t)) g (t) dt
Prof.J.Gast´on Argeri 79
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 80
Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo
de extremos g(c) y g(d).
Dem:
Por hip´otesis las funciones [c, d]
g ,f◦g
−→ R son continuas. Definamos [c, d]
G
→ R y g ([c, d])
F
→ R por
G(t) =
t
c f (g(s)) g (s) ds ; F (x) =
x
g(c) f(w) dw
Por el teorema fundamental del c´alculo se tiene:
G (t) = f (g(t)) g (t) para todo t ∈ [c, d]
F (x) = f(x) para todo x ∈ g ([c, d])
Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g en [c, d]. Por lo tanto existe alguna
constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego
k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado
Corolario 7 Sea X una v.a. continua con fdp fX. Anotemos SX al soporte de fX y supongamos
que es un intervalo. Sea g una funci´on continua y estrictamente mon´otona en §X. Definamos
SY
def
= g(SX). Supongamos que g−1 es diferenciable con continuidad en SY Entonces la variable
aleatoria Y = g(X) es continua y su fdp viene dada por:
fY (y) =



fX(g−1(y)) · d
dy
g−1(y) si y ∈ RY
0 si y ∈ RY
Dem:
Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua re-
sulta que g(RX) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y
de SY respectivamente. Entonces:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (g(X) ≤ y, X ∈ RX) = P (X ≥ g−1(y)) =
=
∞
g−1 (y) fX(x)IX(x) dx =
− ∞
y fX g−1(y) g−1 (y)IY (y) dy =
= −
y
− ∞ fX g−1(y) d
dy
g−1(y) IY (y) dy =
=
y
− ∞ fX g−1(y) − d
dy
g−1(y) IY (y) dy =
=
y
− ∞ fX g−1(y) d
dy
g−1(y) IY (y) dy
El otro caso es similar
Ejemplo: Veamos que si X ∼ U(0, 1) entonces Y = − ln(1 − X) ∼ E(1)
Notemos que SX = (0, 1) Adem´as en este caso Y = g(X) siendo y = g(x) = − ln(1 − x) Esta
funci´on es estrictamente creciente en SX como puede comprobarse v´ıa gr´afica o evaluando el signo
de g en SX Se tiene: (0, 1)
g
→ (0, ∞) , g−1(y) = 1 − e− y es diferenciable con continuidad,
siendo d
dy
g−1(y) = e− y Por el teorema resulta:
fY (y) = fX(1 − e− y
)e−y
I(0,∞)(y) = e−y
I(0,∞)(y)
que es precisamente la densidad de una E(1)
Ejemplo: Mostrar que si X ∼ U(0, 1) entonces Y = βX1/α ∼ W(α, β)
Prof.J.Gast´on Argeri 80
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 81
Se tiene SX = (0, ∞) En este caso (0, ∞)
g
→ (0, ∞) es estrictamente creciente con inversa
continuamente diferenciable: g−1(y) = (y/β)α , d
dy
g−1(y) = α
βα yα−1 Por el teorema se tiene:
fY (y) = fX ((y/β)α
) ·
α
βα
yα−1
I(0,∞)(y) =
α
βα
yα−1
I(0,∞)(y)
que es precisamente la densidad W(α, β)
Ejemplo: Si X ∼ U(0, 1) y si Φ es la fda normal standard entonces Y = Φ−1(X) ∼ N (0, 1)
Por ejemplo con Splus o R podr´ıamos generar n = 100 observaciones normales standard del modo
siguiente:
x_runif(100)
y_qnorm(x)
y
qqnorm(y)
qqline(y)
cuyo resultado es:
 y
[1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002
[6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825
[11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211
[16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787
[21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503
[26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270
[31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769
[36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705
[41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375
[46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984
[51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189
[56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472
[61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446
[66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757
[71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629
[76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989
[81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554
[86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671
[91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222
[96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106
Quantiles of Standard Normal
y
-2 -1 0 1 2
-2-10123
Prof.J.Gast´on Argeri 81
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 82
El teorema anterior tiene el inconveniente de requerir la monoton´ıa de g Presentamos a continuaci´on
una versi´on menos restrictiva del mismo teorema.
Teorema 10 ddd
Prof.J.Gast´on Argeri 82
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 83
Esperanza y varianza
22 Valor esperado de una variable aleatoria
22.1 Motivaci´on
Los ejemplos siguientes aclaran la situaci´on que vamos a considerar.
Ejemplo: Una prueba es calificada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos
realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje):
Al. X Al. X Al. X Al. X Al. X
1 2 8 1 15 2 22 1 29 0
2 1 9 2 16 2 23 1 30 1
3 1 10 1 17 1 24 2 31 1
4 0 11 1 18 2 25 1 32 2
5 2 12 1 19 1 26 1 33 2
6 2 13 0 20 1 27 2 34 2
7 2 14 3 21 0 28 1 35 1
Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qu´e puntaje se espera observar?
Dicho en otro t´erminos, ¿ qu´e n´umero podemos tomar como representativo del puntaje del curso?
Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable
aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno
al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso
es (n = 35):
¯X = 2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1
35
Para calcular el numerador de esta expresi´on podemos agrupar puntajes iguales, es decir que podemos
agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el c´alculo anterior
adopta la forma:
¯X = 0·f(X=0)+1·f(X=1)+2·f(X=2)+3·f(X=3)
35
=
= 0·4+1·18+2·12+3·1
35
En los c´alculos f(k) = f(X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si
ahora distribuimos el denominador, se obtiene:
¯X = 0·4+1·18+2·12+3·1
35
= 0 · 4
35
+ 1 · 18
35
+ 2 · 12
35
+ 3 · 1
35
=
= 0 · f(X=0)
35
+ 1 · f(X=1)
35
+ 2 · f(X=2)
35
+ 3 · f(X=3)
35
=
=
=
n
k=0
k · f(X=k)
n
Ahora bien, los n´umeros f(X=k)
n
vienen dados precisamente por la fmp de X, es decir pX(k) =
P (X = k). Entonces obtenemos el siguiente resultado:
¯X =
n
k=0
k · pX(k) =
n
k=0
k · P (X = k) =
k∈RX
k · P (X = k)
Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta poblaci´on
Prof.J.Gast´on Argeri 83
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 84
sigue una distribuci´on N (1.70, 0.01). Si se extrae un individuo al azar de esta poblaci´on, ¿ qu´e
altura esperada tendr´a? Es decir, ¿ qu´e n´umero podr´ıamos tomar como representativo de la altura de
un individuo en dicha poblaci´on? A diferencia del ejemplo anterior, en este caso la variable aleatoria
X es continua. Podemos considerar un rango razonable [L, U] de alturas (por ejemplo podr´ıamos
tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U] en cierta cantidad n de
subintervalos, mediante una partici´on regular:
L = xo  x1  · · ·  xn = U
y llamemos h a la norma de esta partici´on, es decir h = (U − L)/n. Recordemos que:
fX(x) = lim
h → 0+
P (x ≤ X  x + h)
h
Por lo tanto podemos escribir:
P (x ≤ X  x + h) = hfX(x) + o(h) para h → 0+
o aproximadamente para h peque˜no: P (x ≤ X  x + h) ≈ hfX(x). En cada subintervalo
[x, x + h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo
de las alturas all´ı (h peque˜no). Luego, imitando los c´alculos del ejemplo anterior, tomar´ıamos como
altura representativa aproximada:
n
k=1
xkP (xk−1 ≤ X  xk) ≈
n
k=1
xkfX(xk)h =
n
k=1
xkfX(xk) · h
El c´alculo resultar´a m´as representativo cuanto m´as peque˜no sea h. En el l´ımite el c´alculo resultar´a
exacto. Pero de acuerdo a la definici´on de integral definida se tiene:
lim
h → 0+
n
k=1
xkfX(xk) · h =
U
L
xfX(x) dx
Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente
a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera
posibles valores de X en su rango RX = R (recordemos que esto es s´olo un modelo para la poblaci´on
real). Entonces lo l´ogico ser´a tomar como representativo de la altura de la poblaci´on al n´umero:
∞
− ∞
xfX(x) dx
22.2 Definici´on y ejemplos
Definici´on 27 Sea X una variable aleatoria discreta con rango RX = {xk} (finito o infinito
numerable) y sea pX su fmp. Se define el valor esperado o la esperanza de X como el n´umero real:
E(X) =
x∈RX
xP (X = x) =
x∈RX
xpX(x)
siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza
o que la esperanza de X no est´a definda. Al hablar de convergencia absoluta queremos significar que
la serie de los valores absolutos debe converger (suma finita), es decir:
x∈RX
|x| pX(x)  ∞
Prof.J.Gast´on Argeri 84
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 85
Nota: Cuando RX es finito siempre existir´a E(X) puesto que la serie en cuesti´on s´olo consta de
un n´umero finito de t´erminos.
Definici´on 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado
o la esperanza de X como el n´umero real:
E(X) =
∞
− ∞
xfX(x) dx
siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee
esperanza o que la esperanza de X no est´a definda.
Nota: La integral puede ser propia o impropia, dependiendo de las caracter´ısticas y del soporte de fX.
En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos
significar que la integral del valor absoluto debe converger (valor finito), es decir:
∞
− ∞
|x| fX(x) dx  ∞
Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos
introducido anteriormente. Calcularemos tambi´en la esperanza del cuadrado de cada variable aleatoria,
dado que nos resultar´a ´util en el futuro (cuando definamos el concepto de varianza de una variable
aleatoria)
Ejemplo: Geom´etrica
Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como:
E(X) =
∞
k=1
kP (X = k) =
∞
k=1
kqk−1
p = p
∞
k=1
kqk−1
Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado):
S(q) =
∞
k=0
qk
=
1
1 − q
(11)
Derivado respecto de q (justificar´an el intercambio de derivada con suma en alguno de los cursos de
An´alisis Matem´atico) se obtiene:
S (q) =
∞
k=1
kqk−1
=
d
dq
1
1 − q
=
1
(1 − q)2
=
1
p2
Luego:
E(X) = p
1
p2
=
1
p
Por otra parte:
E(X2
) =
∞
k=1
k2
P (X = k) =
∞
k=1
k2
qk−1
p = p
∞
k=1
k2
qk−1
Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces:
S (q) =
∞
k=2
k(k − 1)qk−2
=
d
dq
1
(1 − q)2
=
2
(1 − q)3
=
2
p3
Prof.J.Gast´on Argeri 85
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 86
Si separamos la suma obtenemos:
S (q) =
∞
k=2
k2qk−2 −
∞
k=2
kqk−2 = q−1
∞
k=1
k2qk−1 − 1 −
∞
k=2
kqk−1 =
= q−1
∞
k=1
k2qk−1 − 1 − (S (q) − 1) =
= q−1
∞
k=1
k2qk−1 − S (q)
Despejando:
∞
k=1
k2
qk−1
= qS (q) + S (q) =
2q
p3
+
1
p2
=
2q + p
p3
Por lo tanto:
E(X2
) = p
∞
k=1
k2
qk−1
=
2q + p
p2
Ejemplo: Binomial
Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces:
E(X) =
n
k=0
k n
k
pkqn−k =
n
k=1
kn!
k!(n−k)!
pkqn−k =
n
k=1
n(n−1)!
(k−1)!(n−k)!
pkqn−k =
= np
n
k=1
n−1
k−1
pk−1qn−k = np
n
k=1
n−1
k−1
pk−1qn−k =
= np(p + q)n−1 = np
Para calcular la esperanza del cuadrado de una binomial:
E(X2) =
n
k=0
k2 n
k
pkqn−k =
n
k=1
k2 n
k
pkqn−k =
n
k=1
k2n!
k!(n−k)!
pkqn−k =
=
n
k=1
nk(n−1)!
(k−1)!(n−k)!
pkqn−k = np
n
k=1
k n−1
k−1
pk−1qn−k =
= np
n
k=1
(k − 1) n−1
k−1
pk−1qn−k +
n
k=1
n−1
k−1
pk−1qn−k =
= np
n
k=1
(k − 1) n−1
k−1
pk−1qn−k + 1 = np
n−1
s=0
s n−1
s
psqn−1−s + 1 =
= np [(n − 1)p + 1] = np(np + 1 − p) = np(np + q)
donde hemos utilizado que la ´ultima suma entre corchetes es la expresi´on de la esperanza de una
Bi(n − 1, p), es decir (n − 1)p.
Ejemplo: Poisson
Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza:
E(X) =
∞
k=0
k
λk
k!
e− λ
= λe− λ
∞
k=1
λk−1
(k − 1)!
= λe− λ
∞
s=0
λs
s!
= λe− λ
eλ
= λ
Prof.J.Gast´on Argeri 86
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 87
Calculemos la esperanza de su cuadrado:
E(X2) =
∞
k=0
k2 λk
k!
e− λ = λe− λ
∞
k=1
k λk−1
(k−1)!
= λe− λ
∞
s=0
(s + 1) λs
s!
=
= λ
∞
s=0
s λs
s!
e− λ + e− λ
∞
s=0
λs
s!
= λ λ + e− λeλ = λ(1 + λ)
Ejemplo: Gaussiana standard
Sea X ∼ N (0, 1). Su esperanza se calcula como:
E(X) =
∞
− ∞
x
1
√
2π
e− x2/2
dx =
1
√
2π
∞
− ∞
x e− x2/2
dx
Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = −x2/2 se
tiene dt = − x dx
x e− x2/2
dx = − et
dt = −et
+ C = −e− x2/2
+ C
Por lo tanto:
b
0 x e− x2/2 dx = 1 − e− b2/2 −→
b →∞
1
0
a x e− x2/2 dx = e− a2/2 − 1 −→
a →− ∞
−1
De manera que:
∞
− ∞ x e− x2/2 dx = −1 + 1 = 0. Esto muestra que E(X) = 0
Calculemos ahora E(X2), es decir:
E(X2
) =
∞
− ∞
x2 1
√
2π
e− x2/2
dx =
1
√
2π
∞
− ∞
x2
e− x2/2
dx
Planteamos la integral indefinida por partes: u = x , dv = xe− x2/2 dx. Entonces: du = dx , v =
xe− x2/2 dx = −e− x2/2. Luego:
x2
e− x2/2
dx = xe− x2/2
+ e− x2/2
dx
Por lo tanto:
b
a
x2
e− x2/2
dx = xe− x2/2
b
a
+
b
a
e− x2/2
dx = be− b2/2
− ae− a2/2
+
b
a
e− x2/2
dx
Luego:
0
a x2 e− x2/2 dx −→
a →− ∞
+
0
− ∞ e− x2/2 dx
b
0 x2 e− x2/2 dx −→
b →∞
+
∞
0 e− x2/2 dx
Por lo tanto: ∞
− ∞
x2
e− x2/2
dx =
∞
− ∞
e− x2/2
dx =
√
2π
Finalmente: Por lo tanto:
E(X2
) =
1
√
2π
∞
− ∞
x2
e− x2/2
dx =
1
√
2π
√
2π = 1
Prof.J.Gast´on Argeri 87
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 88
Ejemplo: Exponencial
Sea X ∼ E(λ). Calculemos su esperanza:
E(X) =
∞
0
xλe− λx
dx = λ
∞
0
xe− λx
dx
Planteamos la integral indefinida por partes: u = x , dv = λe− λx dx
xe− λx
dx = −x e− λx
+ e− λx
dx = −x e− λx
−
1
λ
e− λx
Entonces:
E(X) = − x e− λx
∞
0
−
1
λ
e− λx
∞
0
=
1
λ
En cuanto a la esperanza del cuadrado, planteamos:
E(X2
) =
∞
0
x2
λe− λx
dx = λ
∞
0
x2
e− λx
dx
Nuevamente ac´a planteamos la integral indefinida por partes: u = x2 , dv = λe− λx dx
x2
e− λx
dx = −x2
e− λx
+ 2 xe− λx
dx
Entonces:
E(X2) =
∞
0 x2e− λx dx = − x2 e− λx ∞
0
+ 2
∞
0 xe− λx dx = 2
∞
0 xe− λx dx =
= 2 E(X)
λ
= 2/λ2
Ejemplo: Binomial negativa
Sea X ∼ BN (r, p). Su esperanza se calcula como:
E(X) =
∞
k=r
k k−1
r−1
prqk−r =
∞
k=r
k(k−1)!
(r−1)!(k−r)!
prqk−r =
= r
∞
k=r
k!
r!(k−r)!
prqk−r = r
∞
k=r
k
r
prqk−r =
= r
p
∞
k=r
k
r
pr+1qk−r = r
p
∞
s=r+1
s − 1
(r + 1) − 1
pr+1
qs−(r+1)
1
= r
p
Para hallar la esperanza del cuadrado:
E(X2) =
∞
k=r
k2 k−1
r−1
prqk−r =
∞
k=r
rkk!
r!(k−r)!
prqk−r =
= r
∞
k=r
k k
r
prqk−r = r
∞
s=r+1
(s − 1) s−1
r
pr+1qs−r−1 =
= r
p







∞
s=r+1
s
s − 1
r
pr+1
qs−r−1
(r+1)/p
−
∞
s=r+1
s − 1
r
pr+1
qs−r−1
1







= r
p
r+1
p
− 1
Prof.J.Gast´on Argeri 88
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 89
Ejemplo: Gama
Sea X ∼ Γ(α, λ). Calculemos su esperanza:
E(X) =
∞
0 x λα
Γ(α)
xα−1 e− λx dx =
∞
0
λα
Γ(α)
x(α+1)−1 e− λx dx =
= α
λ
∞
0
λα+1
Γ(α+1)
x(α+1)−1 e− λx dx = α
λ
En cuanto a la esperanza del cuadrao, los c´alculos son similares:
E(X2) =
∞
0 x2 λα
Γ(α)
xα−1 e− λx dx =
∞
0
λα
Γ(α)
x(α+2)−1 e− λx dx =
= α(α+1)
λ2
∞
0
λα+2
Γ(α+2)
x(α+2)−1 e− λx dx = α(α+1)
λ2
Ejemplo: Beta
Sea X ∼ Be(α, β). Su esperanza viene dada por:
E(X) =
1
0 x 1
B(α,β)
xα−1 (1 − x)β−1 dx =
1
0
1
B(α,β)
x(α+1)−1 (1 − x)β−1 dx =
=
1
0
1
B(α,β)
x(α+1)−1 (1 − x)β−1 dx = α
α+β
1
0
1
B(α+1,β)
x(α+1)−1 (1 − x)β−1 dx = α
α+β
Calculemos la esperanza de su cuadrado:
E(X2) =
1
0 x2 1
B(α,β)
xα−1 (1 − x)β−1 dx =
1
0
1
B(α,β)
x(α+2)−1 (1 − x)β−1 dx =
= α(α+1)
(α+β)(α+β+1)
1
0
1
B(α+2,β)
x(α+2)−1 (1 − x)β−1 dx = α(α+1)
(α+β)(α+β+1)
Ejemplo: Hipergeom´etrica
Sea X ∼ H(n, D, N). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anota-
mos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M∗ = min {n − 1, D − 1} resulta:
m∗ =
0 si m = 0
m − 1 si m ≥ 1
= max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1
La esperanza de X viene dada por:
E(X) =
M
k=m
k
(D
k )(N−D
n−k )
(N
n )
=
M
k=max{m,1}
k
(D
k )(N−D
n−k )
(N
n )
=
= n
N
M
k=max{m,1}
D(D−1
k−1 )((N−1)−(D−1)
(n−1)−(k−1) )
(N−1
n−1 )
= nD
N
M
k=max{m,1}
(D−1
k−1 )((N−1)−(D−1)
(n−1)−(k−1) )
(N−1
n−1 )
=
= nD
N
M−1
s=max{m,1}−1
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
= nD
N
M∗
s=m∗
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
= n D
N
Prof.J.Gast´on Argeri 89
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 90
Calculemos la esperanza de su cuadrado:
E(X2) =
M
k=m
k2 (D
k )(N−D
n−k )
(N
n )
=
M
k=max{m,1}
k2 (D
k )(N−D
n−k )
(N
n )
=
= n
N
M
k=max{m,1}
k
D(D−1
k−1 )((N−1)−(D−1)
(n−1)−(k−1) )
(N−1
n−1 )
= nD
N
M
k=max{m,1}
k
(D−1
k−1 )((N−1)−(D−1)
(n−1)−(k−1) )
(N−1
n−1 )
=
= nD
N
M−1
s=max{m,1}−1
(s + 1)
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
= nD
N
M∗
s=m∗
(s + 1)
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
=
= nD
N
M∗
s=m∗
s
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
+
M∗
s=m∗
(D−1
s )((N−1)−(D−1)
(n−1)−s )
(N−1
n−1 )
=
= nD
N
(n − 1) D−1
N−1
+ 1 = nD
N
(n−1)(D−1)+(N−1)
N−1
= n D
N
1 + (n − 1) D−1
N−1
=
= N
N−1
1 + n(D−1)
N−D
n D
N
1 − D
N
Ejemplo: Chi cuadrado
Sea X ∼ χ2(n) = Γ n
2
, 1
2
. Entonces por lo visto para la gamma, se tiene:
E(X) = n/2
1/2
= n ; E(X2) =
n
2 (n
2
+1)
(1/2)2 = n(n + 2)
Ejemplo: Uniforme
Sea X ∼ U(a, b). En este caso:
E(X) =
b
a x 1
b−a
dx = 1
b−a
b
a x dx = 1
b−a
x2
2
b
a
= b2−a2
2(b−a)
= (b−a)(b+a)
2(b−a)
= a+b
2
E(X2) =
b
a x2 1
b−a
dx = 1
b−a
b
a x2 dx = 1
b−a
x3
3
b
a
= b3−a3
3(b−a)
= (b−a)(a2+ab+b2)
3(b−a)
= a2+ab+b2
3
Ejemplo: t de Student
Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos
analizar ante todo la convergencia de la integral impropia. Por simetr´ıa y dado que dicha integral
es propia en el origen, vamos a estudiarla en [
√
n, ∞). De hecho, para que nos sirva despu´es,
estudiaremos la convergencia de la siguiente (un poco m´as general):
Ik,n =
∞
√
n
xk
1 + x2
n
(n+1)/2
dx
Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/
√
n. Entonces dt =
dx/
√
n. Luego:
Ik,n = n(k+1)/2
∞
1
tk
(1 + t2)(n+1)/2
dt
Pero si t ≥ 1 se cumple:
• tk
(1+t2)(n+1)/2 ≤ tk
tn+1 = 1
tn+1−k pues 1 + t2 ≥ t2
• tk
tk
(1+t2)(n+1)/2
≥ tn
(1+t2)(n+1)/2 ≥ tn
(2t2)(n+1)/2 = 1
2(n+1)/2 t
pues 1 + t2 ≤ t2 + t2 = 2t2
Prof.J.Gast´on Argeri 90
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 91
Luego: Ik,n es convergente sii n + 1 − k  1 sii k  n. Deducimos inmediatamente que si
X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero
E(X2) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X2).
Vamos a calcularlas: Para alivianar notaci´on denotemos An =
Γ(n+1
2 )
Γ(n
2 )
√
nπ
. Tengamos presente que
por definici´on de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N:
∞
−∞
dt
(1 + t2)(n+1)/2
= n− 1/2
∞
− ∞
dx
1 + x2
n
(n+1)/2
= n1/2
An
−1
Entonces usando consecutivamente las sustituciones t = x/
√
n , s = 1 + t2 se obtiene para n ≥ 2:
E(X) = An
∞
− ∞
x
1+ x2
n
(n+1)/2 dx = nAn
∞
− ∞
t
(1+t2)(n+1)/2 dt =
= nAn
0
− ∞
t
(1+t2)(n+1)/2 dt +
∞
0
t
(1+t2)(n+1)/2 dt =
= 1
2
nAn
0
∞
ds
s(n+1)/2 +
∞
0
ds
s(n+1)/2 = 1
2
nAn −
∞
0
ds
s(n+1)/2 +
∞
0
ds
s(n+1)/2 = 0
An´alogamente, para n ≥ 3 se tiene:
E(X2) = An
∞
− ∞
x2
1+ x2
n
(n+1)/2 dx = n3/2An
∞
− ∞
t2
(1+t2)(n+1)/2 dt =
= n3/2An
∞
− ∞
(1+t2)−1
(1+t2)(n+1)/2 dt =
= n3/2An
∞
− ∞
1
(1+t2)(n−1)/2 dt −
∞
− ∞
1
(1+t2)(n+1)/2 dt =
= n3/2An
1
(n−2)1/2An−2
− 1
n1/2An
=
= n n
n−2
1/2
An
An−2
− 1
Utilizando las propiedades de la funci´on gamma se puede verificar f´acilmente que An/An−2 = (n −
1)/ n(n − 2)1/2 . Reemplazando resulta:
E(X2) = n n
n−2
1/2
n−1
[n(n−2)]1/2 − 1 = n n−1
n−2
− 1 = n
n−2
Ejemplo: F de Fisher-Snedecor
El c´alculo de E(X) y E(X2) es un poco engorroso y lo omitiremos. El resultado es el siguiente:
E(X) = n
n−2
para n ≥ 3
E(X2) = n
n−2
2
1 + 2m+n−2
m(n−4)
para n ≥ 5
Ejemplo: Lognormal
Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustituci´on t = ln x.
Prof.J.Gast´on Argeri 91
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 92
Luego: dt = dx/x , x = et. Entonces:
E(X) =
∞
0
x√
2π σx
e− (ln x−µ)2/(2σ2) dx = 1√
2π σ
∞
0 e− (ln x−µ)2/(2σ2) dx =
= = 1√
2π σ
− ∞
∞ e− (t−µ)2/(2σ2) et dt = 1√
2π σ
∞
− ∞ e−(t2−2µt+µ2−2σ2t)/(2σ2) dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t2−2(µ+σ2)t]/(2σ2)
dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t2−2(µ+σ2)t+(µ+σ2)2−(µ+σ2)2
]/(2σ2)
dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t−(µ+σ2)]
2
/(2σ2)
e(µ+σ2)2/(2σ2) dt =
= e− µ2/(2σ2) e(µ+σ2)2/(2σ2) ∞
− ∞
1√
2π σ
e−[t−(µ+σ2)]
2
/(2σ2)
dt =
= e− µ2/(2σ2) e(µ+σ2)2/(2σ2) = eµ+σ2/2
El c´alculo de la esperanza del cuadrado es completamente similar:
E(X2) =
∞
0
x2
√
2π σx
e− (ln x−µ)2/(2σ2) dx = 1√
2π σ
∞
0 x e− (ln x−µ)2/(2σ2) dx =
= = 1√
2π σ
− ∞
∞ e− (t−µ)2/(2σ2) e2t dt = 1√
2π σ
∞
− ∞ e−(t2−2µt+µ2−4σ2t)/(2σ2) dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t2−2(µ+2σ2)t]/(2σ2)
dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t2−2(µ+2σ2)t+(µ+2σ2)2−(µ+2σ2)2
]/(2σ2)
dt =
= 1√
2π σ
e− µ2/(2σ2) ∞
− ∞ e−[t−(µ+2σ2)]
2
/(2σ2)
e(µ+2σ2)2/(2σ2) dt =
= e− µ2/(2σ2) e(µ+2σ2)2/(2σ2) ∞
− ∞
1√
2π σ
e−[t−(µ+2σ2)]
2
/(2σ2)
dt =
= e− µ2/(2σ2) e(µ+2σ2)2/(2σ2) = e2(µ+σ2)
22.3 Propiedades de la esperanza
Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias definidas sobre
un mismo espacio de probabilidad. Supongamos adem´as que E(X) , E(Y ) est´an definidas. Entonces
para cualesquiera constantes a, b ∈ R la esperanza E(aX + bY ) existe y se verifica:
E(aX + bY ) = aE(X) + bE(Y )
Dem: Esta demostraci´on se dar´a m´as adelante, cuando desarrollemos la teor´ıa de vectores aleatorios.
Propiedad 48 Sea X una variable aleatoria. Dados m, n ∈ N , m  n se cumple:
E(Xn
) existe ⇒ E(Xm
) existe
Dem:
S´olo demostramos el caso discreto (El caso continuo se demustra de manera completamente an´aloga,
Prof.J.Gast´on Argeri 92
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 93
reemplazando sumas por integrales). Tengamos en cuenta que: ∀x ≥ 0 , xm ≤ xn ⇔ x ≥ 1
E (|Xm|) =
x∈RX
|x|m
pX(x) =
x∈RX
|x|1
|x|m
pX(x) +
x∈RX
|x|≤1
|x|m
pX(x) ≤
≤
x∈RX
|x|1
|x|n
pX(x) +
x∈RX
|x|≤1
pX(x) ≤
≤
x∈RX
|x|n
pX(x) +
x∈RX
pX(x) = E (|Xn|) + 1
Por lo tanto si E(Xn) existe entonces E (|Xn|)  ∞ por lo cual E (|Xm|)  ∞ de manera que
E(Xm) existe.
Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple:
P (X ≥ 0) = 1 ⇒ E(X) ≥ 0
Dem:
Caso discreto:
pX(x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X  0)
Pero: P (X  0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X  0} ⊆
{X  0} resulta P (X = x, X  0) = 0 Por lo tanto: pX(x) = P (X = x, X ≥ 0) =
pX(x)I[0,∞)(x) Entonces:
E(X) =
x∈RX
xpX(x) =
x∈RX
xpX(x)I[0,∞)(x) =
x∈RX
x≥0
xpX(x) ≥ 0
El caso continuo es similar.
Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple:
P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y )
Dem: Consideremos Z = X −Y Aplic´andole directamente la propiedad anterior y utilizando luego
la linealidad de la esperanza, se deduce el resultado a probar.
Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X)
existe. Entonces para cualquier n´umero real c  0 se verifica:
P (X ≥ c) ≤
E(X)
c
Dem: Sea A = [c, ∞) La funci´on indicadora de A es
IA(x) =
1 si x ∈ A
0 si x ∈ A
La variable aleatoria IA(X) es discreta con rango {0, 1} Calculemos su esperanza:
E(IA(X)) = 0·P (IA(X) = 0)+1·P (IA(X) = 1) = P (IA(X) = 1) = P (X ∈ A) = P (X ≥ c)
Adem´as: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto:
∀x ∈ R , IA(x) ≤
x
c
IA(x) ≤
x
c
Luego: IA(X) ≤ X
c
Tomando esperanzas y utilizando el corolario anterior se tiene:
P (X ≥ c) = E(IA(X)) ≤ E
X
c
=
E(X)
c
Prof.J.Gast´on Argeri 93
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 94
Propiedad 51 Sea X una variable aleatoria. Se verifica:
X ≥ 0 y E(X) = 0 ⇒ P (X = 0) = 1
Dem: Fijemos x  0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene:
P (X ≥ x) ≤ E(X)
x
= 0
Entonces: ∀x  0 , P (X ≥ x) = 0 Por lo tanto, si x  0 vale: FX(x) = 1 puesto que:
FX(x) = P (X ≤ x) = lim
n →∞
P (X  x + 1/n) = lim
n →∞

1 − P (X ≥ x + 1/n)
0

 = 1
Utilizando que X ≥ 0 tambi´en se tiene: ∀x  0 , FX(−x) = 0 Por lo tanto:
P (X = 0) = lim
x → 0+

FX(x)
1
− FX(−x)
0

 = 1
como quer´ıamos demostrar.
23 Varianza de una variable aleatoria
23.1 Motivaci´on y definici´on
Consideremos una variable aleatoria X que representa una caracter´ıstica num´erica de los individuos
de cierta poblaci´on. Supongamos adem´as que existe E(X2) Elijamos al azar un individuo dentro de
tal poblaci´on e intentemos ”predecir” el valor que tomar´a la variable aleatoria X en dicho individuo.
Lo m´as razonable ser´ıa predecir el valor de X mediante el n´umero E(X) ¿ Porqu´e? Supongamos
que decidimos predecir el valor de X mediante un n´umero c Tal predicci´on tendr´a asociado un error
(absoluto) aleatorio expresado por |X − c| Naturalmente ning´un n´umero c minimizar´a este error para
todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar
el n´umero c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el n´umero
c que minimice la esperanza del cuadrado del error, denominada error cuadr´atico medio(ECM):
ECM(c) = E (X − c)2
= E(X2
− 2cX + c2
) = E(X2
) − 2cE(X) + c2
La expresi´on anterior es cuadr´atica en c Podemos reexpresarla como:
E (X − c)2 = E [(X − E(X)) + (E(X) − c)]2
=
= E (X − E(X))2 + 2 (E(X) − c) E (X − E(X)) + E (X − E(X))2 =
= E (X − E(X))2 + E (E(X) − c)2
Como el primer t´ermino en esta expresi´on no depende de c y el segundo t´ermino se hace m´ınimo
tomando c = E(X) deducimos que el mejor predictor constante de X es el n´umero E(X) Adem´as, el
ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante
en probabilidades y estad´ıstica que recibe un nombre especial.
Definici´on 29 Dada una variable aleatoria X se define la varianza de X como:
V (X) = E (X − E(X))2
Prof.J.Gast´on Argeri 94
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 95
siempre y cuando tal esperanza exista.
Otras notaciones comunes para la varianza de X son V ar(X) , σXX , σ2
X
El desv´ıo standard o t´ıpico de X se define como la ra´ız cuadrada de su varianza:
SD(X) = V (X)
El desv´ıo standard de X tambi´en se anota σX
Obs´ervese que:
• Si E(X2) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se
deduce que E(X) existe y por lo tanto, utilizando la propiedad de linealidad de la esperanza
tiene: V (X) = E (X − E(X))2 = E(X2 − 2E(X)X + E2(X)) existe.
• Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) ≥ 0
• Por propiedades vistas anteriormente se deduce que: V (X) = 0 ⇔ P (X = E(X)) = 1
• Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado.
Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en
cm2 En cambio SD(X) queda espresada en las mismas unidades que X
Tanto V (X) como SD(X) miden en cierto sentido cu´an alejados se encuentran, en promedio, los
valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos
que V (X) y SD(X) representan medidas de dispersi´on de la variable aleatoria.
23.2 C´alculo y propiedades
Propiedad 52 Sea X una variable aleatoria con E(X2) finita. Se cumple:
V (X) = E(X2
) − E2
(X)
Dem: Notemos que como E(X2)  ∞ entonces por una propiedad anterior E(X) existe. Por lo
tanto, utilizando la linealidad de la esperanza se obtiene:
V (X) = E (X − E(X))2 = E(X2 − 2E(X)X + E2(X)) = E(X2) − 2E2(X) + E2(X) =
E(X2) − E2(X)
Ejemplo: X ∼ Bi(n, p)
Ya calculamos E(X) = np , E(X2) = np(q + np) de modo que se tiene: V (X) = np(q + np) −
(np)2 = npq = np(1 − p)
Ejemplo: X ∼ G(p)
En este caso sabemos que E(X) = 1/p y E(X2) = (2q + p)/p2 Por lo tanto V (X) =
(2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2
Ejemplo: X ∼ H(n, D, N)
Vimos que E(X) = n D
N
y E(X2) = N
N−1
1 + n(D−1)
N−D
n D
N
1 − D
N
Entonces luego de operar se obtiene: V (X) = n D
N
1 − D
N
N − n
N − 1
(∗)
El factor (∗) se denomina factor de correcci´on por poblaci´on finita, en tanto que los tres primeros
factores coinciden con la esperanza de una variable aleatoria con distribuci´on Bi(n, D/N) Esto no
debe sorprendernos ya que la hipergeom´etrica surgi´o al contar la cantidad de objetos distinguidos
en una muestra sin reposici´on de tama˜no n de una poblaci´on de N individuos entre los que hay un
total de D distinguidos. Entonces cuando N es grande respecto de n y ´este es peque˜no respecto
Prof.J.Gast´on Argeri 95
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 96
de D es razonable que la no reposici´on afecte muy poco el resultado, de manera que contar la can-
tidad de distinguidos entre los n deber´ıa dar resultados similares ya sea que la extracci´on se realice
con o sin reposici´on. Pero si se realiza con reposici´on, la cantidad de distinguidos posee distribuci´on
Bi(n, D/N)
Ejemplo: X ∼ P(λ)
En este caso vimos que E(X) = λ , E(X2) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ
Ejemplo: X ∼ N (µ, σ2)
Vimos que E(X) = µ , E(X2) = µ2 + σ2 Por lo tanto: V (X) = µ2 + σ2 − µ2 = σ2
Ejemplo: X ∼ Γ(λ, α)
Probamos antes que E(X) = λ/α , E(X2) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 −
(λ/α)2 = λ/α
Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale:
V (aX + b) = a2
V (X)
Dem:
V (aX + b) = E (aX + b)2 − E2(aX + b) = E(a2X2 + 2abX + b2) − (aE(X) + b)2
=
= a2E(X2) + 2abE(X) + b2 − a2E2(X) − 2abE(X) − b2 =
= a2E(X2) − a2E2(X) = a2 E(X2) − E2(X) = a2V (X)
24 Esperanza y varianza de una funci´on de una variable aleatoria
Propiedad 54 Sea X una variable aleatoria y sea SX el soporte de su distribuci´on. La esperanza de
la variable aleatoria g(X) puede calcularse, siempre que exista, como:
i) Caso discreto:
E(g(X)) =
x∈SX
g(x)pX(x)
ii) Caso continuo:
E(g(X)) =
SX
g(x)fX(x) dx
Dem:
Caso discreto: La fmp de Y = g(X) viene dada por pY (y) =
x∈RX
g(x)=y
pX(x) Por lo tanto:
E(Y ) =
y∈RY
ypY (y) =
y∈RY
y
x∈RX
g(x)=y
pX(x) =
y∈RY x∈RX
g(x)=y
ypX(x) =
=
y∈RY x∈RX
g(x)=y
g(x)pX(x) =
x∈RX
g(x)pX(x)
En el caso continuo la demostraci´on es similar a la del teorema de cambio de variables que se demostr´o
cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la
prueba.
Prof.J.Gast´on Argeri 96
UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 97
Ejemplo: Calculemos E(− ln X) siendo X ∼ U(0, 1)
Sea Y = − ln X Anotando SX = (0, 1) y SY = (0, ∞) los soportes de X e Y respectivamente,
se tiene:
E(Y ) =
1
0
(− ln x) fX(x) dx = −
1
0
ln x dx = − x ln x|1
0 +
1
0
dx = 1
Prof.J.Gast´on Argeri 97

Más contenido relacionado

PPTX
Primero y segundo grado
PPTX
Formula cuadratica2
PPTX
Primero y segundo grado
PDF
TALLER TEORIA DE CONJUNTOS
PDF
333 tecnicas-de-conteo
PDF
Álgebra Capítulo 2 (Teoría de Conjuntos)
PDF
Teoria de conjuntos manual completo
PPTX
trabajo de matematica basica
Primero y segundo grado
Formula cuadratica2
Primero y segundo grado
TALLER TEORIA DE CONJUNTOS
333 tecnicas-de-conteo
Álgebra Capítulo 2 (Teoría de Conjuntos)
Teoria de conjuntos manual completo
trabajo de matematica basica

La actualidad más candente (16)

PDF
072 076-fracciones algebraicas unidad 6
PPTX
Leyes de conjuntos
PDF
1 estructuras
PDF
5 estructuras-algebraicas
PDF
Divisibilidad en IN
DOCX
Leyes del álgebra en las proposiciones o algebra declarativa
PDF
Conjuntos relaciones-funciones
PDF
Estructuras algebraicas ejercicios adicionales
PPT
3 Operaciones Binarias
PDF
Razones y Proporciones
PDF
Induc2
PPTX
Ley de conjuntos
PDF
Estructuras
PDF
Combinatoria
PDF
Teoría de Conjuntos
PDF
Diapositivas de estructuras algebraicas
072 076-fracciones algebraicas unidad 6
Leyes de conjuntos
1 estructuras
5 estructuras-algebraicas
Divisibilidad en IN
Leyes del álgebra en las proposiciones o algebra declarativa
Conjuntos relaciones-funciones
Estructuras algebraicas ejercicios adicionales
3 Operaciones Binarias
Razones y Proporciones
Induc2
Ley de conjuntos
Estructuras
Combinatoria
Teoría de Conjuntos
Diapositivas de estructuras algebraicas
Publicidad

Similar a Combinatoria (20)

PPTX
Matematica 5to - Unidad 07 - ANALISIS COMBINATORIO Y PROBABILIDAD.pptx
DOCX
Temas de probabilidad
PDF
333 tecnicas de conteo)
PDF
AP-COMB-01-Apuntes de Combinatoria para la Olimpiada de Matemáticas.pdf
PDF
Introducción al Análisis Combinatorio ac1 ccesa007
ODP
Estadisticatema4
ODP
Estadisticatema4
ODP
Estadisticatema4
PDF
Analisis combinatorio
PPTX
Análisis combinatorio
PDF
Analisis combinatorio probabilidades
PDF
Apoyo para unidad 2
DOC
Combinatoria
ODP
PPTX
Analisis combinatorio
PPTX
Analisis combinatorio
PDF
datos y azar
PDF
FACTORIALES
PPT
1 combinatoria
PPTX
Combinatoria
Matematica 5to - Unidad 07 - ANALISIS COMBINATORIO Y PROBABILIDAD.pptx
Temas de probabilidad
333 tecnicas de conteo)
AP-COMB-01-Apuntes de Combinatoria para la Olimpiada de Matemáticas.pdf
Introducción al Análisis Combinatorio ac1 ccesa007
Estadisticatema4
Estadisticatema4
Estadisticatema4
Analisis combinatorio
Análisis combinatorio
Analisis combinatorio probabilidades
Apoyo para unidad 2
Combinatoria
Analisis combinatorio
Analisis combinatorio
datos y azar
FACTORIALES
1 combinatoria
Combinatoria
Publicidad

Último (20)

PDF
Gasista de unidades unifuncionales - pagina 23 en adelante.pdf
PDF
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
PDF
Punto Critico - Brian Tracy Ccesa007.pdf
PDF
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
PDF
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
PPTX
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
PDF
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
PDF
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...
PDF
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PDF
Metodologías Activas con herramientas IAG
PDF
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
PDF
Cronograma de clases de Práctica Profesional 2 2025 UDE.pdf
PDF
CONFERENCIA-Deep Research en el aula universitaria-UPeU-EduTech360.pdf
PDF
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
PDF
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
PDF
Lección 6 Escuela Sab. A través del mar rojo.pdf
PDF
Fundamentos_Educacion_a_Distancia_ABC.pdf
DOCX
2 GRADO UNIDAD 5 - 2025.docx para primaria
PDF
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
PDF
Híper Mega Repaso Histológico Bloque 3.pdf
Gasista de unidades unifuncionales - pagina 23 en adelante.pdf
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
Punto Critico - Brian Tracy Ccesa007.pdf
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
Metodologías Activas con herramientas IAG
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
Cronograma de clases de Práctica Profesional 2 2025 UDE.pdf
CONFERENCIA-Deep Research en el aula universitaria-UPeU-EduTech360.pdf
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
Lección 6 Escuela Sab. A través del mar rojo.pdf
Fundamentos_Educacion_a_Distancia_ABC.pdf
2 GRADO UNIDAD 5 - 2025.docx para primaria
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
Híper Mega Repaso Histológico Bloque 3.pdf

Combinatoria

  • 1. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 1 Combinatoria 1 Principios b´asicos La combinatoria es una disciplina que se ocupa de estudiar t´ecnicas de conteo y enumeraci´on de conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una lista extensiva ser´ıa imposible o impr´actica). Aplicada a la teor´ıa de probabilidades permite en muchos casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de alg´un evento de inter´es. Presentamos dos reglas b´asicas de la combinatoria: Principio de la multiplicaci´on Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados del experimento es n · m El principio se extiende de manera natural a un experimento en r etapas, donde la i-´esima etapa tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es r i=1 ni Ejemplo: Una caja contiene 5 cartas distintas de una baraja espa˜nola. Se extraen dos cartas al azar. Si se realiza la extracci´on con reposici´on ¿ De cu´antas maneras distintas es posible realizarlo? Rta: 5· 5 = 25 maneras distintas. Si se realiza la extracci´on sin reposici´on ¿ De cu´antas maneras distintas es posible realizarlo? Rta: 5· 4 = 20 maneras distintas. Principio de la adici´on Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles. Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados posibles. El principio de la adici´on tambi´en se generaliza a un experimento que se realiza de una entre r maneras posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-´esima forma, donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es r i=1 ni Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compa˜n´ıas a´ereas o por cinco empresas de omnibus ¿ Cu´antas maneras diferentes existen para contratar el viaje? Rta: 3 + 5 = 8 maneras distintas. 2 Variaciones Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible ordenamiento se denomina una variaci´on de los n objetos tomados de a k. Para calcular la cantidad total de variaciones utilizamos el principio de la multiplicaci´on: Para el primer lugar de la fila hay n posibles maneras de llenarlo con un objeto. Independientemente de cu´al sea el objeto que ocupe el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cu´ales hayan sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de n − 2 objetos pues dos ya han sido utilizados. As´ı sicesivamente de modo que aplicando el principio Prof.J.Gast´on Argeri 1
  • 2. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 2 de la multiplicaci´on, la cantidad total de posibles variaciones de n tomados de a k resulta ser: (n)k = n · (n − 1) · (n − 2) · · · · · [n − (k − 1)] = n! (n − k)! Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el siguiente: AB AC AD AE BA BC BD BE CA CB CD CE DA DB DC DE EA EB EC ED 3 Permutaciones Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta entonces ser: n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n! Ejemplo: La cantidad de n´umeros de cuatro cifras que pueden formarse a partir de los d´ıgitos 3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos n´umeros: 3568 5368 5638 5683 3586 5386 5836 5863 3658 6358 6538 6583 3685 6385 6835 6853 3856 8356 8536 8563 3865 8365 8635 8653 4 Combinaciones Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinaci´on de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2 son: AB AC AD BC BD CD Comp´arese esto con las posibles variaciones de 4 tomados de a 2: AB BA AC CA AD DA BC CB BD DB CD DC Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinaci´on existen k! maneras diferentes de ordenar sus elementos en una fila. Adem´as, combinaciones diferentes dar´an Prof.J.Gast´on Argeri 2
  • 3. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 3 lugar a filas con diferentes configuraciones, dado que diferir´an en al menos uno de los objetos presentes. De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = n! (n−k)! Despejando x resulta que la cantidad de posibles combinaciones de n objetos tomados de a k, n´umero que representaremos con el s´ımbolo n k es: n k = n! k!(n − k)! Este n´umero se denomina n´umero combinatorio n sobre k. En el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es 4 2 = 4! 2!2! = 4! 4 = 3! = 6 Propiedad 1 n k = n n − k Dem: La demostraci´on queda a cargo del lector. Propiedad 2 n j − 1 + n j = n + 1 j Dem: n j−1 + n j = n! (j−1)!(n−j+1)! + n! j!(n−j)! = = n! (j−1)!(n−j)!(n−j+1) + n! (j−1)!j(n−j)! = = n! (j−1)!(n−j)! 1 n−j+1 + 1 j = = n! (j−1)!(n−j)! · j+n−j+1 j(n−j+1) = = n!(n+1) (j−1)!j(n−j)!(n+1−j) = (n+1)! j!(n+1−j)! = n+1 j 5 Binomio de Newton Dados n´umeros a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por: (a + b)2 = a2 + 2ab + b2 Podemos reescribir este desarrollo como: (a + b)2 = 2 0 a0 b2 + 2 1 a1 b1 + 2 2 a2 b0 = 2 k=0 2 k ak b2−k An´alogamente para el desarrollo del cubo de un binomio: (a + b)3 = a3 + 3a2 b + 3ab2 + b3 Prof.J.Gast´on Argeri 3
  • 4. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 4 que tambi´en puede reescribirse como: (a + b)3 = 3 0 a0 b3 + 3 1 a1 b2 + 3 2 a2 b1 + 3 3 a3 b0 = 3 k=0 3 k ak b3−k La f´ormula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural de un binomio y se expresa de la siguiente manera. Teorema 1 (F´ormula del binomio de Newton) Para cualesquiera n´umeros a, b ∈ R y cualquier n´umero n ∈ N se verifica: (a + b)n = n k=0 n k ak bn−k Dem: Por inducci´on respecto de n demostraremos que la proposici´on p(n) : ∀a, b ∈ R, (a + b)n = n k=0 n k ak bn−k es verdadera para todo n´umero natural n. Paso base: Probemos que p(1) es V. p(1) : ∀a, b ∈ R, (a + b)1 = 1 k=0 1 k ak b1−k El miembro izquierdo de la igualdad es simplemente a + b. El miembro derecho es: 1 0 a0 b1 + 1 1 a1 b0 = b + a de modo que p(1) es verdadera. (HI)Hip´otesis inductiva: Supongamos que p(n) es verdadera. Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello Prof.J.Gast´on Argeri 4
  • 5. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 5 procedemos as´ı: (a + b)n+1 = (a + b)(a + b)n = (a + b) n k=0 n k akbn−k = = a n k=0 n k akbn−k + b n k=0 n k akbn−k = = n k=0 n k ak+1bn−k + n k=0 n k akbn−k+1 = = n+1 j=1 n j−1 ajbn−j+1 + n j=0 n j ajbn−j+1 = = n n an+1 + n j=1 n j−1 ajbn−j+1 + n 0 bn+1 + n j=1 n j ajbn−j+1 = = n 0 bn+1 + n j=1 n j−1 + n j ajbn−j+1 + n n an+1 = = n 0 bn+1 + n j=1 n+1 j ajbn−j+1 + n n an+1 = = n+1 0 a0bn+1 + n j=1 n+1 j ajbn−j+1 + n+1 n+1 an+1b0 = = n+1 j=0 n+1 j ajbn+1−j que muestra que p(n + 1) es verdadera. Luego, por inducci´on completa p(n) es verdadera para todo n ∈ N 6 Permutaciones con repetici´on Supongamos que queremos determinar cu´antas palabras de cuatro letras pueden formarse con las le- tras de la palabra AZAR. Aqu´ı entendemos por ”palabra” cualquier secuencia que utilice las cuatro letras de AZAR, tenga o no significado en alg´un lenguaje. Para averiguar cu´antas pueden formarse, digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee s´olo tres letras diferentes, a saber A,Z,R, moment´aneamente distingamos las dos apariciones de la letra A, por ejemplo podr´ıamos ”pintar” de dos colores diferentes las dos letras A. En tal caso ya sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien, cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2! ordenamientos (que s´ı distinguen entre ambas A), por simple permutaci´on de las dos letras A entre s´ı. Por lo tanto podemos afirmar que: x · 2! = 4! Se deduce que: x = 4! 2! El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. For- malmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n1 veces, el segundo n2 veces, · · · , el r-´esimo nr veces, la cantidad total de configuraciones en fila de n = n1 + · · · + nr objetos con las repeticiones especificadas anteriormente es: (n1 + n2 + · · · + nr)! n1! n2! · · · nr! Prof.J.Gast´on Argeri 5
  • 6. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 6 El n´umero anterior se denomina coeficiente multinomial y suele anotarse tambi´en como n n1, n2, · · · , nr = (n1 + n2 + · · · + nr)! n1! n2! · · · nr! Por ejemplo, con las letras de la palabra AZAR pueden formarse 4! 2! = 12 palabras diferentes. Para convencernos las listamos todas: AZAR AZRA AAZR AARZ ARZA ARAZ ZAAR ZARA ZRAA RAAZ RAZA RZAA Teorema 2 (Teorema multinomial) Para cualesquiera n´umeros x1, x2, · · · , xr ∈ R y cualquier n´umero n ∈ N se verifica (x1 + x2 + · · · + xr)n = 0≤k1,··· ,kr≤n k1+···+kr=n n k1, · · · , kr xk1 1 · · · xkr r 7 Distribuci´on de bolillas en urnas Diversos problemas de ´ındole combinatorio pueden representarse mediante problemas ”modelo” basa- dos en disposiciones de bolillas en urnas. 7.1 Disposiciones de n bolillas distintas en r urnas distintas 7.1.1 M´as de una bolilla es admisible por urna En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la segunda bolilla en alguna de las r urnas a´un disponibles, etc. De manera que la cantidad de posibles disposiciones es en total r · r · · · r n = rn 7.1.2 A lo sumo una bolilla es admisible por urna Este caso exige que n ≤ r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la segunda bolilla hay s´olo r − 1 urnas vac´ıas para ubicarla, para la tercer bolilla hay s´olo r − 2 urnas vac´ıas disponibles, etc. De modo que la cantidad total de posibles disposiciones es r · (r − 1) · (r − 2) · · · [r − (n − 1)] es decir igual al n´umero de variaciones de r tomados de a n. 7.2 Disposiciones de n bolillas id´enticas en r urnas distintas 7.2.1 No pueden quedar urnas vac´ıas En este caso debe ser n ≥ r pues de lo contrario necesariamente quedar´ıan urnas vac´ıas. Podemos asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos ”∗” y las separaciones entre urnas mediante barras ”|” As´ı por ejemplo una configuraci´on con tres urnas y cinco bolillas podr´ıa representarse por: ∗ ∗ | ∗ | ∗ ∗ Esto quiere simbolizar de alg´un modo que en la primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera urna exactamente dos bolillas. Si disponemos las bolillas en una hilera, ubicar las n bolillas id´enticas en las r urnas diferentes equivale a ubicar r − 1 separadores ”|” en los n − 1 espacios entre bolillas consecutivas. Esto Prof.J.Gast´on Argeri 6
  • 7. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 7 puede realizarse de n−1 r−1 maneras distintas. Ejemplo: Distribuir seis bolillas id´enticas en tres urnas diferentes, sin permitir urnas vac´ıas. Listamos las posibilidades: ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗ ∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗ Ejemplo: Hallar todas las descomposiciones del n´umero 8 como suma de tres n´umeros naturales. Considerar que el orden relativo de los tres t´erminos en la descomposici´on es relevante. Se tendr´an las siguientes posibles descomposiciones: 1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111 1 + 1 + 6 1 + 2 + 5 1 + 3 + 4 1 + 4 + 3 1 + 5 + 2 1 + 6 + 1 2 + 1 + 5 11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11 2 + 2 + 4 2 + 3 + 3 2 + 4 + 2 2 + 5 + 1 3 + 1 + 4 3 + 2 + 3 3 + 3 + 2 111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1 3 + 4 + 1 4 + 1 + 3 4 + 2 + 2 4 + 3 + 1 5 + 1 + 2 5 + 2 + 1 6 + 1 + 1 Es decir un total de 8−1 3−1 = 7 2 = 7! 2!5! = 21 descomposiciones. 7.2.2 Pueden quedar urnas vac´ıas Tambi´en aqu´ı podemos pensar en bolillas ∗ y separadores entre urnas |, pero a diferencia de la situaci´on previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la con- figuraci´on siguiente: ∗ ∗ || ∗ | ∗ ∗ ∗ | que corresponde a n = 6 bolillas id´enticas en r = 5 urnas distintas, donde hay 2 bolillas en la primer urna, la segunda urna est´a vac´ıa, 1 bolilla en la tercer urna, 3 bolillas en la cuarta urna y la quinta urna est´a vac´ıa. Se trata pues de disponer en fila n s´ımbolos ∗ y r − 1 s´ımbolos | Es decir en un total de n + r − 1 lugares. Luego, la cantidad de posibles disposiciones es n+r−1 n = n+r−1 r−1 puesto que basta con elegir los lugares que ser´an ocupados por ∗ (o equivalentemente elegir los lugares a ser ocupados por |). Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversi´on (negocios). Se desea adem´as que las inversi´on se realice en m´ultiplos de $1.000 a) Si se quiere invertir la totalidad del capital, ¿ de cu´antas formas diferentes puede realizarse? Si ∗ representa una inversi´on de $1.000 el problema se asimila al de n = 20 bolillas y r = 4 urnas y donde pueden quedar urnas vac´ıas (negocios en los cuales se decide no invertir ningun monto). Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es 20+4−1 20 = 23 20 = 1.771 b) Si se quiere invertir la totalidad o parte del capital, ¿ de cu´antas formas diferentes puede realizarse? El an´alisis es similar al anterior s´olo que ahora no es obligatorio invertir todo el capital disponible. Podemos entonces pensar que la parte del capital que se decida no invertir es un ”quinto negocio posible”. De este modo se trata de un problema de disposici´on de n = 20 bolillas en r = 5 urnas y donde no pueden quedar urnas vac´ıas. Hay un total de 20+5−1 20 = 24 20 = 10.626 posibles maneras de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto). Prof.J.Gast´on Argeri 7
  • 8. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 8 Teor´ıa axiom´atica de probabilidades 8 Experimentos aleatorios - Espacio muestral - Eventos Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que con- duzca a un resultado que cumpla con las siguientes caracter´ısticas: • El proceso es repetible en id´enticas condiciones una cantidad ilimitada de veces. Cada realizaci´on particular del proceso conduce a un ´unico resultado. • Se conoce a priori (es decir previamente a cualquier realizaci´on particular) todos los posibles resultados del experimento. • El resultado del experimento est´a sujeto al azar. Es decir que es imposible determinar a priori (es decir previamente a cualquier realizaci´on particular) cu´al de todos los resultados posibles del experimento ocurrir´a. Definici´on 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente se anota mediante la letra griega omega may´uscula Ω. En este contexto caracterizar significa que cada elemento del espacio muestral se corresponde con uno y s´olo un posible resultado del experimento y a todo posible resultado del experimento le corresponde uno y s´olo un elemento del espacio muestral. En este sentido podr´ıamos decir que un espacio muestral es una forma de ”codificar” los posibles resultados del experimento. Ejemplo: 1) Se arroja un dado una vez y se observa el n´umero que sale. Claramente es un experimento aleatorio pues cada realizaci´on particular conduce a un ´unico n´umero saliente (es imposible que arrojemos el dado y salgan simult´aneamente dos o m´as n´umeros) y adem´as: • El experimento es reproducible en id´enticas condiciones una cantidad arbitraria de veces (Al menos una versi´on idealizada del experimento, por ejemplo con un dado imaginario que nunca se desgasta o deforma). • Antes de arrojar el dado se sabe de antemano que los posibles resultados son los n´umeros 1, 2, 3, 4, 5, 6. • El resultado del lanzamiento es al azar puesto que es imposible determinar el n´umero que saldr´a, con anterioridad al lanzamiento. Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6} 2) Se arroja un dado dos veces y se anota el puntaje total (suma de los n´umeros obtenidos en ambos lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} 3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos necesarios. En este ejemplo un espacio muestral es Ω = N 4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros. Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25] Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1 con los n´umeros naturales, es decir si existe alguna funci´on N f → A con las propiedades siguientes: Prof.J.Gast´on Argeri 8
  • 9. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 9 i) ∀a ∈ A , ∃n ∈ N tal que a = f(n) ii) ∀m, n ∈ N m = n ⇒ f(m) = f(n) En tal caso la funci´on f determina una ”enumeraci´on” de A. Si en lugar de f(n) anotamos an entonces los elementos de A son precisamente los de la secuencia infinita a1, a2, a3, · · · . Es decir A = {a1, a2, a3, · · · }. Un conjunto que o bien sea finito o bien sea infinito numerable se dice un conjuto a lo sumo numerable. Si se omite la condici´on ii) pero conservando la i), se dice que f es una funci´on suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna funci´on de N sobre A. Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q • Basta considerarla funci´on identidad N f → N • Por ejemplo tomando la funci´on N f → Z dada por f(n) = (−1)n n 2 • Tomando N f → 2N dada por f(n) = 2n • En este caso es m´as engorroso encontrar una f´ormula expl´ıtica para una fuci´on de N sobre Q. Es m´as secillo presentar un gr´afico ilustrativo de tal funci´on: 0 1/1 // 1/2 ||zzzzzzzz 1/3 // 1/4 ||zzzzzzzz 1/5 // · · · }}{{{{{{{{{ 2/1 // 2/2 zzzzzzzz 2/3 ||zzzzzzzz 2/4 zzzzzzzz 2/5 ||zzzzzzzz · · · 3/1 3/2oo 3/3 zzzzzzzz 3/4 ||zzzzzzzz 3/5 =={{{{{{{{{ · · · }}{{{{{{{{{ 4/1 // 4/2 zzzzzzzz 4/3 ||zzzzzzzz 4/4 zzzzzzzz 4/5 ||zzzzzzzz · · · 5/1 5/2oo 5/3 zzzzzzzz 5/4 }}{{{{{{{{{{ 5/5 =={{{{{{{{{ · · · ~~|||||||||| ... // ... =={{{{{{{{{{ ... ... =={{{{{{{{{{ ... Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad de elementos): Ω    Finito o infinito numerable Infinito no numerable En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable. Moment´aneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. M´as adelante precisaremos este concepto. Dos eventos de particular inter´es son el evento Ω (denominado evento seguro o cierto) y el evento ∅ (denominado evento vac´ıo o imposible). Los elementos ω ∈ Ω del Prof.J.Gast´on Argeri 9
  • 10. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 10 espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}. Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras del alfabeto en may´usculas: A, B, C, D, etc. Ejemplo: 1) Lanzamiento de un dado. Podemos considerar los siguientes eventos: A = ”sale n´umero par” = {2, 4, 6} B = ”sale m´ultiplo de tres” = {3, 6} C = ”sale 3” = {3} (suceso elemental) 2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos: A = ”el puntaje total excede 8” = {9, 10, 11, 12} B = ”sale un par y un impar” = {3, 5, 7, 9, 11} 3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos que fueron necesarios. Eventos que podr´ıan interesarnos: A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5} B = ”se requiere una cantidad impar de lanzamientos” = {3, 5, 7, 9, 11, 13, · · · } 3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados es A = {x ∈ Ω : x ≤ 0, 2} Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realizaci´on del experimento conduce a un resultado ω ∈ Ω. Cuando ω ∈ A se dice que el resultado del experimento es favorable a A o que ha ocurrido A en dicha realizaci´on. Caso contrario se dice que el resultado ω es desfavorable a A o que no ha ocurrido A en dicha realizaci´on. Notemos que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran tambi´en, en la misma realizaci´on, otros eventos. Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que Ω = {(C, C), (C, S), (S, C), (S, S)} donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realizaci´on es ω = (C, C) y si A = ”la primera moneda sale cara” = {(C, C), (C, S)} y B = ”la segunda moneda sale ceca” = {(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el resultado del experimento ha sido favorable tanto al evento A como al evento B. 9 ´Algebra de eventos Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente: • El complemento de A es el evento Ac = {ω ∈ Ω : ω ∈ A}. Es el evento que ocurre cada vez que no ocurre A. Los resultados favorables a Ac son los desfavorables al A y viceversa. El complemento de A tambi´en suele anotarse A . • La uni´on de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A ∪ B ocurre sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren simult´aneamente tanto A como B. Prof.J.Gast´on Argeri 10
  • 11. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 11 • La intersecci´on de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es el evento que ocurre cuando A y B ocurren simult´aneamente. La intersecci´on de A con B tambi´en suele anotarse AB • La diferencia de A con B es el evento A B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es el evento que ocurre cuando ocurre A y simult´aneamente no ocurre B. Ejemplo: En el ´ultimo ejemplo se tiene: Ac = {(S, C), (S, S)} A ∪ B = {(C, C), (C, S), (S, S)} A ∩ B = {(C, S)} A B = {(C, S)} y B A = {(S, C)} M´as generalmente, sean A1, A2, · · · , An eventos. • La uni´on de tales eventos es el evento n i=1 Ai = A1 ∪ · · · ∪ An = {ω ∈ Ω : ω ∈ A1 ∨ · · · ∨ ω ∈ An} • La intersecci´on de tales eventos es el evento n i=1 Ai = A1 ∩ · · · ∩ An = {ω ∈ Ω : ω ∈ A1 ∧ · · · ∧ ω ∈ An} Dicha intersecci´on tambi´en se anota A1A2 · · · An M´as generalmente a´un necesitaremos definir uniones e intersecciones de una cantidad numerable de eventos: Sea {An} una sucesi´on de eventos. • La uni´on de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos de la sucesi´on: ∞ n=1 An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An} • La intersecci´on de dichos eventos es el evento que ocurre cuando ocurren simult´aneamente todos y cada uno de los eventos de la sucesi´on: ∞ n=1 An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An} Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario hasta obtener por primera vez ”cara”. Podemos considerar: Ω = {C, SC, SSC, SSSC, SSSSC, · · · } Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-´esimo” En este caso: ∞ n=1 An = ”sale C en una cantidad par de lanzamientos” Prof.J.Gast´on Argeri 11
  • 12. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 12 Definici´on 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos si es imposible que ocurran simult´aneamente. Es decir que cada vez que ocurre A no ocurre B y cada vez que ocurre B no ocurre A. Para destacar tal situaci´on nosotros anotaremos el evento uni´on A ∪ B como A B. M´as generalmente dada una sucesi´on {An} de eventos, se dice que dichos eventos son dos a dos incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verifica: ∀m, n ∈ N , m = n ⇒ Am ∩ An = ∅ Para destacar tal situaci´on anotaremos la uni´on ∞ n=1 An como ∞ n=1 An Dados eventos A, B se dice que A est´a contenido o incluido en B o tambi´en que B contiene o incluye a A sii cada vez que ocurre A tambi´en ocurre B (pero no necesariamente a la inversa). Tal relaci´on entre eventos se simboliza A ⊆ B o tambi´en B ⊇ A. En otras palabras: A ⊆ B sii todo resultado favorable a A es tambi´en favorable a B. En la pr´actica para demostrar que A ⊆ B es frecuente tomar un elemento gen´erico (es decir, no un elemento particular) de A y demostrar que necesariamente tambi´en pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A. Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de ellos est´a contenido en el otro. Damos a continuaci´on un listado de propiedades muy sencillas cuyas demostraciones formales omiti- mos: A ⊆ A A ⊆ B ∧ B ⊆ C ⇒ A ⊆ C A ∩ A = A ; A ∪ A = A A ∪ B = B ∪ A ; A ∩ B = B ∩ A A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C ∅ ⊆ A ⊆ Ω A ∩ B ⊆ A ⊆ A ∪ B ∅ ∩ A = ∅ ; ∅ ∪ A = A Ω ∩ A = A ; Ω ∪ A = Ω (Ac)c = A (A ∪ B)c = Ac ∩ Bc ; (A ∩ B)c = Ac ∪ Bc A ∪ B = A ∪ (B A) B = (B ∩ A) (B A) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) n i=1 Ai = A1 n i=2 Ac 1 · · · Ac n−1An ∞ n=1 An c = ∞ n=1 Ac n ; ∞ n=1 An c = ∞ n=1 Ac n Prof.J.Gast´on Argeri 12
  • 13. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 13 10 Algebras y σ-´algebras de subconjuntos de Ω - Espacio de prob- abilidad Todos hemos en alg´un momento realizado mediciones. Como ejemplo concreto supongamos que de- seamos medir ´areas de rect´angulos. Como se sabe, el ´area de un rect´angulo es un n´umero positivo igual al producto base × altura. Supongamos ahora que construimos figuras planas a partir de una cantidad finita de rect´angulos. Podemos asignar un ´area a cada una de tales figuras del modo sigu- iente: Primero descomponemos la figura en una uni´on finita de rect´angulos disjuntos dos a dos y luego sumamos las ´areas de tales rect´angulos. Finalmente, supongamos que todos los rect´angulos que consideramos est´an contenidos dentro de un ”gran” rect´angulo que llamamos Ω. Cada vez que podamos medir el ´area de cierta figura contenida en Ω tambi´en podremos medir el ´area de la ”figura complementaria”, es decir la figura que se obtiene a partir de todos los puntos de Ω que no pertenecen a la figura original. En otros t´erminos, si podemos medir el ´area de una figura tambi´en podemos medir el ´area de su complemento. Queda tambi´en claro que si hemos podido asignar un ´area A(F ) a la figura F ⊆ Ω entonces tendremos A(F c) = A(Ω) − A(F ). Es decir que hay una cantidad de propiedades b´asicas que esperamos de todo n´umero que represente una manera de medir. Para reflejar estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podr´ıamos denominar ”medibles” que ser´an precisamente aquellos a los cuales asignaremos una medida. En nuestro ejemplo precedente, no queda claro en absoluto c´omo podr´ıamos medir el ´area de un c´ırculo contenido en Ω, pero s´ı podremos asignar ´areas de modo sencillo tomando como conjuntos medibles la clase de todos los subconjuntos de Ω que sean o bien rect´angulos, o bien uniones finitas de rect´angulos o bien sus complementos sean uniones finitas de rect´angulos. Una clase de subconjuntos de Ω con estas car´acter´ısticas es lo que denominaremos un ´algebra de subconjuntos de Ω. Definici´on 3 Dados un conjunto no vac´ıo Ω y una clase A de subconjuntos de Ω, diremos que A es un ´algebra de subconjuntos de Ω sii satisface las siguiente condiciones: i) Ω ∈ A ii) ∀A ∈ A , Ac ∈ A iii) ∀n ∈ N , ∀A1, · · · , An ∈ A , n i=1 Ai ∈ A Ejemplo: Sea Ω cualquier rect´angulo no vac´ıo. Definamos, como vimos anteriormente, la siguiente clase de subconjuntos de Ω: A = {A ⊆ Ω : A es uni´on finita de rect´angulos} Veamos que A tiene las propiedades de un ´algebra de subconjuntos de Ω: i) Ω ∈ A pues Ω es uni´on finita de rect´angulos ya que es un rect´angulo. ii) Supongamos que A ∈ A. Queremos ver que Ac es tambi´en uni´on finita de rect´angulos. En primer lugar notemos que si R ⊆ Ω es un rect´angulo entonces Rc = Ω R es uni´on finita de rect´angulos (Esto le resultar´a evidente cuando dibuje el gran rect´angulo Ω y un rect´angulo arbitrario R contenido en ´el). Adem´as, si B = n i=1 Ri y C = m j=1 R∗ j son uniones finitas de rect´angulos entonces: B ∩ C = 1≤i≤n 1≤j≤m Ri ∩ R∗ j de modo que B ∩ C es uni´on finita de rect´angulos (notar que Ri ∩ R∗ j es un rect´angulo). Esto se extiende a la intersecci´on de un n´umero finito de uniones finitas de rect´angulos. Por lo Prof.J.Gast´on Argeri 13
  • 14. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 14 tanto podemos afirmar que la intersecci´on de un n´umero finito de miembros de A es tambi´en miembro de A. Como A ∈ A podemos escribir A = n i=1 Ri donde los Ri son ciertos subrect´angulos de Ω. Entonces: Ac = n i=1 Ri c = n i=1 Rc i y dado que los Rc i son uniones finitas de rect´angulos, la intersecci´on de ellos tambi´en lo es. Por lo tanto Ac es uni´on finita de rect´angulos de modo que Ac ∈ A. iii) Fijemos n ∈ N y sean A1, · · · , An ∈ A. Sabemos que cada Ai es uni´on finita de rect´angulos. Pero entonces evidentemente A = n i=1 Ai tambi´en es uni´on finita de rect´angulos, de donde re- sulta que A ∈ A. Consideremos ahora un ejemplo que nos servir´a para generalizar la definici´on de ´algebra de subcon- juntos de Ω. Ejemplo: Supongamos que se tiene una secuencia {Rn} de rect´angulos contenidos en el gran rect´angulo Ω. M´as a´un, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente claro que tambi´en se le puede asignar un ´area al conjunto ∞ n=1 Rn, de la manera siguiente: Cada Rn tiene asignada un ´area A(Rn) Podemos asignar ´area al conjunto R1 R2 como A(R1 R2) = A(R1) + A(R2) Podemos asignar ´area al conjunto R1 R2 R3 como A(R1 R2 R3) = A(R1)+A(R2)+ A(R3) etc. En genral: A n i=1 Ri = n i=1 A(Ri) De este modo vemos c´omo asignar un ´area al conjunto Sn = n i=1 Ri, cualquiera sea n ∈ N. Natu- ralmente los n´umeros A(S1), A(S2), A(S3), · · · forman una sucesi´on creciente de n´umeros reales positivos. Adem´as, dado que todos los Sn ⊆ Ω resulta A(Sn) ≤ A(Ω). Un resultado matem´atico asegura que toda sucesi´on de n´umeros reales que sea creciente y acotada superiormente, posee un l´ımite finito. Por lo tanto existe y es finito el n´umero: lim n →∞ A(Sn) Resulta entonces natural definir A ∞ n=1 Rn = lim n →∞ A n i=1 Ri = lim n →∞ A(Sn) = = lim n →∞ n i=1 A(Ri) = ∞ n=1 A(Rn) Este ejemplo muestra que podemos ampliar la definici´on de ´algebra de conjuntos para permitir que no s´olo las uniones finitas de conjuntos medibles sean medibles, sino tambi´en las uniones infinitas numerables. Esto conduce a la definici´on siguiente. Prof.J.Gast´on Argeri 14
  • 15. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 15 Definici´on 4 Una clase Σ de subconjuntos de un conjunto no vac´ıo Ω se dice una σ-´algebra de subconjuntos de Ω sii verifica las siguientes condiciones: i) Ω ∈ Σ ii) ∀A ∈ Σ , Ac ∈ Σ iii) ∀ {An} sucesi´on en Σ , ∞ n=1 An ∈ Σ Ejemplo: Consideremos un conjunto no vac´ıo Ω. La clase que consta de todos los subconjuntos de Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-´algebra de subconjuntos de Ω. De hecho es la m´as grande de todas. Propiedad 3 Sea Σ una σ-´algebra de subconjuntos de Ω. Entonces ∅ ∈ Σ Dem: Puesto que Ω ∈ Σ resulta ∅ = Ωc ∈ Σ Propiedad 4 Sea Σ una σ-´algebra de subconjuntos de Ω. Supongamos que Ω es finito o infinito numerable. Se verifica: ∀ω ∈ Ω , {ω} ∈ Σ ⇒ Σ = P(Ω) Dem: Sea A ⊆ Ω. Puesto que Ω es finito o infinito numerable, lo mismo es cierto de A. Dado que: A = ω∈A {ω} resulta inmediatamente que A ∈ Σ puesto que la uni´on anterior es a lo sumo numerable y cada {ω} pertenece a Σ Propiedad 5 Sea Σ una σ-´algebra de subconjuntos de Ω y sean A1, · · · , An ∈ Σ. Entonces n i=1 Ai ∈ Σ Dem: Definamos An+1 = An+2 = · · · = ∅. Entonces la secesi´on {Ai} est´a en Σ. Se tiene pues: n i=1 Ai = ∞ i=1 Ai ∈ Σ Propiedad 6 Sea Σ una σ-´algebra de subconjuntos de Ω y sea {An} una sucesi´on en Σ. Entonces ∞ n=1 An ∈ Σ Dem: ∞ n=1 An = ∞ n=1 Ac n c ∈ Σ dado que cada Ac n ∈ Σ Propiedad 7 Sea Σ una σ-´algebra de subconjuntos de Ω y sean A1, · · · , An ∈ Σ. Entonces n i=1 Ai ∈ Σ Dem: Definamos An+1 = An+2 = · · · = Ω. Tenemos as´ı una sucesi´on {An} en Σ. Por la propiedad anterior resulta: n i=1 Ai = ∞ i=1 Ai ∈ Σ Prof.J.Gast´on Argeri 15
  • 16. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 16 Propiedad 8 Sean Ω un conjunto no vac´ıo y {Σi}i∈I una familia no vac´ıa, donde cada Σi es una σ-´algebra de subconjuntos de Ω. Entonces i∈I Σi es una σ-´algebra de subconjuntos de Ω. Dem: Anotemos Σ = i∈I Σi. Debemos probar que Σ satisface los axiomas de σ-´algebra de subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que: • Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi • Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi. Luego: ∀i ∈ I , Ac ∈ Σi. Entonces Ac ∈ Σ • Sea {An} sucesi´on en Σ. Entonces ∀i ∈ I , {An} es una sucesi´on en Σi. Por lo tanto ∀i ∈ I , ∞ n=1 An ∈ Σi. Luego: ∞ n=1 An ∈ Σ Propiedad 9 Dados un conjunto no vac´ıo Ω y un subconjunto G de P(Ω), existe una m´ınima σ-´algebra de subconjuntos de Ω que contiene a G Dem: Basta considerar la familia de todas las σ-´algebras de subconjuntos de Ω que contienen a G (una de ellas es P(Ω)) y aplicarle la propiedad anterior Estamos ahora en condiciones de definir la noci´on axiom´atica de probabilidad. Definici´on 5 Sean Ω un conjunto no vac´ıo y Σ una σ-´algebra de subconjuntos de Ω. Una medida de probabilidad o funci´on de probabilidad o simplemente una probabilidad sobre Σ es una funci´on P : Σ → R que verifica los siguientes axiomas: i) ∀A ∈ Σ , P (A) ≥ 0 ii) P (Ω) = 1 iii) Para toda sucesi´on {An} de elementos de Σ disjuntos dos a dos se cumple: P ∞ n=1 An = ∞ n=1 P (An) Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea convergente. Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ. Ejemplo: Sea Ω un conjunto no vac´ıo a lo sumo numerable, que podemos anotar Ω = {ωn}. Sea Σ una σ-´algebra de subconjuntos de Ω tal que ∀n , {ωn} ∈ Σ. Como vimos antes esto implica que Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que: • Las probabilidades pn = P ({ωn}) determinan la probabilidad de cualquier evento aleatorio. En efecto: Sea A ⊆ Ω. Entonces A = ωn∈A {ωn}. Por lo tanto: P (A) = P ωn∈A {ωn} = ωn∈A P ({ωn}) = ωn∈A pn • Dada una sucesi´on {pn} de n´umeros reales tal que: a) ∀n , pn ≥ 0 b) ∞ n=1 pn = 1 existe una ´unica probabilidad P sobre Σ tal que P ({ωn}) = pn Prof.J.Gast´on Argeri 16
  • 17. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 17 11 Espacios de equiprobabilidad Si Ω = {ω1, · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N} , pn = 1 N entonces se cumplen las condiciones a) y b) del item anterior, de manera que queda definida una ´unica probabilidad sobre Σ = P(Ω) tal que ∀n ∈ {1, · · · , N} , P {ωn} = 1 N = 1 #(Ω) . Esta manera de asignar probabili- dades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω P (A) = P ω∈A {ω} = ω∈A P ({ω}) = ω∈A 1 #(Ω) = #(A) #(Ω) Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente: P (A) = # {resultados favorables al evento A} # {resultados posibles del experimento} En la pr´actica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una cantidad finita de resultados posibles, la asignaci´on de probabilidades a dichos eventos elementales no siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem- plos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podr´ıamos tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabili- dades del modo siguiente: ∀n ∈ {2, · · · , 12} , P ({n}) = 1 11 ¿ Qu´e inconvenientes observa acerca de esta asignaci´on de probabilidad? El mismo experimento aleatorio podr´ıa modelizarse mediante el siguiente espacio muestral: Ω = {(i, j) : 1 ≤ i, j ≤ 6} Con este espacio muestral s´ı es adecuada la asignaci´on de probabilidad en forma equiprobable: ∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) = 1 36 Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo tanto P (A) = #(A) #(Ω) = 6 36 = 1 6 Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin reposici´on. Calculemos P (A) y P (C) siendo: A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras” Una posible representaci´on del espacio muestral asociado a este experimento aleatorio podr´ıa ser Ω = {BB, BN, NB, NN}. Sin embargo, dada esta representaci´on es evidente que no resulta natural considerar los cuatro posibles resultados como equiprobables puesto que hay m´as bolillas blancas que negras. De hecho, si utiliz´aramos el artificio de numerar las bolillas blancas como B1, B2, B3 y numerar las bolillas negras como N1, N2 resulta claro que el resultado A se da en m´as casos que el resultado C. De hecho: A = {(B1, B2), (B1, B3), (B2, B1), (B2, B3), (B3, B1), (B3, B2)} tiene 6 elementos C = {(N1, N2), (N2, N1)} tiene 2 elementos Lo natural entonces es elegir una representaci´on del espacio muestral en la que resulte natural la equiprobabilidad. Tal representaci´on podr´ıa ser la siguiente: Ω = {(x, y) : x, y ∈ {B1, B2, B3, N1, N2} , x = y} Prof.J.Gast´on Argeri 17
  • 18. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 18 Con este espacio muestral es natural plantear equiprobabilidad. Se tiene: P (A) = #(A) #(Ω) = 3·2 5·4 = 3 10 = 0, 3 P (C) = #(C) #(Ω) = 2·1 5·4 = 1 10 = 0, 1 Otra posible representaci´on del espacio muestral es la siguiente, que prescinde del orden en que se extraen las bolillas: Ω = {{x, y} : x, y ∈ {B1, B2, B3, N1, N2} , x = y} Tambi´en en este caso es natural la equiprobabilidad. Se tiene: P (A) = #(A) #(Ω) = (3 2) (5 2) = 3 10 = 0, 3 P (C) = #(C) #(Ω) = (2 2) (5 2) = 1 10 = 0, 1 Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de extracci´on. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras. Se extraen al azar dos bolillas, pero esta vez con reposici´on. Calculemos las probabilidades de los mismos eventos A y C del ejemplo anterior. En este caso conviene representar el espacio muestral como: Ω = {(x, y) : x, y ∈ {B1, B2, B3, N1, N2}} Entonces: P (A) = #(A) #(Ω) = 3·3 5·5 = 9 25 = 0, 36 P (C) = #(C) #(Ω) = 2·2 5·5 = 4 25 = 0, 16 12 Propiedades de una probabilidad Una cantidad de resultados ´utiles se desprenden de la definici´on axiom´atica de probabilidad dada en el par´agrafo anterior. Propiedad 10 P (∅) = 0 Dem: Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que: P (∅) = P ∞ n=1 An = ∞ n=1 P (An) = ∞ n=1 P (∅) Puesto que la serie a la derecha de la ´ultima igualdad es convergente, necesariamente su t´ermino general debe tender a 0. Pero dicho t´ermino general, siendo constantemente igual a P (∅), tiende a P (∅). Por lo tanto: P (∅) = 0 Propiedad 11 Sean A1, · · · , An ∈ Σ dos a dos disjuntos. Entonces: P n i=1 Ai = n i=1 P (Ai) Prof.J.Gast´on Argeri 18
  • 19. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 19 Dem: Definamos An+1 = An+2 = · · · = ∅. Se tiene: P n i=1 Ai = P ∞ i=1 Ai = ∞ i=1 P (Ai) = n i=1 P (Ai) Propiedad 12 Sean A, B ∈ Σ tales que A ⊆ B. Se verifica: P (B A) = P (B) − P (A) Dem: Podemos escribir B = A (B A) siendo la uni´on disjunta. Por lo tanto: P (B) = P (A (B A)) = P (A) + P (B A). Despejando se tiene: P (B A) = P (B) − P (A) Propiedad 13 Sean A, B ∈ Σ (no necesariamente disjuntos). Se verifica: P (A ∪ B) = P (A) + P (B) − P (AB) Dem: Primeramente notemos que BAc = B AB. Ahora bien, por la propiedad anterior y teniendo en cuenta que AB ⊆ B se tiene: P (BAc) = P (B AB) = P (B) − P (AB). Luego: P (A ∪ B) = P (A BAc ) = P (A) + P (BAc ) = P (A) + P (B) − P (AB) Corolario 1 Para cualesquiera eventos A, B ∈ Σ se verifica la siguiente desigualdad: P (A ∪ B) ≤ P (A) + P (B) Dem: P (A ∪ B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B) pues P (AB) ≥ 0 Propiedad 14 Dados A, B, C ∈ Σ se verifica: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) Dem: P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) = = P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC) = = P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ACBC)) = = P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ABC)) = = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) Propiedad 15 Sea (Ω, Σ, P ) un espacio de probabilidad. Dados A1, · · · , An ∈ Σ se cumple: P (A1 ∪ · · · ∪ An) = n i=1 P (Ai) − 1≤i1i2≤n P (Ai1 Ai2 ) + · · · + (−1)r+1 1≤i1i2···ir≤n P (Ai1 Ai2 · · · Air ) + · · · + + .................................................... + + (−1)n+1 P (A1A2 · · · An) (1) Prof.J.Gast´on Argeri 19
  • 20. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 20 Dem: Por inducci´on sobre n. • Paso base: n = 2 ya fue demostrada. • Hip´otesis inductiva (HI): Suponemos v´alida (1) para n. • Supongamos A1, · · · , An+1 ∈ Σ. P (A1 ∪ · · · ∪ An+1) = P (A1 ∪ · · · ∪ An) + P (An+1) − P ((A1 ∪ · · · ∪ An)An+1) = = n i=1 P (Ai) − 1≤i1i2≤n P (Ai1 Ai2 ) + · · · + (−1)r+1 1≤i1i2···ir≤n P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+1 P (A1A2 · · · An) + P (An+1) − P (A1An+1 ∪ · · · ∪ AnAn+1) = = n+1 i=1 P (Ai) − 1≤i1i2≤n P (Ai1 Ai2 ) + · · · + (−1)r+1 1≤i1i2···ir≤n P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+1 P (A1A2 · · · An) − { n i=1 P (AiAn+1) − 1≤i1i2≤n P (Ai1 Ai2 An+1) + · · · + (−1)n+1P (A1A2 · · · AnAn+1)} = n+1 i=1 P (Ai) − 1≤i1i2≤n+1 P (Ai1 Ai2 ) + · · · + (−1)r+1 1≤i1i2···ir≤n+1 P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+2 P (A1A2 · · · An+1) Propiedad 16 Dados A, B ∈ Σ con A ⊆ B se tiene P (A) ≤ P (B) Dem: Como A ⊆ B resulta B = A BAc. Luego: P (B) = P (A) + P (BAc) ≥ P (A) Corolario 2 Para todo A ∈ Σ es P (A) ≤ 1 Dem: Como A ⊆ Ω y dado que P (Ω) = 1 resulta P (A) ≤ P (Ω) = 1 Propiedad 17 Para cualquier A ∈ Σ se verifica: P (Ac) = 1 − P (A) ; P (A) = 1 − P (Ac) Dem: Puesto que Ω = A Ac resulta 1 = P (Ω) = P (A) + P (Ac) Prof.J.Gast´on Argeri 20
  • 21. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 21 13 Propiedades de continuidad Propiedad 18 Sea {An} una sucesi´on en Σ. Supongamos dicha sucesi´on de eventos es creciente, es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica: P ∞ n=1 An = lim n →∞ P (An) Dem: Definamos los siguientes eventos: B1 = A1 B2 = A2 A1 B3 = A3 A2 · · · · · · · · · Bn = An An−1 · · · · · · · · · Se tiene as´ı una sucesi´on {Bn} en Σ tal que: n i=1 Ai = n i=1 Bi y ∞ i=1 Ai = ∞ i=1 Bi Por conveniencia definamos tambi´en Ao = ∅. Entonces: P n i=1 Ai = P n i=1 Bi = n i=1 P (Bi) = = n i=1 P (Ai Ai−1) = n i=1 (P (Ai) − P (Ai−1)) = = P (An) − P (Ao) = P (An) − P (∅) = P (An) Luego: lim n →∞ P (An) = lim n →∞ n i=1 P (Bi) = ∞ i=1 P (Bi) = = P ∞ i=1 Bi = P ∞ i=1 Ai Propiedad 19 Sea {An} una sucesi´on en Σ. Supongamos dicha sucesi´on de eventos es decreciente, es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica: P ∞ n=1 An = lim n →∞ P (An) Dem: Notemos que dado que los An decrecen entonces los Ac n crecen. P ∞ n=1 An = 1 − P ∞ n=1 An c = = 1 − P ∞ n=1 Ac n = 1 − lim n →∞ P (Ac n) = = lim n →∞ 1 − P (Ac n) = lim n →∞ P (An) Prof.J.Gast´on Argeri 21
  • 22. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 22 Probabilidad condicional - Sucesos independientes 14 Probabilidad condicional Seguramente al lector no se le habr´a pasado por alto, cuando definimos los axiomas de una probabili- dad, la relaci´on intuitiva que existe entre ´estos y lo que se conoce como el enfoque ”frecuentista” de las probabilidades, que pasamos a explicar someramente. Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a cierto evento A. El enfoque frecuentista consiste en repetir el experimento un n´umero finito y grande de veces, digamos N veces. A continuaci´on determina lo que se conoce como frecuencia relativa del evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos fA, se define por: fA = n´umero de veces que ha ocurrido A en las N realizaciones n´umero total N de realizaciones Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del experimento. En otro cap´ıtulo formalizaremos esta idea intuitiva. Por el momento nos conformamos con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades: Dados eventos A, B se verifica i) fA ≥ 0 ii) fΩ = 1 iii) Si A y B son disjuntos entonces fA∪B = fA + fB Las propiedades anteriores nos hacen recordar propiedades an´alogas a las de la definici´on axiom´atica de probabilidad. Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi- cional. La importancia de este concepto se debe a dos motivos principales: • Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna informaci´on parcial adicional acerca del resultado del experimento. En tal caso dichas probabil- idades se dicen condicionales (a la informaci´on adicional). • A´un en situaciones en las cuales no disponemos de tal informaci´on parcial adicional, es frecuente el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades deseadas de un modo m´as sencillo. Para fijar ideas consideremos el ejemplo que sigue. Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son equiprobables. Supongamos que se observa adem´as que el primer dado es un 3. Con esta informaci´on adicional, ¿ cu´al es la probabilidad de que el puntaje total obtenido sea 8 ? Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el n´umero que sale. Sabemos que los posibles resultados de este experimento parcial seran s´olo seis y definir´an un espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar estos seis resultados como equiprobables, es decir que podemos definir una probabilidad PH de modo que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento original, definiendo: • La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6 Prof.J.Gast´on Argeri 22
  • 23. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 23 • La probabilidad condicional de {(i, j)} como 0 si i = 3. Anotamos P ({(i, j)} |H) = 0 si i = 3 Por lo tanto, la probabilidad condicional de obtener puntaje total 8 ser´a P (”se obtiene puntaje 8”|H) = P ({(3, 5)} |H) = 1/6 Ejemplo: M´as generalmente consideremos dos eventos E y H en el contexto de un experimento aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condici´on que haya ocurrido H. Intuitivamente lo que podr´ıamos hacer es repetir el experimento un gran n´umero N de veces y contar en cu´antas de ellas ha ocurrido H, digamos NH veces, y luego contar en cu´antas de estas NH ha ocurrido tambi´en E, digamos NEH veces. Entonces podr´ıamos considerar el n´umero: NEH NH Equivalentemente, dividiendo numerador y denominador por N se obtiene: NEH/N NH /N = fEH fH Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la definici´on siguiente. Definici´on 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) 0. Dado un evento E ∈ Σ se define la probabilidad de E condicional a F como: P (E|F ) = P (EF ) P (F ) Ejemplo: Se lanza dos veces una moneda normal. Calculemos: a) La probabilidad de que ambas salgan cara. b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara. Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales tiene probabilidad 1/4. Luego: P (”ambas salen cara”) = P ({CC}) = 1 4 Para responder a b) utilizamos la definici´on de probabilidad condicional. Sean E = ”ambas salen cara” y H = ”la primera sale cara”. Entonces: P (E|H) = P (EF ) P (F ) = P ({CC}) P ({CC, CS}) = 1/4 1/2 = 1 2 Propiedad 20 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) 0. Sea Σ P (·|H) −→ R la funci´on que asigna a cada E ∈ Σ el n´umero real P (E|H). Entonces (Ω, Σ, P (·|H)) es un espacio de probabilidad. Dem: La demostraci´on se propone como ejercicio al final del cap´ıtulo Propiedad 21 Sean Σ una σ-´algebra de subconjuntos de Ω y H ∈ Σ. Sea ΣH la siguiente clase de subconjuntos de H: ΣH = {EH : E ∈ Σ} Entonces ΣH es una σ-´algebra de subconjuntos de H. Dem: i) Dado que H ∈ Σ y H = HH resulta H ∈ ΣH Prof.J.Gast´on Argeri 23
  • 24. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 24 ii) Supongamos que B ∈ ΣH. Luego, existe cierto E ∈ Σ tal que B = EH. Dado que tanto E como H son miembros de Σ tambi´en lo es B. Luego, tambi´en Bc ∈ Σ. Entonces el complemento de B relativo a H es H B = BcH. Por ende este complemento pertenece a ΣH, siendo este complemento la intersecci´on entre H y un miembro de Σ. iii) Sea {Bn} una sucesi´on en ΣH. Luego, existe una sucesi´on {En} en Σ tal que ∀n , Bn = EnH. Luego: ∞ n=1 Bn = ∞ n=1 EnH = ∞ n=1 En ∩ H Sea E = ∞ n=1 En. Dado que los En son miembros de Σ resulta E ∈ Σ. Pero como ∞ n=1 Bn = EH resulta que ∞ n=1 Bn ∈ ΣH Definici´on 7 La σ-´algebra ΣH definida arriba se denomina la relativizaci´on de Σ a H o la reducci´on de Σ a H. Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H) 0, la funci´on Σh PH −→ R definida por PH(B) = P (B) P (H) es una probabilidad sobre (H, ΣH). M´as a´un, se verifica: ∀E ∈ Σ , PH(EH) = P (E|H) Dem: La demostraci´on se propone como ejercicio al final del cap´ıtulo Definici´on 8 Se dice que el espacio de probabilidad (H, ΣH, PH) se ha obtenido reduciendo a H el espacio de probabilidad (Ω, Σ, P ). La idea es la siguiente: Calcular en Σ probabilidades condicionalmente a H equivale a calcular en ΣH probabilidades sin condicionar. En determinados ejemplos es m´as sencillo calcular probabilidades condicionales por definici´on mientras que en otros es m´as f´acil calcularlas trabajando directamente sobre el espacio muestral reducido. Teorema 3 (Regla del producto) Sea (Ω, Σ, P ) espacio de probabilidad. i) Si A, B ∈ Σ con P (B) 0 entonces P (AB) = P (A|B) · P (B) ii) M´as generalmente, dados A1, · · · , An+1 ∈ Σ con P (A1 · · · An) 0 se verifica: P (A1 · · · An+1) = P (A1) · P (A2|A1) · P (A3|A1A2) · · · · · P (An+1|A1A2 · · · An) Dem: Por inducci´on sobre n. Paso base: n = 1 Este caso corresponde a demostrar i). Sean A1, A2 ∈ Σ con P (A) 0. Se tiene: Como P (A2|A1) = P (A1A2) P (A1) se deduce P (A1A2) = P (A1)P (A2|A1) Prof.J.Gast´on Argeri 24
  • 25. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 25 Hip´otesis inductiva: Suponemos la propiedad v´alida para n Ahora queremos demostrar que vale para n + 1. Sean A1, · · · , An+2 ∈ Σ. Se tiene: P (A1A2 · · · An+1 A An+2 B ) = P (A1 · · · An+1 A )P (An+2 B | A1 · · · An+1 A ) HI = HI = P (A1)P (A2|A1) · · · P (An+1|A1 · · · An)P (An+2|A1 · · · An+1) Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para n. Luego, por inducci´on es v´alida para todo n ∈ N Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la composici´on de la urna de extracci´on, es adecuado condicionar una extracci´on a los resultados de las extracciones previas. Definamos Ri = ”la i-´esima extracci´on resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretende- mos calcular es precisamente P (R1R2R3). Planteamos la regla del producto: P (R1R2R3) = P (R1)P (R2|R1)P (R3|R1R2) Por la composici´on inicial de la urna es claro que P (R1) = r r + b Por la composici´on de la urna inmediatamente luego que ha ocurrido R1 es claro que P (R2|R1) = r + c r + c + b Por la composici´on de la urna inmediatamente luego que han ocurrido R1, R2 se tiene an´alogamente P (R3|R1R2) = r + 2c r + 2c + b Por lo tanto: P (R1R2R3) = r r + b · r + c r + c + b · r + 2c r + 2c + b Definici´on 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesi´on {An} en Σ se dice una partici´on de Ω sii se verifican: i) ∀n ∈ N , P (An) 0 ii) Ω = ∞ n=1 An iii) ∀n, n ∈ N , n = m ⇒ An ∩ Am = ∅ Ejemplo: Consideremos un espacio de equiprobabilidad Ω = {1, 2, · · · , 12}. Es decir: ∀i ∈ Ω , P ({i}) = 1/n 0. Una posible partici´on de Ω es {A1, A2, A3} donde A1 = {1, 3, 5, 7, 9, 11} ; A2 = {6, 12} ; A3 = {2, 4, 8, 10} Prof.J.Gast´on Argeri 25
  • 26. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 26 Teorema 4 (Teorema de la probabilidad total) Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn} una partici´on de Ω. Entonces para cualquier B ∈ Σ se verifica: P (B) = ∞ n=1 P (B|Hn)P (Hn) Dem: Dado que {Hn} es una partici´on de Ω, sabemos que ∞ n=1 An = Ω. Por lo tanto B = B ∩ Ω = B ∩ ∞ n=1 Hn = ∞ n=1 BHn Adem´as esta uni´on es disjunta dos a dos: n = m ⇒ (BHn)(BHm) = BHnHm = B∅ = ∅ Luego: P (B) = ∞ n=1 P (BHn) Pero como ∀n ∈ N , P (Hn) 0 podemos escribir P (BHn) = P (B|Hn)P (Hn). Entonces: P (B) = ∞ n=1 P (BHn) = ∞ n=1 P (B|Hn)P (Hn) Nota: El teorema de la probabilidad total es tambi´en v´alido para particiones finitas. Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2. Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U1 que contiene r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una bolilla roja. La composici´on de la urna de la que se extrae la bolilla depende de la primera etapa del experimento (extracci´on de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1, F2} es claramente una partici´on de Ω. Definamos tambi´en R = ”sale bolilla roja”. Por lo tanto: P (R) = 2 n=1 P (R|Fn)P (Fn) = P (R|F1)P (F1) + P (R|F2)P (F2) Es claro que P (F1) = n1 n1+n2 ; P (F2) = n2 n1+n2 Tambi´en es claro que: P (R|F1) = r1 r1+b1 ; P (R|F2) = r2 r2+b2 Por lo tanto: P (R) = r1 r1 + b1 · n1 n1 + n2 + r2 r2 + b2 · n2 n1 + n2 Teorema 5 (Regla de Bayes) Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn} una partici´on de Ω. Para cualquier B ∈ Σ tal que P (B) 0 y para cualquier j ∈ N se verifica: P (Hj|B) = P (B|Hj)P (Hj) ∞ n=1 P (B|Hn)P (Hn) Prof.J.Gast´on Argeri 26
  • 27. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 27 Dem: Se tiene: P (Hj|B) = P (BHj) P (B) = P (B|Hj)P (Hj) ∞ n=1 P (B|Hn)P (Hn) Nota: La regla de Bayes tambi´en es v´alida para particiones finitas. Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 est´an numeradas con ”1”, n2 est´an numeradas con ”2” y n3 est´an numeradas con ”3”. Se dispone adem´as de tres urnas U1, U2, U3. La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo n´umero que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cu´al es la probabilidad de que haya provenido de la urna U2 ? Sean Fi = ”sale ficha i” ; i = 1, 2, 3 R = ”sale bolilla roja” y B = ”sale bolilla blanca” Se pretende calcular P (F2|R). Ac´a se quiere averiguar la probabilidad de un evento que ocurri´o en una etapa previa del experimento basados en infromaci´on de una etapa posterior. Es natural entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que {F1, F2, F3} es una partici´on de Ω. Entonces: P (F2|R) = P (R|F2)P (F2) P (R|F1)P (F1)+P (R|F2)P (F2)+P (R|F3)P (F3) = = r2 r2+b2 · n2 n1+n2+n3 r1 r1+b1 · n1 n1+n2+n3 + r2 r2+b2 · n2 n1+n2+n3 + r3 r3+b3 · n3 n1+n2+n3 = = r2n2 r2+b2 r1n1 r1+b1 + r2n2 r2+b2 + r3n3 r3+b3 Ejemplo: Un procedimiento llamado fluoroscop´ıa card´ıaca (FC) se utiliza para determinar si existe calcificaci´on en las arterias coronarias. El test permite detectar si hay 0,1,2,´o 3 arterias coronarias calcificadas. Anotemos: T + i : la FC detecta i arterias calcificadas (i = 0, 1, 2, 3) D+ : hay enfermedad coronaria ; D− : no hay enfermedad coronaria Supongamos que se conocen los datos de la siguiente tabla i P (T + i |D+) P (T + i |D−) 0 0.41 0.96 1 0.24 0.02 2 0.20 0.02 3 0.15 0.00 a) Si P (D+) = 0.05 calcular P (D+|T + i ) para i = 0, 1, 2, 3 b) Si P (D+) = 0.92 calcular P (D+|T + i ) para i = 0, 1, 2, 3 En ambos casos el c´alculo se reduce a utilizar la regla de Bayes: P (D+ |T + i ) = P (T + i |D+)P (D+) P (T + i |D+)P (D+) + P (T + i |D−)P (D−) Prof.J.Gast´on Argeri 27
  • 28. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 28 donde P (D−) = 1 − P (D+) Se obtienen los resultados siguientes: i P (D+|T + i ) cuando P (D+) = 0.05 P (D+|T + i ) cuando P (D+) = 0.92 0 0.022 0.831 1 0.387 0.993 2 0.345 0.991 3 1.000 1.000 15 Independencia estoc´astica Sean A, B eventos con P (A) 0 y P (B) 0. Intuitivamente podemos decir que dichos eventos son independientes (entre s´ı) si el hecho que ocurra A no influye sobre la chance de ocurrir B y rec´ıprocamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente definici´on. Definici´on 10 Los eventos A y B se dicen independientes sii P (AB) = P (A) · P (B) Nota: No debe confundirse la noci´on de independencia con la de eventos excluyentes. De hecho, si A y B son mutuamente excluyentes y si P (A) 0 y P (B) 0, entonces A y B distan mucho de ser independientes pues P (AB) = P (∅) = 0 = P (A)P (B) Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos A : ”sale un as” ; C : ”sale una carta de corazones” Analicemos la independencia entre ellos: P (A) = 4 52 P (C) = 13 52 P (AC) = 1 52 P (AC) = 1 52 = 4 52 · 13 52 = P (A)P (C) Por lo tanto A y C son independientes. Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos A : ”puntaje total 6” ; B : ”el dado rojo sale 4” Analicemos la independencia entre ellos: P (A) = 5 36 P (B) = 1 6 P (AB) = 1 36 P (AB) = 1 36 = 5 36 · 1 36 = P (A)P (B) Por lo tanto A y C no son independientes. Propiedad 23 Los eventos A y B son independientes sii los eventos A y B son independientes Dem: ⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces: P (AB ) = P (AB) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B ) Prof.J.Gast´on Argeri 28
  • 29. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 29 Luego, A y B son independientes. ⇐) Si ahora suponemos A y B independientes, podemos aplicarles la parte ⇒) ya demostrada. Se deduce que A y (B ) = B son independientes Corolario 3 Los eventos A y B son independientes sii A y B son independientes Generalicemos la noci´on de independencia a tres eventos A, B, C. Imaginemos que C represente la presencia de cierta enfermedad y que A y B representen la presencia de dos s´ıntomas cl´ınicos. Supongamos que dichos s´ıntomas se presentan independientemente (que un paciente presente un s´ıntoma no lo hace m´as ni menos proclive a presentar el otro s´ıntoma). Supongamos tambi´en que A y C sean independientes y que B y C sean independientes. Podr´ıa sin embargo ocurrir que la presencia simult´anea de ambos s´ıntomas s´ı aumentara (o disminuyera) la chance de tener la enfermedad. En tal caso los eventos AB y C no ser´ıan independientes. Esto motiva la siguientes definici´on. Definici´on 11 Los eventos A, B, C se dicen independientes sii se verifican P (AB) = P (A)P (B) , P (AC) = P (A)P (C) , P (BC) = P (B)P (C) P (ABC) = P (A)P (B)P (C) Ejemplo: Sea Ω = {1, 2, 3, 4} un espacio de equiprobabilidad. Definamos los eventos: A = {1, 4} , B = {2, 4} , C = {3, 4} Entonces: P (A) = 1 2 , P (B) = 1 2 , P (C) = 1 2 P (AB) = 1 4 = P (A)P (B) , P (AC) = 1 4 = P (A)P (C) , P (BC) = 1 4 = P (B)P (C) P (ABC) = 1 4 = 1 8 = P (A)P (B)P (C) Luego A, B, C no son independientes. Ejemplo: Sea Ω = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Definamos los eventos: A = {1, 2, 3, 4} , B = {1, 2, 7, 8} , C = {1, 5, 6, 7} Entonces: P (A) = 1 2 , P (B) = 1 2 , P (C) = 1 2 P (AB) = 1 4 = P (A)P (B) , P (BC) = 1 4 = P (B)P (C) , P (AC) = 1 8 = 1 4 = P (A)P (C) P (ABC) = 1 8 = P (A)P (B)P (C) Luego A, B, C no son independientes. Definici´on 12 Se dice que los eventos A1, · · · , An son independientes sii para cualquier secuencia estrictamente creciente 1 ≤ i1 · · · ir ≤ n de enteros, se verifica P (Ai1 · · · Air ) = r j=1 P (Aij ) Prof.J.Gast´on Argeri 29
  • 30. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 30 Nota: Vemos que en general es necesario verificar n 2 + n 3 + · · · + n n = 2n − (n + 1) condiciones para asegurar la independencia de n eventos. Propiedad 24 Supongamos que A1, · · · , An son independientes. Sean B1, · · · , Bn eventos tales que Bi = Ai ´o Bi = Ai (i = 1, · · · , n) Entonces B1, · · · , Bn son independientes. Prof.J.Gast´on Argeri 30
  • 31. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 31 Variables aleatorias - Distribuciones de probabilidad 16 Funciones Sea Ω X → C una funci´on. Recordemos que esto significa que X establece una correspondencia entre elementos de Ω y elementos de C con la caracter´ıstica que a cada elemento de Ω le asigna uno y s´olo un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos que c es el valor de X en ω o la imagen de ω por X, situaci´on que se anota X(ω) = c. El conjunto Ω se denomina dominio de la funci´on y suele anotarse Dom(X). La imagen o rango (o a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como RX. Es decir: RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)} Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de Ω cuyas im´agenes por X pertenecen a B. Si anotamos X−1(B) a la imagen inversa de B por X esta definici´on establece que X−1 (B) = {ω ∈ Ω : X(ω) ∈ B} Ejemplo: Sea R X → R dada por X(t) = t2. En este caso la imagen o rango de X es RX = [0, ∞). Por otra parte: X−1 ({4}) = {2, −2} , X−1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞) X−1 ({0}) = {0} , X−1 ({0, 2, 4, 7}) = 0, ± √ 2, ±2, ± √ 7 X−1 ((−∞, 0)) = ∅ , X−1 (R) = R Ejemplo: Sea {ω1, ω2, ω3, ω4} X → R dada mediante la siguiente tabla de valores: ω X(ω) ω1 2 ω2 1 ω3 1 ω4 0 Entonces por ejemplo: X−1 ({2}) = {ω1} X−1 ({1}) = {ω2, ω3} X−1 ({0}) = {ω4} X−1 ((−∞, 0]) = {ω4} X−1 ((−∞, 1]) = {ω2, ω3, ω4} X−1 ((−∞, −1]) = ∅ Dado A ⊆ R se denomina funci´on indicadora o funci´on caracter´ıstica de A a la funci´on IA : R → R dada por IA(x) =    1 si x ∈ A 0 si x ∈ A 17 Variables aleatorias y funciones de distribuci´on Cuando se realiza un experimento aleatorio existen diversas caracter´ısticas observables o medibles. No obstante ello, generalmente el experimentador centra su inter´es en algunas de estas caracter´ısticas. Por ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podr´ıamos interesarnos en las siguientes caracter´ısticas: ”cantidad de dados que salen 3”, ”puntaje total obtenido”, ”m´ınimo n´umero obtenido”,etc. Cada una de estas caracter´ısticas relaciona cada posible resultado del experimento con un n´umero real. As´ı por ejemplo podemos considerar que ”puntaje total obtenido” relaciona el resultado ω = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el n´umero real 1+5+4+3+4+6+5+1+2+2 = 33. Esto motiva la siguiente definici´on. Prof.J.Gast´on Argeri 31
  • 32. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 32 Definici´on 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (Ω, Σ, P ) a toda funci´on X : Ω → R con la siguiente propiedad: ∀a ∈ R , X−1 ((−∞, a]) ∈ Σ (2) Las variables aleatorias suelen designarse mediante las ´ultimas letras del abecedario y en may´usculas: · · · , P, · · · , X, Y, Z. Tambi´en se las designa mediante alguna de estas letras junto con uno o m´as sub´ındices, por ejemplo: X1, X2, S12 Nota: Dados un n´umero real a y una variables aleatoria X, puesto que seg´un la definici´on X es una funci´on de Ω en R, tiene sentido calcular la imagen inversa de B = (−∞, a] por X, que es precisamente: X−1 ((−∞, a]) = {ω ∈ Ω : X(ω) ∈ (−∞, a]} = {ω ∈ Ω : X(ω) ≤ a} En el contexto de variables aleatorias es frecuente una notaci´on alternativa y mucho m´as frecuente para las im´agenes inversas por X. En general, para B ⊆ R la imagen inversa de B por X se anota tambi´en {X ∈ B}. Es decir: {X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X−1 (B) Por lo tanto la definici´on establece que una funci´on X : Ω → R es una variable aleatoria sobre (Ω, Σ, P ) sii se cumple ∀x ∈ R , {X ≤ x} ∈ Σ Tengamos presente que cuando el espacio de probabilidad es finito (es decir cuando #(Ω) es finito) y Σ = P(Ω) es la σ-´algebra de todos los subconjuntos de Ω, entonces la condici´on (2) es superflua puesto que se satisface autom´aticamente. Lo mismo ocurre cuando Ω = {ω1, ω2, · · · } es infinito numerable y cada {ωn} ∈ Σ puesto que: {X ≤ x} = {ωn : X(ωn) ≤ x} = ∞ n=1 X(ωn)≤x {ωn} Siendo la uni´on a lo sumo numerable y cada {ω} ∈ Σ se deduce que {X ≤ x} ∈ Σ. Luego, en los casos donde el espacio de probabilidad es discreto, la noci´on de variable aleatoria coincide con la de funci´on X : Ω → R. Definici´on 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1. Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta tomar A = Ω. Propiedad 25 Dada una v.a. discreta X existe un m´ınimo A ∈ Σ con la propiedad que P (X ∈ A) = 1 Dem: Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos SX = {x ∈ R : P (X = x) 0}. Entonces: A = SX (A SX) de manera que 1 = PX(A) = PX(SX) + PX(A SX). Mostraremos que PX(A SX) = 0. En efecto: Anotemos B = A SX. En primer lugar, como B ⊆ Sc X resulta ∀x ∈ B , PX ({x}) = 0. Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego: PX(B) = PX x∈B {x} = x∈B PX ({x}) = 0 Prof.J.Gast´on Argeri 32
  • 33. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 33 Es decir que hemos demostrado que si A es a lo sumo numerable y P (X ∈ A) = 1 entonces P (A SX) = 0 En particular: PX(SX) = 1. Es decir P (X ∈ SX) = 1. Supongamos ahora que SX ⊆ A. Entonces existir´ıa xo ∈ SX con xo ∈ A. Luego: P (X = xo) 0. Entonces PX(X ∈ A {xo}) = PX(A) + P (X = xo) PX(A) = 1. Absurdo. Entonces necesariamente es SX ⊆ A. Esto demuestra que: P (X ∈ SX) = 1 Si A es a lo sumo numerable y P (X ∈ A) = 1 entonces SX ⊆ A Por lo tanto SX es el m´ınimo conjunto buscado Definici´on 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o simplemente rango) de X al m´ınimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X. Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”du- raci´on”, etc, es de esperar que dichas variables aleatorias no est´en restringidas a un rango a lo sumo numerable. Una posible clasificaci´on de las variables aleatorias es la siguiente: variables aleatorias    discretas continuas mixtas Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas que poseen una ”densidad” (concepto que precisaremos m´as adelante). Las mixtas son aquellas que ni son discretas ni son continuas. Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω). Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango RX = N. Para familiarizarnos con la notaci´on de imagen inversa vemos como ejemplo que: {X ≤ 0} = ∅ , {X ≤ 5} = {C, SC, SSC, SSSC, SSSSC} Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X = ”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso: {X ≤ x} =    ∅ si x 0 {S} si 0 ≤ x 1 {C, S} si x ≥ 1 Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un punto fijo xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad 0 (el radio de la bola). Es decir B (xo) = {x ∈ Rn : x − xo } Un subconjunto A ⊆ Rn se dice abierto sii para cada x = (x1, · · · , xn) ∈ A existe al menos una n−bola abierta en Rn centrada en x y completamente contenida en A. Formalmente: A ⊆ Rn es abierto sii se verifica ∀x ∈ A , ∃ 0 , ∀y ∈ Rn , y − x ⇒ y ∈ A Definici´on 16 Se denomina σ-´algebra de Borel en R a la m´ınima σ-´algebra de subconjuntos de R que contiene a todos los conjuntos de la forma (−∞, x] con x ∈ R. Anotaremos B a esta σ-´algebra de subconjuntos de R. Prof.J.Gast´on Argeri 33
  • 34. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 34 Propiedad 26 Dada una variable aleatoria discreta X, se verifica: ∀B ∈ B , P (X ∈ B) = x∈B∩RX P (X = x) Dem: Como B = (B ∩ RX) B ∩ Rc X se deduce que: PX(B) = PX(B ∩ RX) + PX(B ∩ Rc X) Pero como PX(RX) = 1 entonces PX(Rc X) = 0. Luego: PX(B ∩ Rc X) = 0, de manera que PX(B) = PX(B ∩ RX) = x∈B∩RX P (X = x) Definici´on 17 Sea (Ω, Σ, P ) un espacio de probabilidad. Consideremos una variable aleatoria X : Ω → R. La funci´on PX : B → R dada por E −→ P (X ∈ E) se denomina funci´on de distribuci´on de X. Propiedad 27 La funci´on de distribuci´on PX de una variable aleatoria X es una funci´on de probabilidad sobre (R, B). Dem: En lo que sigue B, Bn ∈ B PX(R) = P (X ∈ R) = P (Ω) = 1 PX(B) = P (X ∈ B) ≥ 0 pues P es una probabilidad y {X ∈ B} ∈ Σ Supongamos {Bn} sucesi´on en B, tal que n = m ⇒ Bn ∩ Bm = ∅. Entonces: PX ∞ n=1 Bn = P X ∈ ∞ n=1 Bn = P X−1 ∞ n=1 Bn = = P ∞ n=1 X−1(Bn) = ∞ n=1 P X−1(Bn) = ∞ n=1 P (X ∈ Bn) puesto que los eventos {X ∈ Bn} son disjuntos dos a dos. Definici´on 18 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Se dice que X e Y son equidistribuidas o id´enticamente distribuidas sii ambas poseen la misma funci´on de distribuci´on, i.e. ∀B ∈ B , PX(B) = PY (B) Nota: El hecho de ser X e Y equidistribuidas no significa que sean iguales. Esto se ver´a m´as adelante. Ejemplo: Un fabricante produce un art´ıculo en dos variedades A y B. Desea recabar informaci´on acerca de la preferencia de los consumidores. Para ello seleccionar´a al azar 30 clientes a quienes se les preguntar´a si prefieren A o B. Se trata de un experimento aleatorio en el cual el espacio muestral Ω puede definirse como el conjunto de todas las 30-uplas de 1’s y/o 0’s, donde un 1 en la i-´esima coordenada de la 30-upla indica que el i-´esimo cliente encuestado prefiere la variedad A sobre la B. Supongamos que estos 230 posibles resultados de la encuesta sean equiprobables. Consideremos X = ”cantidad de consumidores que prefieren A”. Se tiene RX = {0, 1, · · · , 30}. Calculemos para cada 0 ≤ k ≤ 30, las probabilidades siguientes: P (X = k) = #{X=k} #(Ω) = (30 k ) 230 (k = 0, 1, · · · , 30) P (X ≤ k) = k j=0 P (X = j) Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente sobre el eje de ordenadas: Prof.J.Gast´on Argeri 34
  • 35. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 35 k P(X=k) 0 5 10 15 20 25 30 0.00.020.040.060.080.100.120.14 kP(X=k) 0 5 10 15 20 25 30 0.00.20.40.60.81.0 Definici´on 19 Dada una variable aleatoria X : Ω → R se denomina funci´on de distribuci´on acumulada (fda) de X a la funci´on designada FX y definida por: FX : R → R dada por FX(x) = P (X ≤ x) Nota: Para indicar que la variable aleatoria posee fda F anotamos X ∼ F . Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces RX = {0, 1, 2, 3}. La funci´on de distribuci´on acumulada de X es FX(x) =    0 si x 0 1/8 si 0 ≤ x 1 1/2 si 1 ≤ x 2 7/8 si 2 ≤ x 3 1 si x ≤ 3 Distribucion binomial acumulada x F(x) -1 0 1 2 3 4 0.00.20.40.60.81.0 ) ) ) ) Prof.J.Gast´on Argeri 35
  • 36. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 36 Ejemplo: Se arroja una moneda normal hasta que sale cara. Sea X = ”cantidad de lanzamientos antes que salga cara”. Se tiene RX = {0, 1, 2, 3, · · · }. La fda de X es: FX(x) =    0 si x 0 1/2 si 0 ≤ x 1 1/2 + 1/4 si 1 ≤ x 2 1/2 + 1/4 + 1/8 si 2 ≤ x 3 ... ... ... k+1 i=1 1 2 i si k ≤ x k + 1 ... ... ... Propiedad 28 Sea X una variable aleatoria con funci´on de distribuci´on acumulada FX. Se cumple: i) ∀x ∈ R , 0 ≤ FX(x) ≤ 1 ii) FX es no decreciente, es decir: ∀x, y ∈ R , x y ⇒ FX(x) ≤ FX(y) iii) FX es continua por la derecha, es decir: ∀x ∈ R , lim t → x+ FX(t) = FX(x) iv) lim x →−∞ FX(x) = 0 y lim x →∞ FX(x) = 1 Dem: i) Evidente pues FX(x) = P (X ≤ x) es una probabilidad. ii) Sean x, y ∈ R con x y. Entonces {X ≤ x} ⊆ {X ≤ y}. Por lo tanto FX(x) = P (X ≤ x) ≤ P (X ≤ y) = FX(y) iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim t → x+ FX(t) existe (es finito). Como x + 1 n es una sucesi´on de t´erminos a la derecha de x y tal que lim n →∞ x + 1 n = x, en- tonces lim t → x+ FX(t) = lim n →∞ FX x + 1 n . Pero: {X ≤ x} = ∞ n=1 X ≤ x + 1 n . Como esta intersecci´on es decreciente, pues X ≤ x + 1 n+1 ⊆ X ≤ x + 1 n , entonces por propiedad de una funci´on de probabilidad es P (X ≤ x) = lim n →∞ P X ≤ x + 1 n . Luego: FX(x) = P (X ≤ x) = lim n →∞ P X ≤ x + 1 n = lim n →∞ FX x + 1 n = lim t → x+ FX(t) iv) Dado que Ω = {X ∈ R} = ∞ n=1 {X ≤ n} y siendo la uni´on creciente, por propiedad de una funci´on de probabilidad se tiene lim n →∞ FX(n) = lim n →∞ P (X ≤ n) = P (Ω) = 1. Pero siendo FX no decreciente y acotada resulta lim x →∞ FX(x) = lim n →∞ FX(n). Entonces: lim x →∞ FX(x) = lim n →∞ FX(n) = 1 La demostraci´on del otro l´ımite es an´aloga y queda a cargo de ustedes. Teorema 6 Sea F : R → R una funci´on. Se cumple: F satisface las propiedades siguientes: i) F es no decreciente en R. Prof.J.Gast´on Argeri 36
  • 37. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 37 ii) F es continua a derecha en R iii) lim x →−∞ F (x) = 0 y lim x →∞ F (x) = 1 si y s´olo si F es la funci´on de distribuci´on de probabilidad acumulada de cierta variable aleatoria. Dem: ⇐) Ya se demostr´o (Prop. anterior) ⇒) La demostraci´on excede el alcance y los objetivos de este curso de modo que la omitimos. S´olo comentar´e que es necesario demostrar que existe cierto espacio de probabilidad (Ω, Σ, P ) y cierta variable aleatoria X en dicho espacio, tal que FX = F Ejemplo: Consideremos la funci´on F (x) = 1 − e− x si x ≥ 0 0 si x 0 El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto espacio de probabilidad) tal que F = FX. En efecto: F es no decreciente. F es continua a derecha en R. De hecho F continua en R Se tiene lim x →−∞ F (x) = lim x →−∞ 0 = 0 y lim x →∞ F (x) = lim x →∞ 1 − e− x = 1 La gr´afica de F tiene el siguiente aspecto: x F(x) -2 0 2 4 6 8 10 0.00.20.40.60.81.0 Propiedad 29 Sean X una variable aleatoria, xo ∈ R. Se cumple: i) FX(xo) − FX(xo−) = P (X = xo) ii) FX es continua a izquierda en xo sii P (X = xo) = 0 iii) FX posee una cantidad a lo sumo numerable de discontinuidades. Prof.J.Gast´on Argeri 37
  • 38. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 38 Dem: i) Utilizando las propiedades de continuidad de una probabilidad resulta: FX(xo−) = lim x → xo− FX(x) = lim x → xo− P (X ≤ x) = lim n →∞ P (X ≤ xo − 1/n) = = P ∞ n=1 {X ≤ xo − 1/n} = P (X xo) Por lo tanto: P (X = xo) = P (X ≤ xo) − P (X xo) = FX(xo) − FX(xo−) ii) Evidente a partir de i). iii) Si FX es discontinua en xo entonces P (X = xo) 0. Anotemos A = {x0 ∈ R : P (X = xo) 0}. Queremos ver que A es a lo sumo numerable. Pero: A = ∞ k=1 Ak donde Ak = {x0 ∈ R : P (X = xo) 1/k} Bastar´a entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal que Ak fuera infinito. Entonces existir´ıa una sucesi´on de t´erminos todos distintos {xn} tal que ∀n , xn ∈ Ak. Luego: P (A) ≥ P ∞ n=1 {xn} = ∞ n=1 P ({xn}) = ∞ dado que la serie posee t´ermino general que no tiende a cero. Absurdo. Luego los Ak son todos finitos, con lo cual A es a lo sumo numerable Propiedad 30 Sea X una variable aleatoria y sea FX su fda. Dados a, b ∈ R , a ≤ b, se cumple: i) P (a X ≤ b) = FX(b) − FX(a) ii) P (a ≤ X ≤ b) = FX(b) − FX(a−) iii) P (a X b) = FX(b−) − FX(a) iv) P (a ≤ X b) = FX(b−) − FX(a−) Dem: Demostremos i): {a X ≤ b} = {X ≤ b} {X ≤ a} Entonces P (a X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX(b) − FX(a) Definici´on 20 Para n ∈ N, se denomina sucesi´on de n ensayos de Bernoulli a todo experimento aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones: • Las n repeticiones son independientes entre s´ı. • Cada ensayo tiene s´olo dos posibles resultados, digamos E (”´exito”) y F (”fracaso”). • La probabilidad de E es la misma en cada uno de los n ensayos. Prof.J.Gast´on Argeri 38
  • 39. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 39 Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que p+q = 1, es decir q = 1−p. El espacio muestral asociado a una sucesi´on de n ensayos de Bernoulli es Ω = {(ω1, · · · , ωn) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. As´ı, el experimento consta de 2n posibles resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De hecho: P ({ω}) = pr · qn−r sii ω posee exactamente r ´exitos Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo que F = ”no sale 3”. Se trata de una sucesi´on de n = 5 ensayos de Bernoulli con probabilidad de ´exito p = 1/6 en cada ensayo. Entonces, por ejemplo: P ({(3, 1, 1, 3, 6)}) = 1 6 2 · 5 6 3 Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale m´ultiplo de 3”, de modo que F = ”no sale m´ultiplo de 3”. Se trata de una sucesi´on de n = 5 ensayos de Bernoulli con probabilidad de ´exito p = 1/3 en cada ensayo. Entonces, por ejemplo: P ({(3, 1, 1, 3, 6)}) = 1 3 3 · 2 3 2 Ejemplo: Dada un sucesi´on de n ensayos de Bernoulli, con probabilidad de ´exito p en cada ensayo, sea X = ”cantidad de ´exitos en los n ensayos”. Esta variable aleatoria tiene RX = {0, 1, 2, · · · , n}. El evento {X = k} estar´a formado por todos aquellos resultados elementales que consten exac- tamente de k ”´exitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad individual pk(1 − p)n−k, para calcular la probabilidad de {X = k} bastar´a multiplicar dicha probabilidad individual por la cantidad total de resultados elementales que consten de exactamente k ”´exitos” y n − k ”fracasos”, es decir n k . Entonces se tiene: P (X = k) = n k pk(1 − p)n−k (k = 0, 1, · · · , n) Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”´exito” y ”fracaso”, donde la probabilidad de ”´exito” es 0 p 1. Nuestro experimento aleatorio consiste en repetir el ensayo en forma independiente hasta obtener el primer ”´exito”. El espacio muestral puede representarse como Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho: P      F · · · F k E      = (1 − p)k p Sea X = ”cantidad de ensayos hasta obtener ´exito”, de modo que RX = N. Se tiene: P (X = k) = (1 − p)k−1p , k = 1, 2, · · · Hallemos la fda de la variable aleatoria X. Para x ≥ 0 se tiene: FX(x) = P (X ≤ x) = [x] k=1 (1 − p)k−1 p = p · 1 − q[x] 1 − q = 1 − q[x] donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces: FX(x) = 0 si x 1 1 − q[x] si x ≥ 1 Definici´on 21 Dada una variable aleatoria X se denomina funci´on de probabilidad puntual o funci´on de masa de probabilidad (fmp) de X a la funci´on pX : R → R dada por pX(x) = P (X = x) Prof.J.Gast´on Argeri 39
  • 40. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 40 Nota: Cuando la variable aleatoria X es discreta, con rango RX = {xn}, la fmp pX de X queda un´ıvocamente determinada conociendo los valores pn = pX(xn). Por este motivo nos referiremos indistintamente a pX o a {pn} cuando X sea discreta. Ejemplo: Consideremos una sucesi´on de n ensayos de Bernoulli con probabilidad de ´exito p en cada ensayo. Sea X = ”cantidad de ´exitos en los n ensayos”. En este caso RX = {0, 1, · · · , n}. La fmp de X es: pX(x) = n x px(1 − p)n−x si x ∈ {0, 1, · · · , n} 0 si x ∈ {0, 1, · · · , n} Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4 p=0.5 x fdp(x) 0 2 4 6 8 10 0.00.050.100.150.200.250.30 p=0.25 x fdp(x) 0 2 4 6 8 10 0.00.050.100.150.200.250.30 Propiedad 31 Para toda variable aleatoria X se cumple: ∀x ∈ R , pX(x) = FX(x) − FX(x−) Dem: Podemos escribir {X x} = ∞ n=1 X ≤ x − 1 n . Esta uni´on es creciente de manera que por propiedades de las funciones de probabilidad vale: P (X x) = lim n →∞ P X ≤ x − 1 n = lim n →∞ FX x − 1 n = FX(x−). Entonces pX(x) = P (X = x) = P (X ≤ x) − P (X x) = FX(x) − FX(x−) Nota: Obs´ervese que FX(xo)−FX(xo−) representa el valor del ”salto” de la fda de X en el punto x = xo. Cuando FX es continua en xo entonces no hay salto all´ı y en consecuencia la fmp de X es nula en x = xo. Propiedad 32 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Se verifica: X e Y son id´enticamente distribuidas sii ∀x ∈ R , FX(x) = FY (x) Dem: ⇒) Supongamos X e Y id´enticamente distribuidas. Sea x ∈ R arbitrario. Entonces (−∞, x] ∈ B de modo que FX(x) = P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) = FY (x). Luego, X e Y poseen la misma fda. ⇐) Supongamos que FX = FY . Consideremos la clase G de todos los miembros de B donde PX coincide con PY , es decir: G = {B ∈ B : PX(B) = PY (B)} = {B ∈ B : P (X ∈ B) = P (Y ∈ B)} Prof.J.Gast´on Argeri 40
  • 41. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 41 Por construcci´on es G ⊆ B. Adem´as por hip´otesis, tomando B = (−∞, x] se tiene PX(B) = FX(x) = FY (x) = PY (B), de modo que G contiene a todos los subconjuntos de R de la forma (−∞, x] con x ∈ R. Pero dado que B es la m´ınima σ-´algebra de subconjuntos de R que contiene a todos los conjuntos de la forma (−∞, x], resulta G ⊇ B. Por lo tanto: G = B. Esto significa que ∀B ∈ B , PX(B) = PY (B) Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y = ”cantidad de cecas obtenidas”. Veamos que X e Y son id´enticamente distribuidas. En efecto, dado que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene: FX(x) = [x] k=0 3 k 1 2 3 = FY (x) Observemos, de paso, que X = Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que Y (ω) = 1 Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn}. La fmp de X verifica las propiedades siguientes: i) ∀x ∈ R , pX(x) ≥ 0 ii) ∞ n=1 pX(xn) = 1 Dem: Ω = {X ∈ RX} = ∞ n=1 {X = xn} siendo la uni´on disjunta. Por lo tanto: 1 = P (Ω) = ∞ n=1 P ({X = xn}) = ∞ n=1 pX(xn) Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn}. La fmp de X determina un´ıvocamente su fda. En efecto: FX(x) = P (X ≤ x) = P    ∞ n=1 xn≤x {X = xn}    = ∞ n=1 xn≤x P (X = xn) = ∞ n=1 xn≤x pX(xn) Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”n´umero del dado i” (i = 1, 2). Sea X = ”m´aximo n´umero en los dos dados”. Es decir: X = max {X1, X2}. Hallemos la fmp y la fda de X. Hallemos primeramente las fmp de X1 y X2. Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por equiprobabilidad vale: pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6) Por lo tanto: FX1 (x) = FX2 (x) = 6 k=1 k≤x 1 6 = [x] 6 Observemos ahora que {X ≤ x} = {X1 ≤ x} ∩ {X2 ≤ x} Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos: FX(x) = P (X ≤ x) = P ({X1 ≤ x} ∩ {X2 ≤ x}) = = P (X1 ≤ x)P (X2 ≤ x) = FX1 (x)FX2 (x) = [x] 6 2 = [x]2 36 Prof.J.Gast´on Argeri 41
  • 42. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 42 Luego, para k = 1, 2, · · · , 6 se tiene: pX(k) = P (X ≤ k) − P (X ≤ k − 1) = FX(k) − FX(k − 1) = k2 − (k − 1)2 36 = 2k − 1 36 Generalicemos esta situaci´on para el experimento que consiste en arrojar una dado normal n-veces. Definamos: Xi = ”n´umero obtenido en el i-´esimo lanzamiento” X = ”m´aximo n´umero obtenido en los n lanzamientos” Como antes: {X ≤ k} = n i=1 {Xi ≤ k} Por lo tanto, teniendo en cuenta la independencia de los n lanzamientos, resulta: P (X ≤ x) = P n i=1 {Xi ≤ x} = n i=1 P (Xi ≤ x) = = n i=1 FXi (x) = n i=1 [x] 6 = [x] 6 n Luego, para k = 1, 2, · · · , 6 se tiene: pX(k) = FX(k) − FX(k − 1) = k 6 n − k − 1 6 n = kn − (k − 1)n 6n La propiedad anterior no es v´alida para variables aleatorias no discretas. De hecho, existen fda que son funciones continuas en todo R. Si X una tal variable aleatoria entonces ∀x ∈ R , FX(x) = FX(x−). Por lo tanto: P (X = x) = P (X ≤ x) − P (X x) = FX(x) − FX(x−) = 0 Es decir, para variables aleatorias continuas la fmp carece por completo de inter´es dado que es id´enticamente nula. Propiedad 35 Sea {pn} una sucesi´on tal que: i) ∀n ∈ N , pn ≥ 0 ii) ∞ x=1 pn = 1 Entonces {pn} es una fmp. Dem: Definamos F (x) = ∞ n=1 n≤x pn. Dejo a cargo de ustedes verificar que F satisface las condiciones para ser una fda (Teorema 1) Motivaremos ahora la noci´on de variable aleatoria continua. Ejemplo: Consideremos una poblaci´on formada por un gran n´umero N = 1000 de personas. Supong- amos que nos interesa la distribuci´on de la variable aleatoria X que mide la altura de un individuo seleccionado al azar dentro de esta poblaci´on. Supongamos para fijar ideas que las alturas se miden en cm y que se encuentran en el intervalo [150, 190] Dado el gran n´umero de personas en la poblaci´on podemos tener una idea aproximada de la distribuci´on de alturas dividiendo el intervalo [150, 190] Prof.J.Gast´on Argeri 42
  • 43. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 43 en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de- terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla: Intervalo f(frecuencia) fr(frecuencia relativa) fr/(longitud subintervalo) [150, 160) 80 0.10 0.01 [160, 170) 150 0.25 0.025 [170, 180) 500 0.50 0.05 [180, 190) 150 0.15 0.015 Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin- tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna fr y que podemos resumir en esta otra tabla: k pD(k) pD(k)/(long.subintervalo) 150 0.10 0.01 160 0.25 0.025 170 0.50 0.05 180 0.15 0.015 Para obtener una variable aleatoria discreta cuya distribuci´on represente m´as fielmente la distribuci´on de X podemos refinar nuestra partici´on del intervalo original [150, 190] y recalcular la fmp de la variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva- los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la poblaci´on es tan grande que puede suponerse ”infinita” y por ende este proceso podr´ıa segir indefinidamente, obtendr´ıamos por lo general una situaci´on como se muestra en los gr´aficos siguientes, en la que se grafica pD/(long.subintervalo) versus x para particiones con norma cada vez menor. Comente- mos algunas caracter´ısticas interesantes acerca de estos gr´aficos: • Permiten ”reconstruir” la fmp de la v.a.discreta simplemente hallando el ´area de cada rect´angulo. • Dado que hemos considerado ´unicamente particiones regulares, los rect´angulos m´as altos y los m´as bajos permiten visualizar los valores m´as probables y los menos probables de la variable discreta y, como la discreta aproxima a la v.a. X, tambi´en podemos localizar los intervalos donde X cae con mayor y con menor probabilidad. • Cuidado: Las alturas de los rect´angulos no dan probabilidades sino probabilidades por unidad de longitud. • Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de cierto momento habr´a una enorme cantidad de subintervalos donde fr/L (L la long. del subintervalo) ser´a nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde fr/L ser´a muy grande (pues L tiende a cero en tanto que fr permanecer´a fija). En el l´ımite podr´ıamos decir que las gr´aficas tienden a ser nulas salvo en una cantidad a lo sumo numerable de ”picos infinitos”. • La suma de las ´areas de los rect´angulos es 1 • Las gr´aficas de las alturas de los rect´angulos se asemejan cada vez m´as a la gr´afica de una funci´on, digamos f(x), de argumento continuo. Prof.J.Gast´on Argeri 43
  • 44. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 44 150 160 170 180 190 0.00.010.030.05 x 150 160 170 180 190 0.00.010.030.05 x 150 160 170 180 190 0.00.010.030.05 x 150 160 170 180 190 0.00.010.030.05 x Este ejemplo motiva la definici´on que sigue. Definici´on 22 Se dice que una variable aleatoria X es continua (o m´as precisamente absolutamente continua) sii existe al menos una funci´on fX : R → R tal que: i) ∀x ∈ R , fX(x) ≥ 0 ii) ∀A ∈ B , P (X ∈ A) = A fX(x) dx Una tal funci´on fX se denomina una funci´on de densidad de probabilidad (fdp) de X o de FX. Nota: • Dado que la integral involucrada en esta definici´on puede ser impropia, se presupone su conver- gencia. • Tomando A = (−∞, x] se tiene que FX(x) = x −∞ fX(t) dt En particular, si fX sea una funci´on continua en el intervalo (a, b) resulta FX derivable en (a, b) y vale ∀x ∈ (a, b) , FX(x) = fX(x). • Observemos que ∞ −∞ fX(x) dx = P (X ∈ R) = 1. Es decir, el ´area bajo la curva y = fX(x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser mon´otona puesto que para la convergencia de esta integral impropia es necesario que se verifique: lim x →−∞ fX(x) = 0 y lim x →∞ fX(x) = 0 • Si X es variable aleatoria continua entonces para cualquier intervalo I ⊆ R de extremos a y b se tiene P (X ∈ I) = FX(b) − FX(a) = b −∞ fX(x) dx − a −∞ fX(x) dx = b a fX(x) dx Prof.J.Gast´on Argeri 44
  • 45. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 45 • Si fX es continua en x, entonces fX(x) = FX(x) de modo que se tiene la siguiente interpretaci´on de la fdp: fX(x) = lim h → 0+ fX (x+h)−FX (x) h = lim h → 0+ P (X≤x+h)−P (X≤x) h = = lim h → 0+ P (xXx +h) h Es decir que fX(x) representa la probabilidad de que X pertenezca al intervalo (x, x + h) dividida por la longitud de dicho intervalo. De ah´ı el nombre ”densidad” de probabilidad. Ejemplo: Sea F : R → R dada por F (x) = 1 1+e− x . Comprueben que F satisface las condiciones de una fda, es decir que existe una variable aleatoria X tal que F = FX. Esta va es continua. Hallemos su fdp: fX(x) = FX(x) = d dx 1 1+e− x = e− x (1+e− x ) 2 = ex (1+ex)2 Propiedad 36 Sea f : R → R una funci´on satisfaciendo las siguientes condiciones: i) ∀x ∈ R , f(x) ≥ 0 ii) ∞ −∞ f(x) dx = 1 Entonces f una fdp. Dem: Definamos F : R → R por F (x) = x −∞ f(t) dt. Vamos a verificar que esta F es una fda. • F es no decreciente pues si x, y ∈ R con x y se tiene: F (x) = x −∞ f(t) dt ≤ y −∞ f(t) dt = F (y) ya que f ≥ 0 y (−∞, x) ⊆ (−∞, y) • Para cualquier x ∈ R es F continua en x. S´olo demostraremos esto en el caso partirular en que f es continua en x. En tal caso el teorema fundamental del c´alculo asegura que: lim h → 0 1 h x+h x f(t) dt = f(x) Entonces: lim h → 0 F (x + h) − F (x) = lim h → 0 x+h −∞ f(t) dt − x −∞ f(t) dt = lim h → 0 x+h x f(t) dt = = lim h → 0 h · 1 h x+h x f(t) dt = 0 · f(x) = 0 Por lo tanto lim h → 0 F (x + h) − F (x) = 0. Es decir: lim h → 0 F (x + h) = F (x) Prof.J.Gast´on Argeri 45
  • 46. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 46 • Finalmente: lim x →−∞ F (x) = lim x →−∞ x −∞ f(t) dt = −∞ −∞ f(t) dt = 0 lim x →∞ F (x) = lim x →∞ x −∞ f(t) dt = ∞ −∞ f(t) dt = 1 Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y por ende, con fdp f) Definici´on 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene al conjunto {x ∈ R : f(x) 0}. Anotaremos RX al soporte de f. Propiedad 37 Sean X v.a. continua con fdp fX y sea B ∈ B. Entonces: P (X ∈ B) = P (X ∈ B ∩ RX) Dem: P (X ∈ B) = B fX(x) dx = B∩RX fX(x) dx + B∩Rc X fX(x) dx = B∩RX fX(x) dx = P (X ∈ B ∩ RX) puesto que B∩Rc X fX(x) dx = B∩Rc X 0 dx = 0 Propiedad 38 La funci´on f(x) = 1√ 2π · e− x2/2 es una fdp. Dem: Claramente: ∀x ∈ R , f(x) 0. Por otra parte: ∞ −∞ 1√ 2π · e− x2/2 dx 2 = ∞ −∞ 1√ 2π · e− x2/2 dx · ∞ −∞ 1√ 2π · e− y2/2 dy = = ∞ −∞ ∞ −∞ 1 2π · e− (x2+y2)/2 dy dx = ∞ 0 2π 0 1 2π · e− r2/2 r dθ dr = = ∞ 0 e− r2/2 r dr = ∞ 0 e− t dt = − e− t ∞ 0 = 1 En lo anterior hemos utilizado coordenadas polares (se multiplic´o por r, el m´odulo del jacobiano). Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta necesariamente: ∞ −∞ 1 √ 2π · e− x2/2 dx = 1 Esta fdp es sumamente importante en estad´ıstica y se denomina densidad gaussiana (es frecuente llamarla tambi´en densidad normal standard). Suele anotarse ϕ(x). Ejemplo: Sea f(x) = kx si 0 x 1 0 si x ≤ 0 ∨ x ≥ 1 Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar tambi´en la fda. En primer lugar debe ser ∞ −∞ f(x) dx = 1. En este caso: 1 = 1 0 kx dx = k x2 2 1 0 = k 2 Prof.J.Gast´on Argeri 46
  • 47. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 47 Por lo tanto k = 2. Hallemos la fda asociada: F (x) = x −∞ f(t) dt =    0 si x ≤ 0 x 0 2t dt si 0 x 1 1 si x ≥ 1 =    0 si x ≤ 0 x2 si 0 x 1 1 si x ≥ 1 Nota: El soporte de f en este ejemplo es [0, 1]. Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a. continua con fdp dada por: fT (t) =    λe− t/100 si t ≥ 0 0 si t 0 Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon- erse. Calcular tambi´en la probabilidad de que funciones menos de 100 horas. Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene: 1 = ∞ − ∞ fT (t) dt = ∞ 0 λe− t/100 dt = −100λ e− t/100 ∞ 0 = 100λ Luego λ = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es: P (50 T 150) = 150 50 1 100 e− t/100 dt = − e− t/100 150 50 = e−0.5 − e−1.5 ≈ 0.384 La probabilidad de que funcione menos de 100 horas viene dada por: P (T 100) = 100 0 1 100 e− t/100 dt = − e− t/100 100 0 = 1 − e−1 ≈ 0.633 18 Cuantiles de una distribuci´on Definici´on 24 Sea X una variable aleatoria con fda FX. Dado α ∈ R , 0 α 1, un n´umero real xα se dice un α-cuantil de FX o de X sii se verifican: P (X xα) ≤ α y P (X xα) ≤ 1 − α Equivalentemente, xα es un α-cuantil de FX sii se cumplen: P (X xα) ≤ α y P (X ≤ xα) ≥ α Suponi´endolos ´unicos, cuando α = 0.5 hablamos de la mediana de FX, cuando α = 0.25 hablamos del primer cuartil de FX y para α = 0.75 hablamos del tercer cuartil de X. Cuando se consideran cuantiles asociados a una divisi´on del intervalo (0, 1) en cien partes iguales es frecuente hablar de percentiles de FX. Nota: Cuando X es variable aleatoria continua (es decir que FX es funci´on continua) la condici´on anterior se expresa de manera m´as simple: xα es cuantil α de FX sii F (xα) = α sii xα − ∞ fX(x) dx = α sii P (X ≤ xα) = α De manera m´as gr´afica, el cuantil α de una distribuci´on continua es el punto del eje de abscisas que deja a su izquierda y por debajo de la gr´afica de fX (obviamente por encima del eje de abscisas) un Prof.J.Gast´on Argeri 47
  • 48. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 48 ´area exactamente igual a α. Equivalentemente si se grafica FX (siempre supuesta continua), hallar el cuantil α de FX es hallar la abscisa del punto de la gr´afica que posee ordenada igual a α Ejemplo: Si X es una variable aleatoria con distribuci´on gaussiana standard entonces la mediana es x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene: FX(0) = 0 −∞ ϕ(x) dx = 1 2 ∞ −∞ ϕ(x) dx = 0.5 El cuantil α = 0.05 se determina planteando Φ(x0.05) = 0.05. Entonces x0.05 = Φ−1(0.05). Para calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo recurrir al SPlus. Para ilustrar un poco m´as, veamos la siguiente tabla (junto con los comandos utilizados): p_c(0.01,0.05,0.1) alfa_c(p,0.5,1-rev(p)) round(qnorm(alfa),3) α xα 0.01 −2.326 0.05 −1.645 0.1 −1.282 0.5 0.000 0.9 1.282 0.95 1.645 0.99 2.326 Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es ´unica cuando n par pero deja de serlo cuando n es impar. • Si n = 2r entonces x0.5 = r pues: P (X r) = r−1 k=0 2r k 1 2 2r = 1 2 2r r−1 k=0 2r k P (X r) = 2r j=r+1 2r j 1 2 2r = 1 2 2r 2r j=r+1 2r j = = 1 2 2r 2r j=r+1 2r 2r−j = 1 2 2r r−1 k=0 2r k Entonces P (X r) = P (X r). Pero P (X r) + P (X = r) + P (X r) = 1. Luego: P (X r) = 1−P (X=r) 2 ≤ 0.5 y P (X r) = P (X r) ≤ 0.5 = 1 − 0.5 • Si n = 2r − 1 entonces cualquier punto del intervalo (r − 1, r] es una posible mediana de X. En efecto: Sea x∗ ∈ (r − 1, r]. Se tiene P (X x∗) = r−1 k=0 2r−1 k 1 2 2r−1 = 1 2 2r−1 r−1 k=0 2r−1 k P (X x∗) = 2r−1 j=r 2r−1 j 1 2 2r−1 = 1 2 2r−1 2r−1 j=r 2r−1 j = = 1 2 2r−1 2r−1 j=r 2r−1 2r−1−j = 1 2 2r−1 r−1 k=0 2r−1 k Prof.J.Gast´on Argeri 48
  • 49. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 49 Luego: P (X x∗) = P (X x∗). Pero como P (X x∗) + P (X x∗) = 1, necesariamente es P (X x∗) = P (X x∗) = 1/2. Luego: P (X x∗) ≤ 0.5 y P (X x∗) ≤ 1 − 0.5 = 0.5 Prof.J.Gast´on Argeri 49
  • 50. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 50 Familias param´etricas de distribuciones univariadas 19 Distribuciones discretas 19.1 Distribuci´on uniforme discreta Dado N ∈ N, se dice que una v.a. tiene distribuci´on uniforme discreta en {1, · · · , N} sii su fmp viene dada por: pX(X = k) = 1 N (1 ≤ k ≤ N) Obs´ervese que RX = {1, · · · , N} y esta distribuci´on de probabilidades es uniforme en el sentido que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X. Podemos comprobar que pX verifica los axiomas de una fmp: • ∀k ∈ RX , pX(k) = 1/N ≥ 0 • N k=1 pX(k) = N k=1 1 N = N · 1 N = 1 Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee distribuci´on uniforme discreta en {1, · · · , 6} Ejemplo: Se extrae una carta al azar de un mazo de cartas espa˜nolas. Sea X la v.a. definida por X =    1 si sale carta de oro 2 si sale carta de copa 3 si sale carta de espada 4 si sale carta de basto Entonces X posee distribuci´on uniforme discreta en {1, 2, 3, 4} Ejemplo: Un sereno tiene un llavero con n llaves y s´olo una de ellas abre la puerta de su habitaci´on, pero no recuerda cu´al. Decide probarlas una por una (separando las que no abren) hasta lograr abrir la puerta. Sea X el n´umero de ensayos que necesita hasta abrir la puerta, de manera que RX = {1, 2, · · · , n}. Veamos que X posee distribuci´on uniforme discreta en {1, 2, · · · , n}. En efecto: P (X = 1) = 1 n P (X = 2) = (n−1)1 n(n−1) = 1 n P (X = 3) = (n−1)(n−2)1 n(n−1)(n−2) = 1 n ... ... ... ... ... P (X = n) = (n−1)(n−2)···2·1 n! = 1 n 19.2 Distribuci´on binomial Una variable aleatoria X se dice con distribuci´on binomial de par´ametros n, p, siendo n ∈ N y p ∈ R , 0 p 1, sii su fmp viene dada por: pX(k) = n k pk (1 − p)n−k (0 ≤ k ≤ n) En tal caso anotamos X ∼ Bi(n, p). Obs´ervese que RX = {0, 1, · · · , n}. Comprobemos que pX verifica los axiomas de una fmp: Prof.J.Gast´on Argeri 50
  • 51. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 51 • ∀k ∈ RX , pX(k) = n k pk(1 − p)n−k ≥ 0 • n k=0 pX(k) = n k=0 n k pk(1 − p)n−k = (p + (1 − p))n = 1 Adem´as la fda de X viene dada por: FX(x) = [x] k=0 n k pk (1 − p)n−k Cuando p = 1/2 la fmp resulta sim´etrica con centro de simetr´ıa x∗ = n/2. En efecto: Consideremos por separado los casos n par e impar. • n impar. Anotemos n = 2r − 1. En este caso el sim´etrico de x = r − j respecto de x∗ = r − 1/2 es x = 2x∗ − (r − j) = 2 r − 1 2 − (r − j) = 2r − 1 − r + j = r + j − 1 pX(r − j) = 2r − 1 r − j 1 2 n pX(r + j − 1) = 2r − 1 r + j − 1 1 2 n Pero 2r − 1 r − j = 2r − 1 (2r − 1) − (r − j) = 2r − 1 r + j − 1 • n par. Anotemos n = 2r. En este caso el sim´etrico de x = r − j respecto de x∗ = r es x = 2x∗ − (r − j) = 2 2r 2 − (r − j) = 2r − (r − j) = r + j pX(r − j) = 2r r − j 1 2 n pX(r + j) = 2r r + j 1 2 n Pero 2r r − j = 2r (2r) − (r − j) = 2r r + j La distribuci´on binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de ´exitos en una sucesi´on de n ensayos de Bernoulli con probabilidad de ´exito p en cada ensayo individual. N´otese que en tal caso la distribuci´on del n´umero de fracasos es una variable aleatoria con distribuci´on Bi(n, 1 − p). Ejemplo: Se lanza 8 veces un dado equilibrado. Sea X = ”cantidad de ensayos en los que se obtiene m´ultiplo de 3” Se trata de una sucesi´on de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale m´ultiplo de 3”. la probabilidad de ´exito en cada ensayo es pues p = 1/3. La distribuci´on de X es entonces Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos: a) ”Cinco veces sale m´ultiplo de 3” Rta: P (X = 5) = 8 5 1 3 5 2 3 3 = 0.0683 Prof.J.Gast´on Argeri 51
  • 52. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 52 b) ”Al menos dos veces sale m´ultiplo de 3” Rta: P (X ≥ 2) = 1−P (X 2) = 1−P (X = 0)−P (X = 1) = 1− 8 0 2 3 8 − 8 1 1 3 · 2 3 7 c) ”A lo sumo cinco veces sale m´ultiplo de 3” Rta: P (X ≤ 5) = 1 − P (X 5) = 1 − P (X = 6) − P (X = 7) − P (X = 8) = 1 − 8 6 1 3 6 · 2 3 2 − 8 7 1 3 7 · 2 3 − 8 8 1 3 8 Propiedad 39 La fmp de una v.a. con distribuci´on Bi(n, p) alcanza un m´aximo en el punto x∗ = [(n + 1)p] Dem: Dado que la fmp es discontinua, no es posible aplicar t´ecnicas de c´alculo (derivada) para obtener su m´aximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) = pX(k)/pX(k − 1) Mientras este cociente se mantenga mayor que la unidad ser´a pX creciente como funci´on de k. En cambio mientras el cociente permanezca menor que la unidad entonces pX ser´a decreciente. Ante todo hallemos este cociente: C(k) = n k n k−1 = n!(k − 1)!(n − k + 1)!pkqn−k k!(n − k)!n!pk−1qn−k+1 = (n − k + 1)p kq Luego: C(k) 1 ⇔ (n − k + 1)p k(1 − p) ⇔ k (n + 1)p C(k) = 1 ⇔ (n − k + 1)p k(1 − p) ⇔ k = (n + 1)p C(k) 1 ⇔ (n − k + 1)p k(1 − p) ⇔ k (n + 1)p Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su m´aximo en un ´unico punto (unimodal), a saber x∗ = [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la fmp alcanza su m´aximo en dos puntos (bimodal), a saber: x∗ = (n + 1)p y x∗∗ = x∗ − 1 Esta situaci´on se puede comprobar en los siguientes gr´aficos: 0 1 2 3 4 5 6 0.00.10.20.3 fmp de una Bi(6,1/3) 0 1 2 3 4 5 6 7 8 0.00.050.100.150.200.25 fmp de una Bi(8,1/3) Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ Bi(n, p). Sea k un vector, k = (k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero). dbinom(k,n,p) da como resultado el vector (pX(k1), · · · pX(ks)). Por ejemplo: Prof.J.Gast´on Argeri 52
  • 53. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 53 n - 8 p - 0.25 k - c(3, 4, 6, 7) dbinom(k, n, p) [1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109 round(dbinom(k, n, p), 5) [1] 0.20764 0.08652 0.00385 0.00037 k - 0:8 dbinom(k, n, p) [1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398 [6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879 round(dbinom(k, n, p), 5) [1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002 pbinom(k,n,p) da como resultado el vector (FX(k1), · · · FX(ks)). 19.3 Distribuci´on geom´etrica Dado p ∈ (0, 1), una v.a. X se dice con distribuci´on geom´etrica de par´ametro p sii su fmp viene dada por: pX(k) = (1 − p)k−1 · p (k ∈ N) En tal caso anotamos X ∼ G(p). Observemos que RX = N. Verifiquemos que pX satisface los axiomas de una fmp. Para abreviar anotemos q = 1 − p: • ∀k ∈ N , pX(k) = qk−1p ≥ 0 • ∞ k=1 pX(k) = ∞ k=1 qk−1p = p ∞ k=1 qk−1 = p 1−q = p p = 1 Calculemos su fda: FX(x) = P (X ≤ x) = [x] k=1 (1 − p)k−1p = p [x]−1 j=0 (1 − p)j = = p · 1−(1−p)[x] 1−(1−p) = 1 − (1 − p)[x] = 1 − q[x] Algunas de estas gr´aficas se muestran en la figura siguiente: Graficamos tambi´en algunas fmp: Una propiedad interesante de esta distribuci´on es la siguiente. Propiedad 40 (”Ausencia de memoria”) Sea X una v.a. con distribuci´on geom´etrica de par´ametro p ∈ (0, 1). Sean s, t ∈ N con s t. Se verifica: P (X s|X t) = P (X s − t) Dem: En efecto, anotemos q = 1 − p. Como s t resulta {X s} ⊆ {X t}. Por lo tanto: {X s} ∩ {X t} = {X s} Luego: P (X s|X t) = P (Xs , Xt ) P (Xt) = P (Xs) P (Xt) = 1−FX (s) 1−FX (t) = qs qt = qs−t = 1 − 1 − qs−t = = 1 − FX(s − t) = P (X s − t) Prof.J.Gast´on Argeri 53
  • 54. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 54 fda de una G( 0.2 ) k P(X=k) 0 5 10 15 20 0.00.20.40.60.81.0 fda de una G( 0.4 ) k P(X=k) 0 2 4 6 8 10 12 0.00.20.40.60.81.0 fda de una G( 0.6 ) k P(X=k) 0 2 4 6 8 0.00.20.40.60.81.0 fda de una G( 0.8 ) k P(X=k) 0 1 2 3 4 5 0.00.20.40.60.81.0 1 2 3 4 5 6 7 8 9 0.00.050.100.150.20 fmp de una G( 0.2 ) k P(X=k) 1 2 3 4 5 6 7 8 9 0.00.10.20.30.4 fmp de una G( 0.4 ) k P(X=k) 1 2 3 4 5 6 7 8 9 0.00.20.40.6 fmp de una G( 0.6 ) k P(X=k) 1 2 3 4 5 6 7 8 9 0.00.20.40.60.8 fmp de una G( 0.8 ) k P(X=k) Ejemplo: La distribuci´on geom´etrica surge tambi´en en el contexto de ensayos de Bernoulli con proba- bilidad de ´exito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer ´exito” entonces X posee distribuci´on geom´etrica con par´ametro p. Por ejemplo, si se arroja un dado equilibrado hasta que sale el n´umero 6 y X representa la cantidad de lanzamientos necesarios, entonces RX = N y X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-´esimo sale 6. Dado que los lanzamientos son independientes entre s´ı, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6. Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ G(p). Sea k un vector, k = (k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero). dgeom(k,p) da como resultado el vector (pX(k1), · · · pX(ks)). Por ejemplo: p - 0.25 k - c(1, 4, 6, 7) dgeom(k, p) [1] 0.18750000 0.07910156 0.04449463 0.03337097 round(dgeom(k, p), 5) [1] 0.18750 0.07910 0.04449 0.03337 Prof.J.Gast´on Argeri 54
  • 55. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 55 k - 4:10 dgeom(k, p) [1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117 [7] 0.01407838 round(dgeom(k, p), 5) [1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408 pgeom(k,p) da como resultado el vector (FX(k1), · · · FX(ks)). 19.4 Distribuci´on hipergeom´etrica Dados n, D, N ∈ N con n N , D N, se dice que una v.a. X posee distribuci´on hiper- geom´etrica con par´ametros n, D, N sii su fmp viene dada por: pX(k) = D k N−D n−k N n para max {0, D − (N − n)} ≤ k ≤ min {n, D} En tal caso anotaremos X ∼ H(n, D, N). Observemos que cuando n ≤ min {D, N − D} resulta RX = {0, 1, · · · , n} . Ejemplo: Un lote de tama˜no N de cierta clase de art´ıculos contiene D art´ıculos defectuosos (y N − D art´ıculos no defectuosos). Se extrae al azar una muestra de art´ıculos de tama˜no n, sin reposici´on. Sea X la cantidad de art´ıculos defectuosos presentes en dicha muestra. Evidentemente el rango de X es de la forma RX = {m, · · · , M}, donde m = max {n − (N − D), 0} y M = min {D, n}. Dado k ∈ RX calculemos P (X = k). Abreviemos In = {1, · · · , n}. El espacio muestral puede pensarse como Ω = {A ⊆ {M1, · · · , MD, B1, · · · , BN−D} : #(A) = n} donde M indica defectuoso y B indica no defectuoso. Puesto que la extracci´on se realiza al azar, resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables. Entonces: P (X = k) = # {X = k} #Ω Contar la cantidad de elementos en Ω equivale a contar la cantidad de posibles subconjuntos de tama˜no n elegidos entre N elementos diferentes. Hay N n formas diferentes. Contemos ahora en cu´antas de ellas hay exactamente k objetos defectuosos. Para ello debemos contar de cu´antas formas es posible elegir los k objetos defectuosos que participar´an, a saber D k , y por cada una de estas elecciones habr´a que determinar de cu´antas formas es posible elegir los otros n − k elementos participantes no defectuosos, a saber N−D n−k . Por lo tanto # {X = k} = D k N−D n−k . Por lo tanto: P (X = k) = D k N−D n−k N n Es decir, efectivamente X posee distribuci´on hipergeom´etrica de par´ametros n, D, N. Anotaremos esta distribuci´on como H(n, D, N). Nota: Los siguientes comandos de SPlus son ´utiles: Sea X ∼ H(n, D, N). Sea k un vector, k = (k1, · · · , ks) (cuando s = 1 es un vector de longitud 1, o sea un n´umero). dhyper(k,D,N-D,n) da como resultado el vector (pX(k1), · · · pX(ks)). Por ejemplo: Prof.J.Gast´on Argeri 55
  • 56. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 56 D - 6 ND - 8 n - 4 k - 0:3 round(dhyper(k, D, ND, n), 4) [1] 0.0699 0.3357 0.4196 0.1598 phyper(k,D,N-D,n) da como resultado el vector (FX(k1), · · · FX(ks)). La fmp de una v.a. H(n, D, N) alcanza un m´aximo cuando k = k∗ = (n+1)(D+1) N+2 , como puede demostrarse y comprobarse en los siguientes gr´aficos. N´otese que si (n+1)(D+1) N+2 no es entero, el m´aximo se alcanza ´unicamente en k∗ (unimodal), mientras que si (n+1)(D+1) N+2 es entero, entonces pX alcanza su m´aximo en los dos puntos k∗ = (n+1)(D+1) N+2 y k∗∗ = k∗ − 1 (bimodal) 0 1 2 3 4 5 6 7 8 9 10 fmp de H(10,12,26) k P(X=k) 0.00.050.100.150.200.250.30 0 1 2 3 4 5 6 7 fmp de H(7,6,10) k P(X=k) 0.00.10.20.30.4 19.5 Distribuci´on de Poisson - Procesos de Poisson Dado λ ∈ R , λ 0, se dice que una v.a. X posee distribuci´on de Poisson con par´ametro λ sii su fmp viene dada por: pX(k) = e− λ · λk k! (k = 0, 1, 2, · · · ) En tal caso anotaremos X ∼ P(λ). El par´ametro λ suele llamarse intensidad. Observemos que RX = N ∪ {0}. Verifiquemos que efectivamente pX es una fmp: • ∀k ∈ N ∪ {0} , pX(k) = e− λ · λk k! ≥ 0 • ∞ k=0 pX(k) = ∞ k=0 e− λ · λk k! = e− λ ∞ k=0 λk k! = e− λeλ = e0 = 1 Cuando λ no es entero, la distribuci´on P(λ) alcanza su m´aximo en el ´unico (unimodal) punto k = [λ]. En cambio cuando λ es entero, la distribuci´on alcanza su m´aximo en dos puntos (bimodal), a saber k = λ y k = λ − 1. Grafiquemos algunas fmp de v.a. Poisson: Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter- minado evento de inter´es ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrir´a en de- terminados instantes (horas). Supongamos que para cierta constante λ 0 se verifican las siguientes suposiciones: Prof.J.Gast´on Argeri 56
  • 57. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 57 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de una P( 1.5 ) k P(X=k) 0.00.10.20.3 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de una P( 3 ) k P(X=k) 0.00.050.100.150.20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de una P( 4.5 ) k P(X=k) 0.00.050.100.15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de una P( 6 ) k P(X=k) 0.00.050.100.15 1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de longitud h es de la forma: λh + o(h) 2. La prbabilidad de que dos o m´as eventos ocurran en un intervalo de tiempo dado y de longitud h de la forma: o(h) 3. Dados cualesquiera n´umeros n ∈ N , j1, · · · , jn ∈ N∪{0} y cualquier conjunto de n intervalos temporales disjuntos dos a dos, si se define Ei como el suceso que exactamente ji de los eventos bajo consideraci´on ocurran en el i-´esimo intervalo temporal (i = 1, · · · , n), entonces los sucesos E1, · · · , En son mutuamente independientes. Intuitivamente hablando, el supuesto 1 significa que para valores peque˜nos de h, la probabilidad de ocurrencia de exactamente uno de los eventos en un lapso de duraci´on h es λh m´as una cantidad despreciable respecto de h. Obs´ervese que podemos interpretar λ como la tasa o raz´on instant´anea de ocurrencia de un evento. El supuesto 2 significa que la probabilidad de que ocurran dos o m´as eventos en un lapso de tiempo de duraci´on h es despreciable respecto de h. El supuesto 3 significa que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es influenciada por la cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero. Antes de continuar vamos a establecer un lema que nos resultar´a ´util dentro de poco. Lema 1 Sea {αn} una sucesi´on de n´umeros reales tal que existe α ∈ R con lim n →∞ αn = α. Entonces se cumple: lim n →∞ 1 − αn n n = e− α Dem: Sea f(x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene: f(x) = −x − x2 2 · 1 (1 − c)2 con c entre 0 y x Evaluando en x = αn/n y multiplicando por n se obtiene: n · ln 1 − αn n = −αn − α2 n 2n · 1 (1 − cn)2 (3) Dado que cn se encuentra entre 0 y αn/n y como lim n →∞ αn = α, resulta lim n →∞ cn = 0. Luego, tomando l´ımite para n → ∞ en (3) vemos que la sucesi´on (3) tiene l´ımite − α. Tomando exponencial y teniendo en cuenta que esta funci´on es continua, resulta lo afirmado en el teorema Prof.J.Gast´on Argeri 57
  • 58. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 58 Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo de duraci´on h es una variable aleatoria con distribuci´on de Poisson de par´ametro λh. Dem: Designemos N(t) el n´umero de ocurrencias de eventos en el intervalo [0, t). Formemos una par- tici´on regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) . Consideremos los siguientes sucesos: A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos” Bi = ”el subint. i-´esimo contiene dos o m´as eventos” (i = 1, · · · , n) B = ”al menos uno de los subint. contiene dos o m´as eventos” C = {N(t) = k} ∩ B Entonces claramente: B = n i=1 Bi (uni´on no disjunta) P (N(t) = k) = P (A ∪ C) = P (A) + P (C) pues A y C son disjuntos Pero: P (C) ≤ P (B) ≤ n i=1 P (Bi) = n i=1 o t n = n · o t n = t · o(t/n) t/n Para cada t fijo es lim n →∞ o(t/n) t/n = 0. Luego: lim n →∞ P (C) = 0. Por otra parte, si I es un intervalo de duraci´on h, los supuestos 1 y 2 implican que: P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)− −P (”ocurren dos o m´as eventos en I”) = = 1 − (λh + o(h)) − o(h) = 1 − λh − o(h) Adem´as en virtud del supuesto 3 se tiene: P (A) = n k λt n + o t n k 1 − λt n − o t n n−k = = n(n−1)···(n−k+1) k! · 1 nk n λt n + o t n k 1 − λt n + o t n n−k = = n(n−1)···(n−k+1) nk · 1 k! n λt n + o t n k 1 − λt n + o t n n−k = = 1 k! n λt n + o t n k 1 − λt n + o t n n 1 − λt n + o t n −k k i=1 1 − i−1 n (4) Pero como lim n →∞ n λt n + o t n = λt + lim n →∞ t o(t/n) t/n = λt se deduce del lema 1 con αn = n λt n + o t n que: lim n →∞ 1 − λt n + o t n n = e− λt La primera expresi´on entre llaves en la ´ultima de las expresiones en (4) tiende a λk y la tercera expresi´on entre llaves tiende a 0. La productoria consta de un n´umero fijo de factores y cada uno de ellos tiende a 1. Por lo tanto: lim n →∞ P (A) = e− λt · (λt)k k! Prof.J.Gast´on Argeri 58
  • 59. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 59 Nota: Definamos para cada t 0 la variable aleatoria Xt = ”cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)” La colecci´on de variables aleatorias {Xt : t 0} se denomina porceso de Poisson de par´ametro λ. N´otese que para cada t 0 es Xt ∼ P(λt). Volveremos a los procesos de Poisson cuando presentemos las distribuciones exponencial y gama. Corolario 4 (Aproximaci´on de Poisson a la distribuci´on binomial) Sea λ ∈ R , λ 0. Para cada k ∈ N ∪ {0} se verifica: lim n →∞ n k λ n k 1 − λ n n−k = e− λ · λk k! Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos n grande, p peque˜no y np es moderado. Entonces la fmp de X es aproximadamente igual a la fmp de Y , siendo Y ∼ P(np). La recomendaci´on suele ser el uso de la aproximaci´on cuando: n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20 Mencionemos que las variables Poisson no ocurren ´unicamente contando ocurrencias de eventos en el tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribuci´on de Poisson: • La cantidad de errores de impresi´on en cierta/s p´agina/s de un libro. • La cantidad de bacterias en cierta regi´on de cierto cultivo. Ejemplo: Supongamos que la cantidad de errores tipogr´aficos por p´agina de apuntes te´orico-pr´acticos tipeados por Gast´on Argeri posee distribuci´on P(0.25) (i.e. en promedio Gast´on comete un error de tipeo cada cuatro p´aginas). Si se escoge al azar un apunte te´orico-pr´actico de Gast´on, calcular la probabilidad de que la primera p´agina presente al menos un error tipogr´afico. Rta: Si anotamos X a la cantidad de errores en la primera p´agina entonces: P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25 ≈ 0.221 Ejemplo: Supongamos que en promedio uno de cada diez art´ıculos producidos por cierta m´aquina resultan defectuosos. Se eligen al azar 20 art´ıculos producidos por la m´aquina. Hallar la probabilidad de que al menos 3 de ellos resulten defectuosos. Rta: Se trata de una sucesi´on de n = 20 ensayos de Bernoulli, donde ”´exito=se produce art´ıculo defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre 20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es: P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) = = 1 − 20 0 (0.9)20 − 20 1 (0.1)(0.9)19 − 20 2 (0.1)2(0.9)18 ≈ ≈ 1 − 0.1215767 − 0.2701703 − 0.2851798 ≈ 0.3231 Utilizando la aproximaci´on de Poisson con λ = np = 20(0.1) = 2 se obtiene: P (X ≥ 3) ≈ 1 − 2 k=0 e− 2 · 2k k! ≈ 1 − 0.1353353 − 0.2706706 − 0.2706706 ≈ 0.3233 En este caso la aproximaci´on ha resultado muy buena. Prof.J.Gast´on Argeri 59
  • 60. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 60 19.6 Distribuci´on binomial negativa Dados r ∈ N y p ∈ (0, 1), se dice que una variable aleatoria X posee distribuci´on binomial negativa con par´ametros r y p sii su fmp est´a dada por: pX(k) = k − 1 r − 1 pr (1 − p)k−r (k = r, r + 1, · · · ) En tal caso anotaremos X ∼ BN (r, p). Obse´ervese que RX = {r, r + 1, · · · }. Verifiquemos que efectivamente pX es una fmp: • pX(k) = k−1 r−1 pr(1 − p)k−r ≥ 0 (k = r, r + 1, · · · ) • ∞ k=r pX(k) = ∞ k=r k−1 r−1 pr(1 − p)k−r = pr ∞ k=r k−1 r−1 (1 − p)k−r Consideremos la funci´on g(q) = ∞ j=0 qj = 1 1−q Si la derivamos r − 1 veces obtenemos: ∞ j=1 jqj−1 = 1 (1−q)2 ∞ j=2 j(j − 1)qj−2 = 2 (1−q)3 · · · · · · ∞ j=r−1 j(j − 1) · · · (j − r + 2)qj−r+1 = (r−1)! (1−q)r Es decir (r − 1)! ∞ j=r−1 j r−1 qj−r+1 = (r−1)! (1−q)r Por lo tanto, tomando q = 1 − p se tiene: pr ∞ k=r k − 1 r − 1 (1 − p)k−r = pr ∞ j=r−1 j r − 1 (1 − p)j−r+1 = pr pr = 1 La distribuci´n binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob- abilidad de ´exito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la distribuci´on de la cantidad de ´exitos en los n ensayos. En cambio, la BN (r, p) es la distribuci´on de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-´esimo ´exito (es decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que el r-´esimo ´exito ocurre en el k-´esimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe haber exactamente r − 1 ´exitos y k − r fracasos. Entonces para calcular la probabilidad del evento {X = k} utilizamos asignaci´on de probabilidad por ensayos independientes: Hay k−1 r−1 maneras de ubicar los r − 1 ´exitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan autom´aticamente determinados). Cada ordenamiento de r ´exitos y k−r fracasos tiene probabilidad pr(1 − p)k−r. Luego P (X = k) = k−1 r−1 pr(1 − p)k−r Es decir X ∼ BN (r, p). Nota: Comandos ´utiles eb SPlus son dnbinom , pnbinom Presentamos algunos ejemplos de fmp binomiales negativas: Obs´ervese que la fmp de una v.a. BN (r, p) alcanza su m´aximo en el punto k∗ = r+p−1 p . Cuando r+p−1 p no es entero, el m´aximo se alcanza ´unicamente (unimodal) en k = k∗. En cambio, cuando r+p−1 p es entero, el m´aximo se alcanza en k = k∗ y en k = k∗ − 1 (bimodal). Prof.J.Gast´on Argeri 60
  • 61. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 61 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de BN( 3 , 0.25 ) k P(X=k) 0.00.020.040.060.08 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de BN( 3 , 0.45 ) k P(X=k) 0.00.050.100.15 3 4 5 6 7 8 9 10 11 12 13 14 15 fmp de BN( 3 , 0.7 ) k P(X=k) 0.00.10.20.3 20 Distribuciones continuas 20.1 Distribuci´on uniforme Sean a, b ∈ R con a b. Se dice que una variable aleatoria X posee distribuci´on uniforme en el intervalo [a, b] sii X posee fdp fX dada por fX(x) = 1 b−a si a ≤ x b 0 si x a ∨ x ≥ b Anotamos X ∼ U(a, b) para indicar que X posee distribuci´on uniforme en [a, b]. Verifiquemos que fX es realmente un fdp: • ∀x ∈ R , fX(x) ≥ 0 • ∞ − ∞ fX(x) dx = b a 1 b−a dx = 1 b−a b a dx = b−a b−a = 1 Obtengamos la fda. FX(x) = x − ∞ fX(t) dt. Debemos distinguir tres casos, seg´un el valor de x: • Si x a: FX(x) = 0 • Si a ≤ x b: FX(x) = x a 1 b−a dt = x−a b−a • Si x ≥ b: FX(x) = b a 1 b−a dt = 1 Es decir: FX(x) =    0 si x a x−a b−a si a ≤ x b 1 si x ≥ b Las gr´aficas de la fdp y la fda tienen el siguiente aspecto: 20.2 Distribuci´on gaussiana Sean µ, σ ∈ R , σ 0. Se dice que una variable aleatoria X posee distribuci´on gaussiana (tambi´en llamada distribuci´on normal) de par´ametros µ, σ sii X posee fdp dada por fX(x) = 1 √ 2π σ · e− 1 2 (x−µ)2/σ2 ; x ∈ R Prof.J.Gast´on Argeri 61
  • 62. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 62 fdp de U(a,b) x y 0 1 2 0.00.20.40.60.8 1 / ( b - a ) fda de U(a,b) x y 0 1 2 0.00.20.40.60.81.01.2 a b Para indicar que X posee distribuci´on gaussiana de par´ametros µ, σ anotamos X ∼ N (µ, σ). En particular, cuando µ = 0 y σ = 1 se habla de la distribuci´on gaussiana (o normal) standard. Su fdp suele anotarse con la letra ϕ. As´ı, la fdp gaussiana standard est´a dada por ϕ(x) = 1 √ 2π · e− 1 2 x2 ; x ∈ R Mediante c´alculo es posible estudiar las caracter´ısticas de la gr´afica de ϕ. Resulta sim´etrica respecto del eje de ordenadas (funci´on par), con m´aximo en el origen. Adem´as tiene la conocida forma de ”campana de Gauss”. Volviendo al caso general, obs´ervese que: fX(x) = 1 √ 2π σ ϕ x − µ σ Es decir que fX se puede obtener a partir de ϕ mediante una traslaci´on paralela al eje de abscisas y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas: La fda asociada viene dada por: FX(x) = x − ∞ 1 √ 2π σ e−1 2 (t−µ)2/σ2 dt La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por: Φ(x) = x − ∞ 1 √ 2π e−1 2 x2 dt Dado que esta funci´on no es elemental (no puede expresarse elementalmente la integral indefinida correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar alg´un software o f´ormula que aproxime sus valores. En el caso general, observemos que: FX(x) = Φ x − µ σ si X ∼ N (µ, σ) Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm) o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”. Prof.J.Gast´on Argeri 62
  • 63. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 63 misma sigma, distintas mu x y -2 0 2 4 6 8 10 12 0.00.10.20.30.40.5 N(4,1.5) N(2,1.5) N(7,1.5) misma mu, distintas sigma x y -2 0 2 4 6 8 10 12 0.00.10.20.30.40.5 N(4,1.5) N(4,3) N(4,0.75) Familia de densidades gaussianas 20.3 Distribuci´on exponencial Dado λ ∈ R , λ 0, se dice que una variable aleatoria X posee distribuci´on exponencial con par´ametro λ sii su fdp vien dada por: fX(x) = λe− λx (x 0) En tal caso anotaremos X ∼ E(λ). El par´ametro λ suele denominarse par´ametro de intensidad. Verifiquemos que fX es efectivamente una fdp: • Para todo x ∈ R, fX(x) = λe− λx ≥ 0 • Efectuando el cambio de variables t = λx se obtiene: ∞ 0 λe− λx dx = ∞ 0 e−t dt = − lim c →∞ e−t c 0 = − lim c →∞ (e− c − 1) = 1 Hallemos al fda de X: • Si x ≤ 0 entonces FX(x) = x − ∞ fX(t) dt = 0 pues fX(t) = 0 si t ≤ 0 • Si x 0 se tiene: FX(x) = x − ∞ fX(t) dt = x 0 λe− λt dt = − e− λt x 0 = 1 − e− λx Por lo tanto la fda viene dada por: FX(x) = 0 si x ≤ 0 1 − e− λt si x 0 Prof.J.Gast´on Argeri 63
  • 64. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 64 fdp x y 0 2 4 6 8 10 12 14 0.00.10.20.30.40.50.6 lambda=0.2 lambda=0.4 lambda=0.6 fda x y 0 2 4 6 8 10 12 14 0.00.20.40.60.81.0 lambda=0.2 lambda=0.4 lambda=0.6 Familia de densidades exponenciales Para observar las caracter´ısticas m´as importantes de la distribuci´on exponencial, grafiquemos algunos ejemplos de fdp y fda en el caso exponencial: Propiedad 41 (”Ausencia de memoria”) Supongamos que X ∼ E(λ). Sean s, t ∈ R , s t ≥ 0. Se verifica: P (X s | X t) = P (X s − t) Dem: P (X s|X t) = P (Xs , Xt ) P (Xt) = P (Xs) P (Xt) = 1−FX (s) 1−FX (t) = e− λs e− λt = e− λ(s−t) = P (X s − t) Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {Xt : t 0} de par´ametro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria: T1 = ”tiempo hasta la primera ocurrencia del evento” Hallemos la fda de T1. Para ello calculemos: P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) = = P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · (λt)0 0! = e− λt Por lo tanto FT1 (t) = 1 − e− λt si t 0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la variable aleatoria T1 tiene distribuci´on exponencial de par´ametro λ. Nota: Comandos de SPlus dexp , pexp , qexp 20.4 Distribuci´on gamma Se denomina funci´on gama a la funci´on Γ : (0, ∞) → R definida por: Γ(x) = ∞ 0 tx−1 e−t dt (5) Para ver que esta funci´on est´a correctamente definida es necesario demostrar que la integral impropia en (5) es convergente. Obs´ervese que el integrando es positivo y que cuando x ≥ 1 la integral es impropia en el infinito, en tanto que si 0 x 1 la integral es impropia tanto en el infinito como en el origen. Prof.J.Gast´on Argeri 64
  • 65. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 65 Lema 2 Para cada u ∈ R , u ≥ 0 y para cada n ∈ N se verifica eu ≥ 1 + u + u2 2! + u3 3! + · · · + un n! (6) Dem: Por inducci´on sobre n Paso base: Dado que ∀u ≥ 0 , eu ≥ 0, la monoton´ıa de la integral definida garantiza que u 0 eu du ≥ 0. Luego: eu − 1 ≥ 0. Por lo tanto eu ≥ 1 Hip´otesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera. En base a la HI queremos probar que: eu ≥ 1 + u + u2 2! + u3 3! + · · · + un+1 (n + 1)! (u ≥ 0) Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monoton´ıa de la integral, se deduce que eu − 1 ≥ u + u2 2! + u3 3! + · · · + un+1 (n + 1)! que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono n natural Corolario 5 Para cada u ≥ 0 y cada n natural (o cero) se verifica la siguiente desigualdad eu ≥ un n! Dem: Siendo u ≥ 0, todos los t´erminos en el mienbro de la derecha de la desigualdad (6) son no negativos. Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual que el ´ultimo t´ermino. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema Propiedad 42 Para cada x ∈ R , x 0, la integral en (5) es convergente. Dem: Consideramos dos casos por separado. • Caso x ≥ 1 En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1 1. Entonces para t 0 se verifica tx−1 e−t = tx−1 et ≤ tx−1n! tn = n! tn−x+1 Como la integral impropia ∞ 1 n! tn−x+1 dt es convergente, por criterio de comparaci´on resulta ∞ 1 tx−1e−t dt tambi´en convergente. Puesto que 1 0 tx−1e−t dt es propia (finita), se deduce que ∞ 0 tx−1e−t dt es convergente. • Caso 0 x 1 Prof.J.Gast´on Argeri 65
  • 66. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 66 – Para t ≥ 1 resulta t1−x = e(1−x) ln t ≥ 1 dado que (1 − x) ln t 0. Entonces: tx−1 e−t = 1 t1−xet ≤ 1 et = e−t Pero como ∞ 1 e−t dt es convergente, por criterio de comparaci´on resulta ∞ 1 tx−1e−t dt convergente. – Para 0 t 1 resulta e−t ≤ 1. Luego tx−1e−t ≤ tx−1 = 1 t1−x . Puesto que 1 0 1 t1−x dt es convergente por ser 0 x 1, el criterio de comparaci´on asegura que 1 0 tx−1e−t dt es convergente Propiedad 43 La funci´on gama verifica: i) ∀x ∈ R, x 0, Γ(x + 1) = xΓ(x) ii) ∀n ∈ N , Γ(n) = (n − 1)! Dem: i) Integrando por partes con u = e−t, dv = tx−1 se tiene du = − e−t, v = tx/x tx−1 e−t dt = txe−t x + 1 x tx e−t dt = 1 x tx e−t + t(x+1)−1 e−t dt Entonces: h 1 tx−1e−t dt = 1 x txe−t h 1 + h 1 t(x+1)−1e−t dt = = 1 x hxe−h − e−1 + h 1 t(x+1)−1e−t dt Tomando l´ımite para h → ∞ se obtiene: ∞ 1 tx−1 e−t dt = 1 x −e−1 + ∞ 1 t(x+1)−1 e−t dt (7) An´alogamente: 1 h tx−1e−t dt = 1 x txe−t 1 h + 1 h t(x+1)−1e−t dt = = 1 x e−1 − hxe−h + 1 h t(x+1)−1e−t dt Tomando l´ımite para h → 0+ se obtiene: 1 0 tx−1 e−t dt = 1 x e−1 + 1 0 t(x+1)−1 e−t dt (8) Juntando los resultados (7) y (8) se tiene Γ(x) = 1 x Γ(x + 1) como se quer´ıa demostrar. ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. M´as formalmente, utilicemos inducci´on completa: • Paso base: Γ(1) = ∞ 0 e−t dt = 1 0 e−t dt + ∞ 1 e−t dt = lim h → 0+ e−h + lim k →∞ e−k = 1 = 0! • Hip´otesis inductiva (HI): Suponemos Γ(n) = (n − 1)! Prof.J.Gast´on Argeri 66
  • 67. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 67 • En base a la HI queremos demostrar que Γ(n + 1) = n!. Para ello: Γ(n + 1) = nΓ(n) = n(n − 1)! = n! Por lo tanto Γ(n) = (n − 1)! es verdadera para todo n ∈ N Dados α, λ ∈ R , α, λ 0 se dice que una variable aleatoria X posee distribuci´on gama de par´ametros α, λ sii posee fdp dada por fX(x) = λα Γ(α) xα−1 e− λx (x 0) En tal caso anotaremos X ∼ Γ(α, λ). El par´ametro α suele llamarse par´ametro de forma (”shape”) y el par´ametro λ se suele denominar par´ametro de intensidad (”rate”). Verifiquemos que fX es efectivamente una fdp: • Para todo x ∈ R es fX(x) = λα Γ(α) xα−1e− λx ≥ 0 • Debemos verificar que la integral de fX sobre R es 1. Si en la integral se realiza el cambio de variables t = λx se tendr´a: ∞ 0 λα Γ(α) xα−1 e− λx dx = 1 Γ(α) ∞ 0 tα−1 e−t dt = Γ(α) Γ(α) = 1 Grafiquemos algunos ejemplos de densidades gama: alfa= 0.5 x y 0.0 0.02 0.04 0.06 0.08 0.10 02468101214 lambda=0.2 lambda=0.4 lambda=0.6 alfa= 1 x y 0 2 4 6 0.00.10.20.30.40.50.6 lambda=0.2 lambda=0.4 lambda=0.6 alfa= 1.5 x y 0 5 10 15 0.00.050.100.150.200.250.30 lambda=0.2 lambda=0.4 lambda=0.6 Familia de densidades gama Examinando los distintos gr´aficos se dar´a cuenta porque α y λ se dicen par´ametros de ”forma” e ”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero para x → ∞), respectivamente. Observemos que la distribuci´on Γ(1, λ) es precisamente la distribuci´on exponencial de par´ametro λ. En efecto, sea X ∼ Γ(1, λ): fX(x) = λ1 Γ(1) x1−1 e− λx = λe− λx Nota: Comandos de SPlus dgamma , pgamma , qgamma Vamos a vincular las distribuciones gamma y Poisson. Prof.J.Gast´on Argeri 67
  • 68. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 68 Propiedad 44 Sean n ∈ N, x 0. Sea X ∼ Γ(n, λ). Si Y ∼ P(λx) entonces se cumple: FX(x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1) Dem: Mediante integraci´on por partes, con u = tn−1 y dv = e− λtdt, se tiene: tn−1 e− λt dt = −λ−1 tn−1 e− λt + (n − 1) tn−2 e− λt dt Aplicando la regla de Barrow entre t = 0 y t = x y anotando In(x) = x 0 tn−1e− λt dt resulta: λIn(x) = (n − 1)In−1(x) − xn−1 e− λx (9) Queremos demostrar (lo haremos por inducci´on sobre n): ∀n ∈ N , ∀x 0 , x 0 λn (n − 1)! tn−1 e− λt dt = 1 − n−1 k=0 (λx)k k! e− λx En otro t´erminos, queremos probar que: λn (n − 1)! In(x) = 1 − n−1 k=0 (λx)k k! e− λx (10) Entonces: • Paso base: I1(x) = x 0 λe− λt dt = 1− e− λt x 0 = 1−e− λx Esto es precisamente (10) cuando n = 1 • Hip´otesis inductiva (HI): Supongamos (10) es verdadera. • Utilizando (9) junto con (HI) se tiene: λn+1 n! In+1(x) = λn n! nIn(x) − xne− λx = λn (n−1)! In(x) − (λx)n n! e− λx = = 1 − n−1 k=0 (λx)k k! e− λx − (λx)n n! e− λx = 1 − n k=0 (λx)k k! e− λx 20.5 Distribuci´on chi cuadrado Esta distribuci´on es un caso particular de la distribuci´on gama. Si en la familia de distribuciones gama se considera α = n/2, siendo n natural, y se toma λ = 1/2 se obtiene la llamada distribuci´on chi cuadrado con n grados de libertad (g.l.). Es decir: Dado n ∈ N, se dice que una variable aleatoria X posee distribuci´on chi cuadrado con n grados de libertad sii posee fdp dada por: fX(x) = 1 2n/2Γ(n/2) x(n/2)−1 e− x/2 (x 0) En tal caso anotamos X ∼ χ2(n). La distribuci´on chi cuadrado con g.l.=2 tambi´ense denomina distribuci´on de Raleygh y la chi cuadrado con g.l.=3 tambi´en se llama distribuci´on de Maxwell- Boltzman (Estos t´erminos son m´as frecuentes en mec´anica estad´ıstica). Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados: Nota: En SPlus los comandos ´utiles son dchisq , pchisq , qchisq. Prof.J.Gast´on Argeri 68
  • 69. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 69 x y 0.0 0.5 1.0 1.5 2.0 0.00.51.01.5 g.l=1 g.l=2 x y 0 5 10 15 0.00.050.100.150.200.25 g.l=3 g.l=4 g.l=8 Familia de densidades chi cuadrado 20.6 Distribuci´on beta Se denomina funci´on beta la fuenci´on B : (0, ∞) × (0, ∞) → R dada por B(α, β) = 1 0 xα−1 (1 − x)β−1 dx Obs´ervese que seg´un los valores de α, β la integral que define a la funci´on beta puede ser impropia en el origen (cuando 0 α 1) y/o en x = 1 (cuando 0 β 1), o directamente ser propia. Una aplicaci´on trivial del creiterio de comparaci´on muestra que la integral impropia es convergente para cualesquiera α, β 0. Mencionemos dos propiedades ´utiles de la funci´on beta. Propiedad 45 Para cualesquiera α, β ∈ R, α 0, β 0 se verifican: i) B(α, β) = Γ(α)Γ(β) Γ(α+β) ii) B(β, α) = B(α, β) Dados α, β ∈ R , α 0, β 0 se dice que una variable aleatoria X posee distribuci´on beta con par´amteros α, β si posee fdp dada por: fX(x) = 1 B(α, β) xα−1 (1 − x)β−1 (0 x 1) En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp: • Para x ∈ (0, 1) , 1 B(α,β) xα−1(1 − x)β−1 ≥ 0 • 1 0 1 B(α,β) xα−1(1 − x)β−1 dx = 1 B(α,β) B(α, β) = 1 Grafiquemos algunos ejemplos de fdp para distribuciones beta: Prof.J.Gast´on Argeri 69
  • 70. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 70 alfa= 0.5 x y 0.0 0.2 0.4 0.6 0.8 1.0 01234 beta= 0.4 beta= 1 beta= 1.5 alfa= 0.7 x y 0.0 0.2 0.4 0.6 0.8 1.0 012345 beta= 0.4 beta= 1 beta= 1.5 alfa= 1 x y 0.0 0.2 0.4 0.6 0.8 1.0 0123456 beta= 0.4 beta= 1 beta= 1.5 alfa= 1.3 x y 0.0 0.2 0.4 0.6 0.8 1.0 0246 beta= 0.4 beta= 1 beta= 1.5 Familia de densidades beta Cuando α = β la distribuci´on beta es sim´etrica respecto de x = 0.5 Un caso particular (evidente) de la distribuci´on beta es la U(0, 1). Esto tambi´en se aprecia en el gr´afico correspondiente a los valores α = 1 , β = 1 20.7 Distribuci´on de Cauchy Dados λ ∈ R, θ ∈ R, θ 0, se dice que una variable aleatoria tiene distribuci´on de Cauchy con par´ametros λ, θ sii posee fdp dada por: fX(x) = θ π 1 θ2 + (x − λ)2 (x ∈ R) En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el par´ametro de posici´on y θ el par´ametro de escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho m´as pesadas, como veremos posteriormente. Esta familia de distribuciones es importante en estudios te´oricos y de simulaci´on. En la gr´afica se observan fdp Cauchy para distintos valores de los par´ametros: Nota: En SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy. Prof.J.Gast´on Argeri 70
  • 71. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 71 misma theta, distintas lambda x y -2 0 2 4 6 8 10 120.00.050.100.150.20 C(4,1.5) C(2,1.5) C(7,1.5) misma lambda, distintas theta x y 0 2 4 6 8 0.00.10.20.30.4 C(4,0.75) C(4,1.5) C(4,2.25) Familia de densidades Cauchy 20.8 Distribuci´on lognormal Sean µ, σ ∈ R , σ 0. Se dice que una variable aleatoria X tiene distribuci´on lognormal con par´ametros µ, σ sii ln X posee distribuci´on N (µ, σ2). Para hallar la fdp de X, llamemos Y = ln X de manera que Y ∼ N (µ, σ2), y procedamos como sigue: FX(x) = P (X ≤ x) = P (eY ≤ x) = P (Y ≤ ln x) = FY (ln x) Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos: fX(x) = fY (ln x) · 1 x = 1 √ 2π σx e− 1 2 (ln x−µ)2/σ2 Las caracter´ısticas salientes de la gr´afica de una fdp lognormal puede estudiarse anal´ıticamente. Pre- sentamos algunos ejemplos: Nota: Los comandos ´utiles en SPlus son dlnorm , plnorm , qlnorm. misma mu,distintas sigma x y 0 1 2 3 4 5 6 0.00.10.20.3 logN(1,0.25) logN(1,1) logN(1,2.25) misma sigma,distintas mu x y 0 1 2 3 4 5 6 0.00.100.200.30 logN(0.7,1) logN(1,1) logN(1.3,1) Familia de densidades lognormales Prof.J.Gast´on Argeri 71
  • 72. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 72 20.9 Distribuci´on t doble exponencial o de Laplace Dados µ, λ ∈ R , σ 0, se dice que una variable aleatoria tiene distribuci´on doble exponencial con par´ametros µ, λ sii posee fdp dada por: fX(x) = 1 2λ e− λ|x−µ| (x ∈ R) En tal caso anotamos X ∼ DE(µ, λ). Obs´ervese que, para µ = 0, esta fdp se obtiene al dividir por dos la fdp exponencial de par´ametro λ y simetrizando por paridad con respecto al eje de ordenadas (Cada mitad encierra ´area 0.5 por debajo, de modo que el ´area total por debajo es la unidad). Tambi´en notemos que ambas mitades se han ”pegado” de manera no suave en el origen, resultando una fdp no diferenciable all´ı. En la gr´afica se observa este hecho como un ”pico” en forma angulosa (en el origen duando µ = 0 y en x = µ en general). La doble exponencial resulta interesante puesto que posee colas m´as pesadas que la distribuci´on normal. Entre otras razones resulta ´util cuando se estudia la eficiencia asint´otica de ciertos estimadores, como veremos posteriormente. misma lambda, distintas mu x y -2 0 2 4 6 8 10 0.00.20.40.6 DE(3,0.6) DE(2,0.6) DE(5,0.6) misma mu, distintas lambda x y -2 0 2 4 6 8 10 0.00.20.40.60.8 DE(3,0.3) DE(3,0.6) DE(3,0.9) Familia de densidades doble exponencial Nota: La distribuci´on doble exponencial no est´a disponible mediante comandos de SPlus, dada su sencilla vinculaci´on con la distribuci´on exponencial. 20.10 Distribuci´on t de Student Dado n ∈ N, se dice que una variable aleatoria tiene distribuci´on t de Student con n grados de libertad (g.l) sii posee fdp dada por: fX(x) = Γ n+1 2 Γ n 2 √ nπ 1 + x2 n − (n+1)/2 (x ∈ R) En tal caso anotaremos X ∼ t(n). Esta distribuci´on es de aspecto acampanado, semejante a primera vista a la N (0, 1), pero es de colas m´as pesadas que ´esta y cobrar´a importancia a medida que avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante: La distribuci´on C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student: Se observa que a medida que aumentan los grados de libertad, la distribuci´on t de Student se aproxima cada vez m´as a la N (0, 1). Nota: Los comandos ´utiles en SPlus son dt , pt , qt. Prof.J.Gast´on Argeri 72
  • 73. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 73 Familia de densidades t de Student x y -4 -2 0 2 4 0.00.10.20.30.4 t(2) t(5) t(12) N(0,1) 20.11 Distribuci´on F de Fisher Dados m, n ∈ N, se dice que una variable aleatoria X tiene distribuci´on Fisher con m, n grados de libertad (g.l) sii posee fdp expresada por: fX(x) = Γ m+n 2 Γ m 2 Γ n 2 x(m/2)−1 m n m/2 1 + mx n − (m+n)/2 (x 0) En tal caso se anota X ∼ F (m, n). Esta distribuci´on cobrar´a importancia cuando estudiemos prob- lemas de inferencia m´as adelante. Nota: Los comandos de SPlus que utilizaremos son df , pf , qf. Familia de densidades F de Fisher x y 0 1 2 3 4 5 6 0.00.20.40.6 F(3,4) F(5,4) F(12,4) Familia de densidades F de Fisher x y 0 1 2 3 4 5 6 0.00.20.40.6 F(4,3) F(4,5) F(4,12) Prof.J.Gast´on Argeri 73
  • 74. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 74 20.12 Distribuci´on Weibull Dados α, β ∈ R , α 0, β 0, se dice que una variable aleatoria X tiene distribuci´on Weibull de par´ametros α, β si posee fdp dada por: fX(x) = 1 βα xα−1 e− (x/β)α (x 0) En tal caso anotamos X ∼ W(α, β). La distribuci´on Weibull es importante en el estudio de tiempos de sobrevida. El aspecto de la gr´afica de una fdp Weibull puede observarse en las siguientes figuras: x y 0 1 2 3 4 0.00.51.01.5 W(0.5,1) W(1,1) W(1.5,1) x y 0 1 2 3 4 0.00.51.01.5 W(1,0.5) W(1,1) W(1,1.5) Familia de densidades Weibull Nota: Como caso particular, observemos que tomando α = 1 y λ = β−1 se obtiene la distribuci´on exponencial de par´ametro λ. 20.13 Distribuci´on log´ıstica Dados θ, λ ∈ R , θ 0, se dice que una variable aleatoria X tiene distribuci´on log´ıstica de par´ametros λ, θ si posee fdp dada por: fX(x) = 1 θ e− (x−λ)/θ 1 + e− (x−λ)/θ 2 En tal caso anotamos X ∼ L(λ, θ). Las gr´aficas de las fdp log´ısticas asemejan a la gaussiana, pero con colas m´as pesadas. Presentemos algunas figuras comparativas: Prof.J.Gast´on Argeri 74
  • 75. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 75 misma theta, distintas lambda x y -4 -2 0 2 4 6 8 0.00.10.20.30.4 L(2,1) L(3,1) L(5,1) N(0,1) misma lambda, distintas theta x y -4 -2 0 2 4 6 8 0.00.10.20.30.40.5 L(0,0.5) L(0,1) L(0,1.5) N(0,1) Familia de densidades logisticas Prof.J.Gast´on Argeri 75
  • 76. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 76 Funciones de variables aleatorias 21 Transformaciones de variables aleatorias 21.1 Distribuci´on de una funci´on de una variable aleatoria Supongamos que un experimento aleatorio est´a dise˜nado para estudiar el ´area de la secci´on transver- sal de una poblaci´on de tubos cil´ındricos (circulares). Posiblemente cuando se estudia una muestra aleatoria de tubos se mida el radio de su secci´on transversal, en lugar del ´area de dicha secci´on. Del mismo modo, podr´ıamos conocer la distribuci´on poblacional del radio de un tubo y estar interesados en investigar la distribuci´on poblacional del ´area de la secci´on transversal del mismo. Si anotamos X a la variable aleatoria ”radio del tubo” e Y a la variable aleatoria ”´area de la secci´on transver- sal del tubo”, existe una relaci´on funcional determin´ıstica entre ambas variables aleatorias, a saber: Y = πX2. Dado que la distribuci´on de X queda determinada por FX, es de esperar que ´esta tambi´en determine la distribuci´on FY . Definici´on 25 Sean Σ una σ-´algebra de subconjuntos de Ω, X una variable aleatoria sobre (Ω, Σ) con rango RX y D g → R una funci´on con RX ⊆ D. Definimos Ω g(X) → R como la funci´on compuesta g(X) = g ◦ X. Es decir, para cada ω ∈ Ω se define (g(X)) (ω) def = (g ◦ X) (ω) = g (X(ω)) Recordemos que B designa la σ-´algebra de Borel en R, es decir la m´ınima σ-´algebra de subconjuntos de R que contiene a todos los abiertos. Nos preguntamos qu´e caracter´ıstica debe tener la funci´on g en la def. anterior de modo que g(X) sea una variable aleatoria sobre (Ω, Σ). Para responder a esta pregunta necesitamos una definici´on previa. Definici´on 26 Diremos que una funci´on D g → R, con D ⊆ R, es boreliana sii se verifica: ∀B ∈ B , g−1 (B) ∈ B Las funciones continuas son s´olo un ejemplo de la ampl´ısima variedad de funciones borelianas. Propiedad 46 Sean X , g como en la primera definici´on. Anotemos Y = g(X). Si g es una funci´on boreliana entonces Y es una variable aleatoria sobre (Ω, Σ). Dem: Sea B ∈ B. Para ver que Y es variable aleatoria sobre (Ω, Σ) debemos verificar que Y −1(B) ∈ Σ. Pero: {Y ∈ B} = Y −1(B) = {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g (X(ω)) ∈ B} = = ω ∈ Ω : X(ω) ∈ g−1(B) = ω ∈ Ω : ω ∈ X−1 g−1(B) = X ∈ g−1(B) Siendo g boreliana y B ∈ B se cumple g−1(B) ∈ B. Pero puesto que X es variable aleatoria sobre (Ω, Σ) resulta X−1 g−1(B) ∈ Σ. Esto demuestra que Y −1(B) ∈ Σ, como dese´abamos ver Investiguemos la relaci´on entre la fda de X y la fda de Y = g(X) (suponi´endola v.a.). Notemos ante todo que RY = g (RX) = {g(x) : x ∈ RX}. Fijado y ∈ R hemos visto que {Y ≤ y} = X ∈ g−1 ((− ∞, y]) Prof.J.Gast´on Argeri 76
  • 77. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 77 Por lo tanto: FY (y) = P X ∈ g−1 ((− ∞, y]) As´ı, cuando X es v.a.discreta, digamos con RX = {xn}, resulta tambi´en Y discreta con RY = {g(xn)} (Notar que como g no necesita ser 1-1, los valores g(xn) pueden estar repetidos). Si anotamos RY = {yn} se tiene: FY (y) = ∞ n=1 yn≤y pY (yn) = ∞ n=1 yn≤y P (Y = yn) = ∞ n=1 yn≤y P X ∈ g−1 ({yn}) = = ∞ n=1 g(xn)≤y pX(xn) An´alogamente: pY (yn) = P (Y = yn) = P X ∈ g−1(yn) = ∞ n=1 g(xn)=yn P (X = xn) = = ∞ n=1 g(xn)=yn pX(xn) En cambio, si X es v.a. continua con fdp fX, resulta: FY (y) = P X ∈ g−1 ((− ∞, y]) = g−1 ((− ∞,y]) fX(x) dx En este caso no queda claro si Y posee fdp. Esta situaci´on se analizar´a m´as adelante. Por ahora nos dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver. Nota: Cuando X discreta, la funci´on g no necesita ser boreliana puesto que en este caso es Σ = P(Ω). Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e id´enticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X. Ac´a g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX. Para k ∈ RY se tiene: pY (k) = P (Y = k) = P (n − X = k) = = P (X = n − k) = pX(n − k) = n n−k pn−k(1 − p)k = n k (1 − p)kpn−k Esto muestra (aunque es obvio) que Y ≈ Bi(n, 1 − p). Ejemplo: Sea X ≈ E(λ). Determinemos la distribuci´on de Y = 1 X . Evidentemente RY = (0, ∞). Se tiene para y 0: FY (y) = P (Y ≤ y) = P 1 X ≤ y = P X ≥ 1 y = = ∞ 1/y λe− λx dx = − e− λx ∞ 1/y = e− λ/y Por lo tanto: fY (y) = FY (y) = λe− λ/y y2 (para Y 0) Prof.J.Gast´on Argeri 77
  • 78. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 78 Ejemplo: Sea X ≈ N (0, 1). Definamos Y = X2. Hallemos la fda de Y . Naturalmente RY = (0, ∞). Fijado y 0 se tiene: FY (y) = P (Y ≤ y) = P (X2 ≤ y) = P (|X| ≤ (y)) = P (− √ y ≤ X ≤ √ y) = = √ y − √ y 1√ 2π · e− x2/2 dx = Φ( √ y) − Φ(− √ y) = 2Φ( √ y) − 1 Luego: fY (y) = FY (y) = 2Φ( √ y) − 1 = 2ϕ( √ y) 2 √ y = ϕ( √ y) √ y = = 1√ 2π · y− 1/2e−y/2 (para y 0) Habr´an reconocido que ´esta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es decir: X ≈ N (0, 1) ⇒ X2 ≈ χ2 (1) Hay dos casos donde la relaci´on entre FX y FY es muy sencilla: Cuando la funci´on g es estrictamente mon´otona sabemos que existe la funci´on inversa g(D) g−1 → D la cual verifica: • ∀x ∈ D , g−1 (g(x)) = x • ∀y ∈ g(D) , g g−1(y) = y Consideremos por separado los casos g creciente y g decreciente: • Cuando g es creciente tambi´en g−1 lo es. En efecto: Si y, u ∈ g(D) , y u entonces no puede ser g−1(y) ≥ g−1(u) porque en tal caso, sabiendo que g crece resultar´ıa la con- tradicci´on y = g(g−1(y)) ≥ g(g−1(u)) = u. Luego, necesariamente es g−1(y) g−1(u). Por lo tanto podemos reescribir: X ∈ g−1 ((− ∞, y]) ⇔ g(X) ∈ (− ∞, y] ⇔ g(X) ≤ y ⇔ g−1 (g(X)) ≤ g−1(y) ⇔ X ≤ g−1(y) Entonces se obtiene: FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g−1 (y)) = FX(g−1 (y)) Dicho de otro modo: FY = FX ◦ g−1 • Cuando g es decreciente tambi´en g−1 lo es (sencillo de demostrar) y en tales casos la relaci´on entre FX y FY viene dada por: FY (y) = 1 − lim t g−1 (y) FX(t). Si adem´as FX es continua en el punto x = g−1(y) esto se simplifica a´un m´as: FY (y) = 1 − FX(g−1(y)) Teorema 8 Sea X ∼ N (µ, σ2) y sean a, b ∈ R , a = 0. Entonces: Y = aX + b ∼ N (aµ + b, a2 σ2 ) Prof.J.Gast´on Argeri 78
  • 79. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 79 Dem: Consideremos primeramente el caso a 0. Se tiene: FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤ y − b) = P X ≤ y−b a = FX y−b a . Esto mismo se pod´ıa obtener a partir de g(x) = ax + b hallando la inversa: g−1(y) = (y − b)/a. Entonces seg´un las observaciones anteriores es FY (y) = FX(g−1(y)) = FX y−b a . Luego, derivando respecto de y se obtiene: fY (y) = 1 a FX y−b a = 1 a 1√ 2π σ e − 1/2 y−b a −µ σ 2 = 1√ 2π aσ e − 1/2 y−(aµ+b) aσ 2 Pero esta es precisamente la fdp N (aµ + b, a2σ2) Ahora consideremos el caso a 0. Se tiene: FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤ y − b) = P X ≥ y−b a = 1 − FX y−b a . Por lo tanto, derivando respecto de y se tiene: fY (y) = −1 a FX y−b a = 1 |a| 1√ 2π σ e − 1/2 y−b a −µ σ 2 = 1√ 2π |a|σ e − 1/2 y−(aµ+b) |a|σ 2 Reconocemos aqu´ı nuevamente la fdp N (aµ + b, (|a| σ)2 ) es decir N (aµ + b, a2σ2) Corolario 6 X ∼ N (µ, σ2 ) ⇔ X − µ σ ∼ N (0, 1) Nota: A partir de una variable aleatoria X ∼ N (µ, σ2), el proceso de restarle mu y dividir el resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ σ , se denomina standarizar X. O sea, Z es la standarizaci´on de X. Ejemplo: Si X ∼ N (2, 9) calcular: a) P (1 X 5) Rta: P (1 X 5) = P 1−2 3 X−2 3 5−2 3 = P (− 1/3 Z 1) = Φ(1) − Φ(− 1/3) ≈ 0.841 − 0.369 = 0.472 b) P (|X − 3| 6) Rta: P (|X − 3| 6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) = = 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P −3−2 3 ≤ X−2 3 ≤ 9−2 3 = = 1 − P (−5/3 ≤ Z ≤ 7/3) = 1 − [Φ(7/3) − Φ(−5/3)] ≈ ≈ 1 − 0.990 + 0.048 = 0.058 Teorema 9 (Teorema de cambio de variables) Sea [c, d] g → R diferenciable con continuidad en [c, d] (es decir g existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica: g(d) g(c) f(x) dx = d c f (g(t)) g (t) dt Prof.J.Gast´on Argeri 79
  • 80. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 80 Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo de extremos g(c) y g(d). Dem: Por hip´otesis las funciones [c, d] g ,f◦g −→ R son continuas. Definamos [c, d] G → R y g ([c, d]) F → R por G(t) = t c f (g(s)) g (s) ds ; F (x) = x g(c) f(w) dw Por el teorema fundamental del c´alculo se tiene: G (t) = f (g(t)) g (t) para todo t ∈ [c, d] F (x) = f(x) para todo x ∈ g ([c, d]) Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g en [c, d]. Por lo tanto existe alguna constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado Corolario 7 Sea X una v.a. continua con fdp fX. Anotemos SX al soporte de fX y supongamos que es un intervalo. Sea g una funci´on continua y estrictamente mon´otona en §X. Definamos SY def = g(SX). Supongamos que g−1 es diferenciable con continuidad en SY Entonces la variable aleatoria Y = g(X) es continua y su fdp viene dada por: fY (y) =    fX(g−1(y)) · d dy g−1(y) si y ∈ RY 0 si y ∈ RY Dem: Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua re- sulta que g(RX) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y de SY respectivamente. Entonces: FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (g(X) ≤ y, X ∈ RX) = P (X ≥ g−1(y)) = = ∞ g−1 (y) fX(x)IX(x) dx = − ∞ y fX g−1(y) g−1 (y)IY (y) dy = = − y − ∞ fX g−1(y) d dy g−1(y) IY (y) dy = = y − ∞ fX g−1(y) − d dy g−1(y) IY (y) dy = = y − ∞ fX g−1(y) d dy g−1(y) IY (y) dy El otro caso es similar Ejemplo: Veamos que si X ∼ U(0, 1) entonces Y = − ln(1 − X) ∼ E(1) Notemos que SX = (0, 1) Adem´as en este caso Y = g(X) siendo y = g(x) = − ln(1 − x) Esta funci´on es estrictamente creciente en SX como puede comprobarse v´ıa gr´afica o evaluando el signo de g en SX Se tiene: (0, 1) g → (0, ∞) , g−1(y) = 1 − e− y es diferenciable con continuidad, siendo d dy g−1(y) = e− y Por el teorema resulta: fY (y) = fX(1 − e− y )e−y I(0,∞)(y) = e−y I(0,∞)(y) que es precisamente la densidad de una E(1) Ejemplo: Mostrar que si X ∼ U(0, 1) entonces Y = βX1/α ∼ W(α, β) Prof.J.Gast´on Argeri 80
  • 81. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 81 Se tiene SX = (0, ∞) En este caso (0, ∞) g → (0, ∞) es estrictamente creciente con inversa continuamente diferenciable: g−1(y) = (y/β)α , d dy g−1(y) = α βα yα−1 Por el teorema se tiene: fY (y) = fX ((y/β)α ) · α βα yα−1 I(0,∞)(y) = α βα yα−1 I(0,∞)(y) que es precisamente la densidad W(α, β) Ejemplo: Si X ∼ U(0, 1) y si Φ es la fda normal standard entonces Y = Φ−1(X) ∼ N (0, 1) Por ejemplo con Splus o R podr´ıamos generar n = 100 observaciones normales standard del modo siguiente: x_runif(100) y_qnorm(x) y qqnorm(y) qqline(y) cuyo resultado es: y [1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002 [6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825 [11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211 [16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787 [21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503 [26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270 [31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769 [36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705 [41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375 [46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984 [51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189 [56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472 [61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446 [66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757 [71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629 [76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989 [81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554 [86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671 [91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222 [96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106 Quantiles of Standard Normal y -2 -1 0 1 2 -2-10123 Prof.J.Gast´on Argeri 81
  • 82. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 82 El teorema anterior tiene el inconveniente de requerir la monoton´ıa de g Presentamos a continuaci´on una versi´on menos restrictiva del mismo teorema. Teorema 10 ddd Prof.J.Gast´on Argeri 82
  • 83. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 83 Esperanza y varianza 22 Valor esperado de una variable aleatoria 22.1 Motivaci´on Los ejemplos siguientes aclaran la situaci´on que vamos a considerar. Ejemplo: Una prueba es calificada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje): Al. X Al. X Al. X Al. X Al. X 1 2 8 1 15 2 22 1 29 0 2 1 9 2 16 2 23 1 30 1 3 1 10 1 17 1 24 2 31 1 4 0 11 1 18 2 25 1 32 2 5 2 12 1 19 1 26 1 33 2 6 2 13 0 20 1 27 2 34 2 7 2 14 3 21 0 28 1 35 1 Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qu´e puntaje se espera observar? Dicho en otro t´erminos, ¿ qu´e n´umero podemos tomar como representativo del puntaje del curso? Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso es (n = 35): ¯X = 2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1 35 Para calcular el numerador de esta expresi´on podemos agrupar puntajes iguales, es decir que podemos agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el c´alculo anterior adopta la forma: ¯X = 0·f(X=0)+1·f(X=1)+2·f(X=2)+3·f(X=3) 35 = = 0·4+1·18+2·12+3·1 35 En los c´alculos f(k) = f(X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si ahora distribuimos el denominador, se obtiene: ¯X = 0·4+1·18+2·12+3·1 35 = 0 · 4 35 + 1 · 18 35 + 2 · 12 35 + 3 · 1 35 = = 0 · f(X=0) 35 + 1 · f(X=1) 35 + 2 · f(X=2) 35 + 3 · f(X=3) 35 = = = n k=0 k · f(X=k) n Ahora bien, los n´umeros f(X=k) n vienen dados precisamente por la fmp de X, es decir pX(k) = P (X = k). Entonces obtenemos el siguiente resultado: ¯X = n k=0 k · pX(k) = n k=0 k · P (X = k) = k∈RX k · P (X = k) Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta poblaci´on Prof.J.Gast´on Argeri 83
  • 84. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 84 sigue una distribuci´on N (1.70, 0.01). Si se extrae un individuo al azar de esta poblaci´on, ¿ qu´e altura esperada tendr´a? Es decir, ¿ qu´e n´umero podr´ıamos tomar como representativo de la altura de un individuo en dicha poblaci´on? A diferencia del ejemplo anterior, en este caso la variable aleatoria X es continua. Podemos considerar un rango razonable [L, U] de alturas (por ejemplo podr´ıamos tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U] en cierta cantidad n de subintervalos, mediante una partici´on regular: L = xo x1 · · · xn = U y llamemos h a la norma de esta partici´on, es decir h = (U − L)/n. Recordemos que: fX(x) = lim h → 0+ P (x ≤ X x + h) h Por lo tanto podemos escribir: P (x ≤ X x + h) = hfX(x) + o(h) para h → 0+ o aproximadamente para h peque˜no: P (x ≤ X x + h) ≈ hfX(x). En cada subintervalo [x, x + h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo de las alturas all´ı (h peque˜no). Luego, imitando los c´alculos del ejemplo anterior, tomar´ıamos como altura representativa aproximada: n k=1 xkP (xk−1 ≤ X xk) ≈ n k=1 xkfX(xk)h = n k=1 xkfX(xk) · h El c´alculo resultar´a m´as representativo cuanto m´as peque˜no sea h. En el l´ımite el c´alculo resultar´a exacto. Pero de acuerdo a la definici´on de integral definida se tiene: lim h → 0+ n k=1 xkfX(xk) · h = U L xfX(x) dx Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera posibles valores de X en su rango RX = R (recordemos que esto es s´olo un modelo para la poblaci´on real). Entonces lo l´ogico ser´a tomar como representativo de la altura de la poblaci´on al n´umero: ∞ − ∞ xfX(x) dx 22.2 Definici´on y ejemplos Definici´on 27 Sea X una variable aleatoria discreta con rango RX = {xk} (finito o infinito numerable) y sea pX su fmp. Se define el valor esperado o la esperanza de X como el n´umero real: E(X) = x∈RX xP (X = x) = x∈RX xpX(x) siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza o que la esperanza de X no est´a definda. Al hablar de convergencia absoluta queremos significar que la serie de los valores absolutos debe converger (suma finita), es decir: x∈RX |x| pX(x) ∞ Prof.J.Gast´on Argeri 84
  • 85. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 85 Nota: Cuando RX es finito siempre existir´a E(X) puesto que la serie en cuesti´on s´olo consta de un n´umero finito de t´erminos. Definici´on 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado o la esperanza de X como el n´umero real: E(X) = ∞ − ∞ xfX(x) dx siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee esperanza o que la esperanza de X no est´a definda. Nota: La integral puede ser propia o impropia, dependiendo de las caracter´ısticas y del soporte de fX. En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos significar que la integral del valor absoluto debe converger (valor finito), es decir: ∞ − ∞ |x| fX(x) dx ∞ Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos introducido anteriormente. Calcularemos tambi´en la esperanza del cuadrado de cada variable aleatoria, dado que nos resultar´a ´util en el futuro (cuando definamos el concepto de varianza de una variable aleatoria) Ejemplo: Geom´etrica Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como: E(X) = ∞ k=1 kP (X = k) = ∞ k=1 kqk−1 p = p ∞ k=1 kqk−1 Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado): S(q) = ∞ k=0 qk = 1 1 − q (11) Derivado respecto de q (justificar´an el intercambio de derivada con suma en alguno de los cursos de An´alisis Matem´atico) se obtiene: S (q) = ∞ k=1 kqk−1 = d dq 1 1 − q = 1 (1 − q)2 = 1 p2 Luego: E(X) = p 1 p2 = 1 p Por otra parte: E(X2 ) = ∞ k=1 k2 P (X = k) = ∞ k=1 k2 qk−1 p = p ∞ k=1 k2 qk−1 Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces: S (q) = ∞ k=2 k(k − 1)qk−2 = d dq 1 (1 − q)2 = 2 (1 − q)3 = 2 p3 Prof.J.Gast´on Argeri 85
  • 86. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 86 Si separamos la suma obtenemos: S (q) = ∞ k=2 k2qk−2 − ∞ k=2 kqk−2 = q−1 ∞ k=1 k2qk−1 − 1 − ∞ k=2 kqk−1 = = q−1 ∞ k=1 k2qk−1 − 1 − (S (q) − 1) = = q−1 ∞ k=1 k2qk−1 − S (q) Despejando: ∞ k=1 k2 qk−1 = qS (q) + S (q) = 2q p3 + 1 p2 = 2q + p p3 Por lo tanto: E(X2 ) = p ∞ k=1 k2 qk−1 = 2q + p p2 Ejemplo: Binomial Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces: E(X) = n k=0 k n k pkqn−k = n k=1 kn! k!(n−k)! pkqn−k = n k=1 n(n−1)! (k−1)!(n−k)! pkqn−k = = np n k=1 n−1 k−1 pk−1qn−k = np n k=1 n−1 k−1 pk−1qn−k = = np(p + q)n−1 = np Para calcular la esperanza del cuadrado de una binomial: E(X2) = n k=0 k2 n k pkqn−k = n k=1 k2 n k pkqn−k = n k=1 k2n! k!(n−k)! pkqn−k = = n k=1 nk(n−1)! (k−1)!(n−k)! pkqn−k = np n k=1 k n−1 k−1 pk−1qn−k = = np n k=1 (k − 1) n−1 k−1 pk−1qn−k + n k=1 n−1 k−1 pk−1qn−k = = np n k=1 (k − 1) n−1 k−1 pk−1qn−k + 1 = np n−1 s=0 s n−1 s psqn−1−s + 1 = = np [(n − 1)p + 1] = np(np + 1 − p) = np(np + q) donde hemos utilizado que la ´ultima suma entre corchetes es la expresi´on de la esperanza de una Bi(n − 1, p), es decir (n − 1)p. Ejemplo: Poisson Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza: E(X) = ∞ k=0 k λk k! e− λ = λe− λ ∞ k=1 λk−1 (k − 1)! = λe− λ ∞ s=0 λs s! = λe− λ eλ = λ Prof.J.Gast´on Argeri 86
  • 87. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 87 Calculemos la esperanza de su cuadrado: E(X2) = ∞ k=0 k2 λk k! e− λ = λe− λ ∞ k=1 k λk−1 (k−1)! = λe− λ ∞ s=0 (s + 1) λs s! = = λ ∞ s=0 s λs s! e− λ + e− λ ∞ s=0 λs s! = λ λ + e− λeλ = λ(1 + λ) Ejemplo: Gaussiana standard Sea X ∼ N (0, 1). Su esperanza se calcula como: E(X) = ∞ − ∞ x 1 √ 2π e− x2/2 dx = 1 √ 2π ∞ − ∞ x e− x2/2 dx Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = −x2/2 se tiene dt = − x dx x e− x2/2 dx = − et dt = −et + C = −e− x2/2 + C Por lo tanto: b 0 x e− x2/2 dx = 1 − e− b2/2 −→ b →∞ 1 0 a x e− x2/2 dx = e− a2/2 − 1 −→ a →− ∞ −1 De manera que: ∞ − ∞ x e− x2/2 dx = −1 + 1 = 0. Esto muestra que E(X) = 0 Calculemos ahora E(X2), es decir: E(X2 ) = ∞ − ∞ x2 1 √ 2π e− x2/2 dx = 1 √ 2π ∞ − ∞ x2 e− x2/2 dx Planteamos la integral indefinida por partes: u = x , dv = xe− x2/2 dx. Entonces: du = dx , v = xe− x2/2 dx = −e− x2/2. Luego: x2 e− x2/2 dx = xe− x2/2 + e− x2/2 dx Por lo tanto: b a x2 e− x2/2 dx = xe− x2/2 b a + b a e− x2/2 dx = be− b2/2 − ae− a2/2 + b a e− x2/2 dx Luego: 0 a x2 e− x2/2 dx −→ a →− ∞ + 0 − ∞ e− x2/2 dx b 0 x2 e− x2/2 dx −→ b →∞ + ∞ 0 e− x2/2 dx Por lo tanto: ∞ − ∞ x2 e− x2/2 dx = ∞ − ∞ e− x2/2 dx = √ 2π Finalmente: Por lo tanto: E(X2 ) = 1 √ 2π ∞ − ∞ x2 e− x2/2 dx = 1 √ 2π √ 2π = 1 Prof.J.Gast´on Argeri 87
  • 88. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 88 Ejemplo: Exponencial Sea X ∼ E(λ). Calculemos su esperanza: E(X) = ∞ 0 xλe− λx dx = λ ∞ 0 xe− λx dx Planteamos la integral indefinida por partes: u = x , dv = λe− λx dx xe− λx dx = −x e− λx + e− λx dx = −x e− λx − 1 λ e− λx Entonces: E(X) = − x e− λx ∞ 0 − 1 λ e− λx ∞ 0 = 1 λ En cuanto a la esperanza del cuadrado, planteamos: E(X2 ) = ∞ 0 x2 λe− λx dx = λ ∞ 0 x2 e− λx dx Nuevamente ac´a planteamos la integral indefinida por partes: u = x2 , dv = λe− λx dx x2 e− λx dx = −x2 e− λx + 2 xe− λx dx Entonces: E(X2) = ∞ 0 x2e− λx dx = − x2 e− λx ∞ 0 + 2 ∞ 0 xe− λx dx = 2 ∞ 0 xe− λx dx = = 2 E(X) λ = 2/λ2 Ejemplo: Binomial negativa Sea X ∼ BN (r, p). Su esperanza se calcula como: E(X) = ∞ k=r k k−1 r−1 prqk−r = ∞ k=r k(k−1)! (r−1)!(k−r)! prqk−r = = r ∞ k=r k! r!(k−r)! prqk−r = r ∞ k=r k r prqk−r = = r p ∞ k=r k r pr+1qk−r = r p ∞ s=r+1 s − 1 (r + 1) − 1 pr+1 qs−(r+1) 1 = r p Para hallar la esperanza del cuadrado: E(X2) = ∞ k=r k2 k−1 r−1 prqk−r = ∞ k=r rkk! r!(k−r)! prqk−r = = r ∞ k=r k k r prqk−r = r ∞ s=r+1 (s − 1) s−1 r pr+1qs−r−1 = = r p        ∞ s=r+1 s s − 1 r pr+1 qs−r−1 (r+1)/p − ∞ s=r+1 s − 1 r pr+1 qs−r−1 1        = r p r+1 p − 1 Prof.J.Gast´on Argeri 88
  • 89. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 89 Ejemplo: Gama Sea X ∼ Γ(α, λ). Calculemos su esperanza: E(X) = ∞ 0 x λα Γ(α) xα−1 e− λx dx = ∞ 0 λα Γ(α) x(α+1)−1 e− λx dx = = α λ ∞ 0 λα+1 Γ(α+1) x(α+1)−1 e− λx dx = α λ En cuanto a la esperanza del cuadrao, los c´alculos son similares: E(X2) = ∞ 0 x2 λα Γ(α) xα−1 e− λx dx = ∞ 0 λα Γ(α) x(α+2)−1 e− λx dx = = α(α+1) λ2 ∞ 0 λα+2 Γ(α+2) x(α+2)−1 e− λx dx = α(α+1) λ2 Ejemplo: Beta Sea X ∼ Be(α, β). Su esperanza viene dada por: E(X) = 1 0 x 1 B(α,β) xα−1 (1 − x)β−1 dx = 1 0 1 B(α,β) x(α+1)−1 (1 − x)β−1 dx = = 1 0 1 B(α,β) x(α+1)−1 (1 − x)β−1 dx = α α+β 1 0 1 B(α+1,β) x(α+1)−1 (1 − x)β−1 dx = α α+β Calculemos la esperanza de su cuadrado: E(X2) = 1 0 x2 1 B(α,β) xα−1 (1 − x)β−1 dx = 1 0 1 B(α,β) x(α+2)−1 (1 − x)β−1 dx = = α(α+1) (α+β)(α+β+1) 1 0 1 B(α+2,β) x(α+2)−1 (1 − x)β−1 dx = α(α+1) (α+β)(α+β+1) Ejemplo: Hipergeom´etrica Sea X ∼ H(n, D, N). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anota- mos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M∗ = min {n − 1, D − 1} resulta: m∗ = 0 si m = 0 m − 1 si m ≥ 1 = max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1 La esperanza de X viene dada por: E(X) = M k=m k (D k )(N−D n−k ) (N n ) = M k=max{m,1} k (D k )(N−D n−k ) (N n ) = = n N M k=max{m,1} D(D−1 k−1 )((N−1)−(D−1) (n−1)−(k−1) ) (N−1 n−1 ) = nD N M k=max{m,1} (D−1 k−1 )((N−1)−(D−1) (n−1)−(k−1) ) (N−1 n−1 ) = = nD N M−1 s=max{m,1}−1 (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) = nD N M∗ s=m∗ (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) = n D N Prof.J.Gast´on Argeri 89
  • 90. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 90 Calculemos la esperanza de su cuadrado: E(X2) = M k=m k2 (D k )(N−D n−k ) (N n ) = M k=max{m,1} k2 (D k )(N−D n−k ) (N n ) = = n N M k=max{m,1} k D(D−1 k−1 )((N−1)−(D−1) (n−1)−(k−1) ) (N−1 n−1 ) = nD N M k=max{m,1} k (D−1 k−1 )((N−1)−(D−1) (n−1)−(k−1) ) (N−1 n−1 ) = = nD N M−1 s=max{m,1}−1 (s + 1) (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) = nD N M∗ s=m∗ (s + 1) (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) = = nD N M∗ s=m∗ s (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) + M∗ s=m∗ (D−1 s )((N−1)−(D−1) (n−1)−s ) (N−1 n−1 ) = = nD N (n − 1) D−1 N−1 + 1 = nD N (n−1)(D−1)+(N−1) N−1 = n D N 1 + (n − 1) D−1 N−1 = = N N−1 1 + n(D−1) N−D n D N 1 − D N Ejemplo: Chi cuadrado Sea X ∼ χ2(n) = Γ n 2 , 1 2 . Entonces por lo visto para la gamma, se tiene: E(X) = n/2 1/2 = n ; E(X2) = n 2 (n 2 +1) (1/2)2 = n(n + 2) Ejemplo: Uniforme Sea X ∼ U(a, b). En este caso: E(X) = b a x 1 b−a dx = 1 b−a b a x dx = 1 b−a x2 2 b a = b2−a2 2(b−a) = (b−a)(b+a) 2(b−a) = a+b 2 E(X2) = b a x2 1 b−a dx = 1 b−a b a x2 dx = 1 b−a x3 3 b a = b3−a3 3(b−a) = (b−a)(a2+ab+b2) 3(b−a) = a2+ab+b2 3 Ejemplo: t de Student Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos analizar ante todo la convergencia de la integral impropia. Por simetr´ıa y dado que dicha integral es propia en el origen, vamos a estudiarla en [ √ n, ∞). De hecho, para que nos sirva despu´es, estudiaremos la convergencia de la siguiente (un poco m´as general): Ik,n = ∞ √ n xk 1 + x2 n (n+1)/2 dx Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/ √ n. Entonces dt = dx/ √ n. Luego: Ik,n = n(k+1)/2 ∞ 1 tk (1 + t2)(n+1)/2 dt Pero si t ≥ 1 se cumple: • tk (1+t2)(n+1)/2 ≤ tk tn+1 = 1 tn+1−k pues 1 + t2 ≥ t2 • tk tk (1+t2)(n+1)/2 ≥ tn (1+t2)(n+1)/2 ≥ tn (2t2)(n+1)/2 = 1 2(n+1)/2 t pues 1 + t2 ≤ t2 + t2 = 2t2 Prof.J.Gast´on Argeri 90
  • 91. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 91 Luego: Ik,n es convergente sii n + 1 − k 1 sii k n. Deducimos inmediatamente que si X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero E(X2) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X2). Vamos a calcularlas: Para alivianar notaci´on denotemos An = Γ(n+1 2 ) Γ(n 2 ) √ nπ . Tengamos presente que por definici´on de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N: ∞ −∞ dt (1 + t2)(n+1)/2 = n− 1/2 ∞ − ∞ dx 1 + x2 n (n+1)/2 = n1/2 An −1 Entonces usando consecutivamente las sustituciones t = x/ √ n , s = 1 + t2 se obtiene para n ≥ 2: E(X) = An ∞ − ∞ x 1+ x2 n (n+1)/2 dx = nAn ∞ − ∞ t (1+t2)(n+1)/2 dt = = nAn 0 − ∞ t (1+t2)(n+1)/2 dt + ∞ 0 t (1+t2)(n+1)/2 dt = = 1 2 nAn 0 ∞ ds s(n+1)/2 + ∞ 0 ds s(n+1)/2 = 1 2 nAn − ∞ 0 ds s(n+1)/2 + ∞ 0 ds s(n+1)/2 = 0 An´alogamente, para n ≥ 3 se tiene: E(X2) = An ∞ − ∞ x2 1+ x2 n (n+1)/2 dx = n3/2An ∞ − ∞ t2 (1+t2)(n+1)/2 dt = = n3/2An ∞ − ∞ (1+t2)−1 (1+t2)(n+1)/2 dt = = n3/2An ∞ − ∞ 1 (1+t2)(n−1)/2 dt − ∞ − ∞ 1 (1+t2)(n+1)/2 dt = = n3/2An 1 (n−2)1/2An−2 − 1 n1/2An = = n n n−2 1/2 An An−2 − 1 Utilizando las propiedades de la funci´on gamma se puede verificar f´acilmente que An/An−2 = (n − 1)/ n(n − 2)1/2 . Reemplazando resulta: E(X2) = n n n−2 1/2 n−1 [n(n−2)]1/2 − 1 = n n−1 n−2 − 1 = n n−2 Ejemplo: F de Fisher-Snedecor El c´alculo de E(X) y E(X2) es un poco engorroso y lo omitiremos. El resultado es el siguiente: E(X) = n n−2 para n ≥ 3 E(X2) = n n−2 2 1 + 2m+n−2 m(n−4) para n ≥ 5 Ejemplo: Lognormal Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustituci´on t = ln x. Prof.J.Gast´on Argeri 91
  • 92. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 92 Luego: dt = dx/x , x = et. Entonces: E(X) = ∞ 0 x√ 2π σx e− (ln x−µ)2/(2σ2) dx = 1√ 2π σ ∞ 0 e− (ln x−µ)2/(2σ2) dx = = = 1√ 2π σ − ∞ ∞ e− (t−µ)2/(2σ2) et dt = 1√ 2π σ ∞ − ∞ e−(t2−2µt+µ2−2σ2t)/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t2−2(µ+σ2)t]/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t2−2(µ+σ2)t+(µ+σ2)2−(µ+σ2)2 ]/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t−(µ+σ2)] 2 /(2σ2) e(µ+σ2)2/(2σ2) dt = = e− µ2/(2σ2) e(µ+σ2)2/(2σ2) ∞ − ∞ 1√ 2π σ e−[t−(µ+σ2)] 2 /(2σ2) dt = = e− µ2/(2σ2) e(µ+σ2)2/(2σ2) = eµ+σ2/2 El c´alculo de la esperanza del cuadrado es completamente similar: E(X2) = ∞ 0 x2 √ 2π σx e− (ln x−µ)2/(2σ2) dx = 1√ 2π σ ∞ 0 x e− (ln x−µ)2/(2σ2) dx = = = 1√ 2π σ − ∞ ∞ e− (t−µ)2/(2σ2) e2t dt = 1√ 2π σ ∞ − ∞ e−(t2−2µt+µ2−4σ2t)/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t2−2(µ+2σ2)t]/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t2−2(µ+2σ2)t+(µ+2σ2)2−(µ+2σ2)2 ]/(2σ2) dt = = 1√ 2π σ e− µ2/(2σ2) ∞ − ∞ e−[t−(µ+2σ2)] 2 /(2σ2) e(µ+2σ2)2/(2σ2) dt = = e− µ2/(2σ2) e(µ+2σ2)2/(2σ2) ∞ − ∞ 1√ 2π σ e−[t−(µ+2σ2)] 2 /(2σ2) dt = = e− µ2/(2σ2) e(µ+2σ2)2/(2σ2) = e2(µ+σ2) 22.3 Propiedades de la esperanza Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Supongamos adem´as que E(X) , E(Y ) est´an definidas. Entonces para cualesquiera constantes a, b ∈ R la esperanza E(aX + bY ) existe y se verifica: E(aX + bY ) = aE(X) + bE(Y ) Dem: Esta demostraci´on se dar´a m´as adelante, cuando desarrollemos la teor´ıa de vectores aleatorios. Propiedad 48 Sea X una variable aleatoria. Dados m, n ∈ N , m n se cumple: E(Xn ) existe ⇒ E(Xm ) existe Dem: S´olo demostramos el caso discreto (El caso continuo se demustra de manera completamente an´aloga, Prof.J.Gast´on Argeri 92
  • 93. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 93 reemplazando sumas por integrales). Tengamos en cuenta que: ∀x ≥ 0 , xm ≤ xn ⇔ x ≥ 1 E (|Xm|) = x∈RX |x|m pX(x) = x∈RX |x|1 |x|m pX(x) + x∈RX |x|≤1 |x|m pX(x) ≤ ≤ x∈RX |x|1 |x|n pX(x) + x∈RX |x|≤1 pX(x) ≤ ≤ x∈RX |x|n pX(x) + x∈RX pX(x) = E (|Xn|) + 1 Por lo tanto si E(Xn) existe entonces E (|Xn|) ∞ por lo cual E (|Xm|) ∞ de manera que E(Xm) existe. Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple: P (X ≥ 0) = 1 ⇒ E(X) ≥ 0 Dem: Caso discreto: pX(x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X 0) Pero: P (X 0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X 0} ⊆ {X 0} resulta P (X = x, X 0) = 0 Por lo tanto: pX(x) = P (X = x, X ≥ 0) = pX(x)I[0,∞)(x) Entonces: E(X) = x∈RX xpX(x) = x∈RX xpX(x)I[0,∞)(x) = x∈RX x≥0 xpX(x) ≥ 0 El caso continuo es similar. Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple: P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y ) Dem: Consideremos Z = X −Y Aplic´andole directamente la propiedad anterior y utilizando luego la linealidad de la esperanza, se deduce el resultado a probar. Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X) existe. Entonces para cualquier n´umero real c 0 se verifica: P (X ≥ c) ≤ E(X) c Dem: Sea A = [c, ∞) La funci´on indicadora de A es IA(x) = 1 si x ∈ A 0 si x ∈ A La variable aleatoria IA(X) es discreta con rango {0, 1} Calculemos su esperanza: E(IA(X)) = 0·P (IA(X) = 0)+1·P (IA(X) = 1) = P (IA(X) = 1) = P (X ∈ A) = P (X ≥ c) Adem´as: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto: ∀x ∈ R , IA(x) ≤ x c IA(x) ≤ x c Luego: IA(X) ≤ X c Tomando esperanzas y utilizando el corolario anterior se tiene: P (X ≥ c) = E(IA(X)) ≤ E X c = E(X) c Prof.J.Gast´on Argeri 93
  • 94. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 94 Propiedad 51 Sea X una variable aleatoria. Se verifica: X ≥ 0 y E(X) = 0 ⇒ P (X = 0) = 1 Dem: Fijemos x 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene: P (X ≥ x) ≤ E(X) x = 0 Entonces: ∀x 0 , P (X ≥ x) = 0 Por lo tanto, si x 0 vale: FX(x) = 1 puesto que: FX(x) = P (X ≤ x) = lim n →∞ P (X x + 1/n) = lim n →∞  1 − P (X ≥ x + 1/n) 0   = 1 Utilizando que X ≥ 0 tambi´en se tiene: ∀x 0 , FX(−x) = 0 Por lo tanto: P (X = 0) = lim x → 0+  FX(x) 1 − FX(−x) 0   = 1 como quer´ıamos demostrar. 23 Varianza de una variable aleatoria 23.1 Motivaci´on y definici´on Consideremos una variable aleatoria X que representa una caracter´ıstica num´erica de los individuos de cierta poblaci´on. Supongamos adem´as que existe E(X2) Elijamos al azar un individuo dentro de tal poblaci´on e intentemos ”predecir” el valor que tomar´a la variable aleatoria X en dicho individuo. Lo m´as razonable ser´ıa predecir el valor de X mediante el n´umero E(X) ¿ Porqu´e? Supongamos que decidimos predecir el valor de X mediante un n´umero c Tal predicci´on tendr´a asociado un error (absoluto) aleatorio expresado por |X − c| Naturalmente ning´un n´umero c minimizar´a este error para todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar el n´umero c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el n´umero c que minimice la esperanza del cuadrado del error, denominada error cuadr´atico medio(ECM): ECM(c) = E (X − c)2 = E(X2 − 2cX + c2 ) = E(X2 ) − 2cE(X) + c2 La expresi´on anterior es cuadr´atica en c Podemos reexpresarla como: E (X − c)2 = E [(X − E(X)) + (E(X) − c)]2 = = E (X − E(X))2 + 2 (E(X) − c) E (X − E(X)) + E (X − E(X))2 = = E (X − E(X))2 + E (E(X) − c)2 Como el primer t´ermino en esta expresi´on no depende de c y el segundo t´ermino se hace m´ınimo tomando c = E(X) deducimos que el mejor predictor constante de X es el n´umero E(X) Adem´as, el ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante en probabilidades y estad´ıstica que recibe un nombre especial. Definici´on 29 Dada una variable aleatoria X se define la varianza de X como: V (X) = E (X − E(X))2 Prof.J.Gast´on Argeri 94
  • 95. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 95 siempre y cuando tal esperanza exista. Otras notaciones comunes para la varianza de X son V ar(X) , σXX , σ2 X El desv´ıo standard o t´ıpico de X se define como la ra´ız cuadrada de su varianza: SD(X) = V (X) El desv´ıo standard de X tambi´en se anota σX Obs´ervese que: • Si E(X2) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se deduce que E(X) existe y por lo tanto, utilizando la propiedad de linealidad de la esperanza tiene: V (X) = E (X − E(X))2 = E(X2 − 2E(X)X + E2(X)) existe. • Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) ≥ 0 • Por propiedades vistas anteriormente se deduce que: V (X) = 0 ⇔ P (X = E(X)) = 1 • Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado. Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en cm2 En cambio SD(X) queda espresada en las mismas unidades que X Tanto V (X) como SD(X) miden en cierto sentido cu´an alejados se encuentran, en promedio, los valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos que V (X) y SD(X) representan medidas de dispersi´on de la variable aleatoria. 23.2 C´alculo y propiedades Propiedad 52 Sea X una variable aleatoria con E(X2) finita. Se cumple: V (X) = E(X2 ) − E2 (X) Dem: Notemos que como E(X2) ∞ entonces por una propiedad anterior E(X) existe. Por lo tanto, utilizando la linealidad de la esperanza se obtiene: V (X) = E (X − E(X))2 = E(X2 − 2E(X)X + E2(X)) = E(X2) − 2E2(X) + E2(X) = E(X2) − E2(X) Ejemplo: X ∼ Bi(n, p) Ya calculamos E(X) = np , E(X2) = np(q + np) de modo que se tiene: V (X) = np(q + np) − (np)2 = npq = np(1 − p) Ejemplo: X ∼ G(p) En este caso sabemos que E(X) = 1/p y E(X2) = (2q + p)/p2 Por lo tanto V (X) = (2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2 Ejemplo: X ∼ H(n, D, N) Vimos que E(X) = n D N y E(X2) = N N−1 1 + n(D−1) N−D n D N 1 − D N Entonces luego de operar se obtiene: V (X) = n D N 1 − D N N − n N − 1 (∗) El factor (∗) se denomina factor de correcci´on por poblaci´on finita, en tanto que los tres primeros factores coinciden con la esperanza de una variable aleatoria con distribuci´on Bi(n, D/N) Esto no debe sorprendernos ya que la hipergeom´etrica surgi´o al contar la cantidad de objetos distinguidos en una muestra sin reposici´on de tama˜no n de una poblaci´on de N individuos entre los que hay un total de D distinguidos. Entonces cuando N es grande respecto de n y ´este es peque˜no respecto Prof.J.Gast´on Argeri 95
  • 96. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 96 de D es razonable que la no reposici´on afecte muy poco el resultado, de manera que contar la can- tidad de distinguidos entre los n deber´ıa dar resultados similares ya sea que la extracci´on se realice con o sin reposici´on. Pero si se realiza con reposici´on, la cantidad de distinguidos posee distribuci´on Bi(n, D/N) Ejemplo: X ∼ P(λ) En este caso vimos que E(X) = λ , E(X2) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ Ejemplo: X ∼ N (µ, σ2) Vimos que E(X) = µ , E(X2) = µ2 + σ2 Por lo tanto: V (X) = µ2 + σ2 − µ2 = σ2 Ejemplo: X ∼ Γ(λ, α) Probamos antes que E(X) = λ/α , E(X2) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 − (λ/α)2 = λ/α Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale: V (aX + b) = a2 V (X) Dem: V (aX + b) = E (aX + b)2 − E2(aX + b) = E(a2X2 + 2abX + b2) − (aE(X) + b)2 = = a2E(X2) + 2abE(X) + b2 − a2E2(X) − 2abE(X) − b2 = = a2E(X2) − a2E2(X) = a2 E(X2) − E2(X) = a2V (X) 24 Esperanza y varianza de una funci´on de una variable aleatoria Propiedad 54 Sea X una variable aleatoria y sea SX el soporte de su distribuci´on. La esperanza de la variable aleatoria g(X) puede calcularse, siempre que exista, como: i) Caso discreto: E(g(X)) = x∈SX g(x)pX(x) ii) Caso continuo: E(g(X)) = SX g(x)fX(x) dx Dem: Caso discreto: La fmp de Y = g(X) viene dada por pY (y) = x∈RX g(x)=y pX(x) Por lo tanto: E(Y ) = y∈RY ypY (y) = y∈RY y x∈RX g(x)=y pX(x) = y∈RY x∈RX g(x)=y ypX(x) = = y∈RY x∈RX g(x)=y g(x)pX(x) = x∈RX g(x)pX(x) En el caso continuo la demostraci´on es similar a la del teorema de cambio de variables que se demostr´o cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la prueba. Prof.J.Gast´on Argeri 96
  • 97. UNQ/Dip.CyT/Probabilidades y Estad´ıstica/Primer Cuatrimestre de 2007 p´ag. 97 Ejemplo: Calculemos E(− ln X) siendo X ∼ U(0, 1) Sea Y = − ln X Anotando SX = (0, 1) y SY = (0, ∞) los soportes de X e Y respectivamente, se tiene: E(Y ) = 1 0 (− ln x) fX(x) dx = − 1 0 ln x dx = − x ln x|1 0 + 1 0 dx = 1 Prof.J.Gast´on Argeri 97