Cap¶‡tulo 2 Variables aleatorias - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos...
Transcript of Cap¶‡tulo 2 Variables aleatorias - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos...
Capıtulo 2
Variables aleatorias
2.1. Introduccion
En muchos experimentos resulta mas facil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,
podrıamos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta
cosa. Si usaramos un 1 para el que contesta ”me agrada 2un o para el que contesta
”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada
uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1
o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podrıa hacerse si, por ejemplo, nos interesa solamente
el numero de personas a quienes les agrada (o equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podrıa interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, o a la tercera parte; y ası definir la cantidad X =
numeros de 1´s encontrados entre los 50, de esta manera tendrıamos capturada la
esencia del problema.
Ahora el espacio muestral que recorre X es el conjunto 0, 1, 2, . . . , 50, el cual es
35
Probabilidad y Estadıstica
mucho mas facil de manejar que el original. Para definir esta cantidad X es necesario
definir una funcion del espacio muestral original, Ω, a un nuevo espacio, usualmente
el conjunto de los numeros reales. En general se tiene la siguiente
Definicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral Ω en
los numeros reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implıcita-
mente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos Variable Aleatoria
Arrojar dos dados X = suma de los numeros obtenidos
Arrojar una moneda 25 veces X = numero de caras obtenidas en los 50 tiros
Aplicar diferentes tipos de fertilizantes
a grupos de plantas X = rendimiento por acre
En la definicion de v.a. tenemos definido un nuevo espacio muestral (el rango o recorrido
de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual
esta definida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
Ω = ω1, ω2, . . . , ωn
con una funcion de probabilidad P , y definimos una v.a. X con un rango en X = x1, x2, . . . , xn.Definiremos una funcion de probabilidad PX sobre X del siguiente modo:
PX(X = xi) = P (ωj ∈ Ω /X(ωj) = xi) (2.1)
Note que la funcion PX a la izquierda del igual en (2.1) es una funcion de probabilidad
inducida por X , definida en terminos de la probabilidad original P . La igualdad (2.1) for-
malmente define una funcion de probabilidad, PX , para la v.a. X. Por supuesto que se
debera verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-
cio. Como son equivalentes, simplemente (2.1) se escribira como P (X = xi) en lugar de
PX(X = xi)
Probabilidad y EstadısticaSegundo Semestre 2005
36 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Notacion Variables aleatorias siempre seran denotadas por letras imprenta mayusculas
tales como, X, Y , Z, X1, X2, Y1, etc; y los valores de su realizacion (o su rango) con su
correspondiente letra minuscula. Ası, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos
la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
ω X(ω)
CCC 3
CCS 2
CSC 2
SCC 2
CSS 1
SCS 1
SSC 1
SSS 0
El rango de valores de la v.a. X es X = 0, 1, 2, 3. Asumiendo equiprobabilidad, se
tiene P (ω) = 1/8 ∀ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla:
x PX (X = x)
0 1/8
1 3/8
2 3/8
3 1/8
Por ejemplo PX(X = 1) = P (CSS, SSC, SCS) = 38 .
Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamano 50 formado por 1´s y 0´s.
Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = 0, 1, 2, . . . , 50.Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obteni-
da contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
P (X = 27) =Nro. de cadenas con 27 1´s
Nro. total de cadenas=
(5027
)
250.
Probabilidad y EstadısticaSegundo Semestre 2005
37 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
En general
PX(X = i) =
(50i
)
250
Estos ejemplos anteriores tienen un Ω y un X finito. Tambien X podrıa ser numerable.
Si X no es numerable, tambien es posible definir la funcion de probabilidad inducida PX de
forma similar a la anterior:
Para A ⊂ X ,
PX(X ∈ A) = P (ω ∈ Ω /X(ω) ∈ A).
Esta tambien define legıtimamente una funcion de probabilidad que cumple con los
axiomas de Kolmogorov.
2.2. Funciones de Distribucion
Con toda v.a. X, tenemos asociada una funcion llamada funcion de distribucion
acumulativa de X, dicha tambien f.d.a.
Definicion 2.2.1. La f.d.a. de una v.a. X, denotada por FX(x), se define por:
FX(x) = PX(X ≤ x) ∀x ∈ R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos FX(x)
x < 0 =⇒ FX(x) = PX(X ≤ x) = 0
0 ≤ x < 1 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) = 1/8
1 ≤ x < 2 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) = 1/2
2 ≤ x < 3 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8
x ≥ 3 =⇒ FX(x) = 1Finalmente, la funcion de distribucion asociada a X es,
FX(x) =
0 si x < 0
1/8 si 0 ≤ x < 1
1/2 si 1 ≤ x < 2
7/8 si 2 ≤ x < 3
1 si x ≥ 3
Probabilidad y EstadısticaSegundo Semestre 2005
38 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Le proponga al lector que grafique esta funcion, obtendra un grafico en R2 con las siguientes
caracterısticas:
(a) FX(x) esta definida ∀x, no solamente en X . Por ejemplo: FX(2,5) = 7/8
(b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la
funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbolicamente se tiene:
lımx−→x+
i
FX(x) = FX(xi) si xi ∈ X
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que estan definidas en terminos de probabilidad.
Teorema 2.2.1. La funcion F(x) es una f.d.a. sı y solo sı las siguientes tres condiciones
se cumplen:
(a)
lımx−→−∞ F (x) = 0 ∧ lım
x−→∞ F (x) = 1
(b) F (x) es no decreciente como funcion de x.
(c) F (x) es continua a la derecha, esto es:
lımx−→x+
0
F (x) = F (x0) ∀x0.
Prueba:
Para probar la condicion necesaria, basta escribir F (x) en terminos de la funcion de prob-
abilidad. Para la suficiencia o sea, que si una funcion F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),
deberıamos establecer que existe un espacio muestral Ω, una funcion de probabilidad P
sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X.
Probabilidad y EstadısticaSegundo Semestre 2005
39 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
X = 1, 2, 3, . . ., entonces para x = 1, 2, . . . ,
P (X = x) = (1− p)x−1p ,
ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, ademas los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
FX(x) = P (X ≤ x) =x∑
i=1
P (X = i) =x∑
i=1
(1− p)i−1 p , x = 1, 2, . . .
recordar que la suma parcial de una serie geometrica es
n∑
k=1
tk−1 =1− tn
1− t, t 6= 1 (2.2)
Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-
abilidad, encontramos que la f.d.a. de nuestra v.a. X es
FX(x) = P (X ≤ x)
=1− (1− p)x
1− (1− p))p
= 1− (1− p)x , x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta funcion, por ejemplo para p = 0,3.
Es facil mostrar que 0 < p < 1 para que FX(x) satisfaga las condiciones del teorema (2.2.1).
lımx−→−∞ FX(x) = 0, ya que FX(x) = 0 ∀x < 0 y
lımx−→∞ FX(x) = lım
x−→∞ [1− (1− p)x] = 1.
Probabilidad y EstadısticaSegundo Semestre 2005
40 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funcion
FX(x) =1
1 + exp−x,
la cual satisface las condiciones de teorema (2.2.1).
Por ejemplo,
lımx−→−∞ FX(x) = 0, ya que lım
x−→−∞ exp−x = ∞
y
lımx−→∞ FX(x) = 1, ya que lım
x−→∞ exp−x = 0
Si derivamos FX(x) una vez, tenemos
d
dxFX(x) =
exp−x
(1 + exp−x)2> 0 ,
mostrando que FX es creciente como funcion de x. FX no solamente es continua a la derecha.
Sino tambien continua. Este es un caso especial de la llamada distribucion logıstica.
Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.
que sea continua o no. En efecto, la asociacion nos conduce a la siguiente definicion,
Definicion 2.2.2. Una v.a. X es continua se FX(x) es una funcion continua de x. Una
v.a. X es discreta de FX(x) es una funcion dada a trozos con respecto a x.
Necesitamos definir la nocion de cuando dos v.a. son identicamente distribuidas.
Definicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para
cualquier conjunto A, P (X ∈ A) = P (Y ∈ B)
Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.
Esto es, la definicion ultima anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Definimos las v.a. X e Y como sigue,
X = numero de caras obtenidas
Y = numero de cecas obtenidas
Probabilidad y EstadısticaSegundo Semestre 2005
41 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
La distribucion de X esta dada en el ejemplo (2.1.2), y se verifica facilmente que
la distribucion de Y es exactamente la misma; esto significa que para valores de k =
0, 1, 2, 3 P (X = k) = P (Y = k). Ası, X e Y estan identicamente distribuidas, sin em-
bargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y .
Igual distribucion de v.a., no implica igualdad en las v.a.
Teorema 2.2.2. Las siguientes afirmaciones son equivalentes:
(a) Las v.a. X e Y estan identicamente distribuidas
(b) FX(x) = FY (x) para cada x.
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada afirmacion implica la otra.
Veamos que (a) =⇒ (b).
Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,
P (X ∈ A) = P (Y ∈ B).
En particular, para el conjunto (−∞, x] se tiene
P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) ∀x.
Pero esta ultima igualdad es equivalente a:
P (X ≤ x) = P (Y ≤ x) ∀x,
o que FX(x) = FY (x) para cada x.
La implicacion inversa, (b) =⇒ (a) es mucho mas difıcil de probar. Para mostrarla se requiere
usar una baterıa pesada de σ- algebras de Borel. No entraremos aquı en mas detalles. Es
suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar
que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para
mas detalles ver Chung,1977).
Probabilidad y EstadısticaSegundo Semestre 2005
42 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
2.2.1. Densidad y Funciones de masa
Asociada con una v.a.X y su f.d.a. FX(x) existe otra funcion, llamada segun corresponda:
funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).
Los terminos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.
Ambas funciones esta relacionadas con probabilidades puntuales de v.a.
Definicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-
da por:
fX(x) = P (X = x) , ∀x.
Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,
fX(x) = P (X = x) =
(1− p)x−1 p si x = 1, 2, . . .
0 en otro caso
Recordar que fX(x) o equivalentemente P (X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos,
P (a ≤ X ≤ b) =b∑
k=a
fX(k) =b∑
k=a
(1− p)k−1p.
Ası, se puede conseguir con esto un caso especial
P (X ≤ b) =b∑
k=1
fX(k) = FX(b).
Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de
anotar con letras imprentas mayusculas las f.d.a.´s; y con la correspondiente minuscula la
f.m.p. o la f.d.p. respectiva.
Debemos tener un poco mas de cuidado en nuestra definicion de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que X = x ⊂ x− ε < X ≤ x para cualquier ε > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P (X = x) ≤ P (x− ε < X ≤ x) = FX(x)− FX(x− ε),
Probabilidad y EstadısticaSegundo Semestre 2005
43 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
para cualquier ε > 0. Por lo tanto,
0 ≤ P (X = x) ≤ lımx−→ε+
[FX(x)− FX(x− ε)] = 0,
por la continuidad de FX . Sin embargo, si nosotros comprendemos el proposito de la f.d.p.,
su definicion sera clara.
Definicion 2.2.5. La funcion de densidad de probabilidad o f.d.p., fX(x), de una v.a.
continua X es la funcion que satisface:
FX(x) =∫ x
−∞fX(x) dt para todo x. (2.3)
Una nota sobre notacion: La expresion ”X tiene una distribucion dada por FX(x)”se
abrevia simbolicamente por ”X ∼ FX(x)”, donde leemos el sımbolo ”∼como ”esta distribui-
do como”. Tambien podremos en forma similar escribir X ∼ fX(x) o, si X e Y tienen la
misma distribucion, X ∼ Y .
En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificacion de incluir
o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0
si X es una v.a. continua,
P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).
En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion
que la f.d.a. Segun sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita o no su resolucion.
Ejemplo 2.2.6. Para la distribucion logıstica dada en el ejemplo anterior. Se pide, deter-
minar su f.d.p. y determinar una metodologıa para calcular la P (a < X < b)
Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto
fx(x) =d
dxFX(x) =
exp−x
(1 + exp−x)2.
El area bajo la curva fx(x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Probabilidad y EstadısticaSegundo Semestre 2005
44 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Figura 2.1: Area bajo la curva logistica
P (X ∈ [a, b]) = FX(b)− FX(a) =∫ b
−∞fX(x) dx−
∫ a
−∞fX(x) dx =
∫ b
afX(x) dx.
Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas
consecuencias de la definicion.
Teorema 2.2.3. Una funcion fX(x) es una f.d.p. (o una f.m.p.) de una variable aleatoria
X si y solo sı
(a) fX(x) ≥ 0 ∀ x.
(b)∑
x fX(x) = 1 (f.m.p.) o∫ +∞−∞ fX(x) dx = 1 (f.d.p.).
Prueba:
Si fX(x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las definiciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
1 = lımx−→∞ FX(x) =
∫ +∞
−∞fX(t) dt.
Probabilidad y EstadısticaSegundo Semestre 2005
45 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene fX(x) podemos
definir FX(x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el pun-
taje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
maxX1, X2. Determinar la f.m.p y la f.d.a. de la v.a. X
X ≤ x ⇐⇒ maxX1, X2 ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x.
La ultima igualdad se deduce de la definicion de maximo!.
∴ X ≤ x es equivalente a,
X1 ≤ x ∩ X2 ≤ x.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P (X ≤ x) = P [X1 ≤ x ∩ X2 ≤ x]
= P (X1 ≤ x) · P (X2 ≤ x).
Si suponemos que los dados son equilibrados , se tiene que
P (X1 = l) = P (X2 = l) =16
con l = 1, . . . , 6.
Luego,
P (Xi ≤ x) =x∑
l=1
P (Xi = l) =x
6x = 1, 2, . . . , 6, i = 1, 2.
Finalmente,
P (X ≤ x) =x2
36, x = 1, . . . , 6.
Siendo esta su f.d.a.. Pero
P (X = x) = P (X ≤ x)− P (X ≤ x− 1
=x2
36− (x− 1)2
36=
2x− 16
, x = 1, . . . , 6.
Probabilidad y EstadısticaSegundo Semestre 2005
46 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Siendo esta su f.m.p
• ¿Que ocurre si lanzamos ahora infinitamente el dado en forma independiente?
Si razonamos como en la parte ultima anterior del ejemplo, sea Si el puntaje obtenido
en el i-esimo lanzamiento, i=1,. . . ,k.
Nos interesa la v.a. Y = ”el puntaje maximo obtenido”:
Y = max S1, S2, . . . ,k .
Por definicion del maximo, Y ≤ y es equivalente a,
S1 ≤ y ∩ S2 ≤ y ∩ . . . ∩ Sk ≤ y.
Luego, usando la independencia de los lanzamientos, se obtiene que
P (Y ≤ y) =k∏
i=1
P (Si ≤ y) =(y
6
)k, y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P (Y = y) = P (Y ≤ y)− P (Y ≤ y − 1) =16k
[yk − (y − 1)k].
Calcular la probabilidad de que el maximo valor leıdo sea un valor y en infinitos lanzamien-
tos, corresponde a tomar
lımk−→∞
P (Y = y).
Para calcular este lımite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-
alente como
P (Y = y) =yk
6k
[1−
(y − 1y
)k].
Al tomar lımite se obtiene:
lımk−→∞
P (Y ≤ y) =
0 si y < 6
1 si y = 6
Esto significa que en un numero infinito de lanzamientos, la probabilidad de obtener un
puntaje maximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje
igual a 6 es uno!!!.
Probabilidad y EstadısticaSegundo Semestre 2005
47 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Ejemplo 2.2.8. Probar que la funcion dada por
fX(x) =1√2π
exp−x2/2 . (2.4)
es una funcion de densidad de probabilidad
En efecto, obviamente fX(x) > 0. Para verificar que es una densidad, falta comprobar
que∫∞−∞ fX(x) dx = 1.
Sea a =∫∞−∞ e−x2/2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que
a2 =∫ ∞
−∞e−x2/2 dx ·
∫ ∞
−∞e−y2/2 dy =
∫ ∞
−∞
∫ ∞
−∞e−(x2+y2)/2 dx dy;
y tomando, en la integral doble, coordenadas polares (r, φ) queda
a2 =∫ 2π
0dφ
∫ ∞
0e−r2/2 r dr = 2π.
Esta densidad se define como la densidad normal tıpica (o estandar), y se la anota con la
letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la
densidad de una v.a. con distribucion Normal estandar, definida por (2.4).
Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por
f(x) =
kx si 0 < x < 1
0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota ¡fX(x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P (X = 0,5) = 0, y por lo tanto fX(0,5) no la representa. Solo cuando la funcion se integra
entre dos lımites produce una probabilidad. Sin embargo, es posible dar una interpretacion
de 4x fX(x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce
que
P (x ≤ X ≤ x +4x) =∫ x+4x
xfX(s) ds = 4x fX(ξ) , x ≤ ξ ≤ x +4x.
Si 4x es pequeno, 4x fX(x) es aproximadamente igual a P (x ≤ X ≤ x +4x). Si fX es
continuo por la derecha, esta llega a ser mas segura cuando 4x −→ 0.
Probabilidad y EstadısticaSegundo Semestre 2005
48 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
2.3. Transformaciones y Esperanzas
A menudo, si nosotros somos capaces de modelar un fenomeno en terminos de la va X
con una FX(x), tambien tendremos la relacion con la conducta de funciones de X. En esta
seccion estudiaremos tecnicas que nos permitiran ganar informacion acerca de funciones de
X que podrıan ser de interes, que puede ir desde ser completa (las distribuciones de esas
funciones) a muy vaga (la conducta del promedio).
2.3.1. Distribuciones de funciones de una Variable Aleatoria
Si X es una v.a. con fda FX(x), entonces cualquier funcion de X, digamos g(X), es
tambien una v.a.. A menudo g(X) es de interes en sı misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su
conducta probabilıstica, en terminos de la de X. Esto es, para cualquier conjunto A,
P (Y ∈ A) = P (g(X) ∈ A) ,
esto muestra que la distribucion de Y depende de las funciones FX y g. Dependiendo de
la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la funcion g(x) define una mapeo del espacio
muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto
es,
g(x) : X −→ Y.
Es posible asociar con g un mapeo inverso, denotado por g−1, el cual es un mapeo prove-
niente de subconjuntos de Y a subconjuntos de X , y esta definido por
g−1 (A) = x ∈ X : g(x) ∈ A.
Note que el mapeo g−1 esta definido de conjuntos en conjuntos, esto es, g−1(A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
Probabilidad y EstadısticaSegundo Semestre 2005
49 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
formado por un solo punto, digamos A = y. Entonces
g−1 (y) = x ∈ X : g(x) = y.
En este caso casi siempre se escribe g−1(y) en lugar de g−1 (y). Sin embargo, la cantidad
g−1(y) puede aun ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g−1(y) en el conjunto unitario x,y escribiremos g−1(y) = x.
Si la v.a. Y esta definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y,
P (Y ∈ A) = P (g(X) ∈ A)
= = P (x ∈ X : g(x) ∈ A) (2.5)
= P (X ∈ g−1(A)).
Esta define la distribucion de probabilidades de Y . Serıa justo mostrar que esta distribucion
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = y : y = g(x), x ∈ X, el cual tambien es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
fY (y) = P (Y = y) =∑
x∈g−1(y)
P (X = x) =∑
x∈g−1(y)
fX(x), para y ∈ Y ,
y fY (y) = 0 para y /∈ Y. En este caso para encontrar la fmp de Y solo es necesario identificar
g−1(y), para cada y ∈ Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la
forma
fX(x) = P (X = x) =(
n
x
)px(1− p)n−x , x = 0, 1, . . . , n ,
donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) =
n− x
Valores como n y p que al tomar diferentes valores producen diferentes funciones de
probabilidad, se llaman parametros de la distribucion. Consideremos la va. Y = g(X),
donde g(x) = n−x. Esto es Y = n−X. Aquı X = 0, 1, 2, · · · , n y Y = y : y = g(x), x ∈
Probabilidad y EstadısticaSegundo Semestre 2005
50 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
X = 0, 1, 2, · · · , n. Para cualquier y ∈ Y, n − x = g(x) = y sı y solo si x = n − y. Ası,
g−1(y) es entonces simplemente el punto x = n− y, y
fY (y) =∑
x∈g−1(y)
fX(x)
= fX(n− y)
=(
n
n− y
)pn−y(1− p)n−(n−y)
=(
n
y
)(1− p)ypn−y
Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y
(1− p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas
simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (x ∈ X : g(x) ≤ y) (2.6)
=∫
x∈X : g(x)≤yfX(x) dx.
Muchas veces resulta difıcil identificar x ∈ X : g(x) ≤ y y resolver la integral de fX(x)
bajo esa region.
Cuando hacemos transformaciones, es importante mantener presente los espacios mues-
trales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,
X = x : fX(x) > 0 y Y = y : y = g(x) para algun x ∈ X. (2.7)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal con-
junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de
Probabilidad y EstadısticaSegundo Semestre 2005
51 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
la distribucion. Este terminologıa puede tambien aplicarse para una fmp o, en general, para
una funcion no negativa.
Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que
satisfacen
a. u > v =⇒ g(u) > g(v) (crecientes) o
b. u < v =⇒ g(u) > g(v) (decrecientes)
Si la transformacion x −→ g(x) es monotona, entonces esta es (1-1) de X −→ Y. Tambien
para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası la
transformacion g unıvocamente manda x´s en y´s. Si g es monotona, g−1 es univaluada,
esto es g−1(y) = x sı y solo sı y = g(x). Si g es creciente, esto implica que
x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≤ g−1(y)
= x ∈ X : x ≤ g−1(y).
Mientras que si g es decreciente, esto implica que
x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≥ g−1(y)
= x ∈ X : x ≥ g−1(y).
Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir
FY (y) =∫
x∈X : x≤g−1(y)fX(x) dx
=∫ g−1(y)
−∞fX(x) dx
= FX(g−1(y)).
Si g(x) es decreciente, se tiene,
FY (y) =∫ g−1(y)
−∞fX(x) dx
= 1− FX(g−1(y)). (aquı fue usada la continuidad de X)
Resumimos estos resultados en el siguiente teorema
Probabilidad y EstadısticaSegundo Semestre 2005
52 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Teorema 2.3.1. Supongamos que X tiene una fda FX(x), sea Y = g(X), X e Y definidos
como en (2.7).
a. Si g es una funcion creciente sobre X , FY (y) = FX(g−1(y)) para y ∈ Y.
b. Si g es una funcion decreciente sobre X y X es una v.a. continua,
FY (y) = 1− FX(g−1(y)) para y ∈ Y.
Ejemplo 2.3.2. Sea X fX(x) = 1.I(0 < x < 1), de donde se tiene X ∼ U(0, 1). Es-
to ultimo se lee ”X con distribucion uniforme en el intervalo (0,1)”. Se pide determinar
FX(x), FY (y), fY (y) si Y = g(X) = −logX.
Se aconseja siempre verificar que, en este caso la fX es una densidad.
Determinacion de FX :
FX(x) =∫ x−∞ fX(t) dt para todo x ∈ R, por definicion,
i. Si x < 0 =⇒ fX(x) = 0 =⇒ FX(x) =∫ x−∞ 0 dt = 0.
ii. Si 0 < x < 1 =⇒ fX(x) = 1 =⇒ FX(x) =∫ 0−∞ 0 dt +
∫ x0 1 dt = 0 + t
]x
0= x.
iii Si x ≥ 1 =⇒ fX(x) = 0 =⇒ FX(x) =∫ 0−∞ 0 dt +
∫ 10 1 dt +
∫ x1 0 dt = 0 + t
]1
0+ 0 = 1.
De donde se tiene,
FX(x) =
0 si x < 0
x si 0 < x < 1
1 si x ≥ 1
Determinacion de FY :
Veamos si g(x) es monotona en el soporte de X, X .
d
dxg(x) = −1
x< 0 , para x ∈ (0, 1) = X ,
de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y definido
como en (2.7), resulta ser Y = (0,∞). Queda calcular la g−1(y) para y ∈ Y = (0,∞); la
cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g−1(y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
FY (y) = 1− FX(g−1(y)) = 1− FX(e−y) = 1− e−y, y ∈ Y = (0,∞)
Probabilidad y EstadısticaSegundo Semestre 2005
53 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Para determinar fY (y) queda diferenciar la fda de Y , ası
fY (y) =d
dyFY (y) = ey (y > 0)
La fdp y la fda de Y respectivamente son:
fY (y) = ey · I(0,∞) , FY (y) =
0 si y ≤ 0
1− e−y si y > 0
Este resultado afirma que si: X ∼ U(0, 1) =⇒ Y = −logX ∼ Exp(1).
Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresion resultante
esta dada por el siguiente teorema
Teorema 2.3.2. Supongamos X v.a. con una fdp fX(x). Sea Y = g(X), donde g es
monotona una transformacion de X; X e Y son respectivamente sus soportes. Suponga
ademas que fX(x) es continua sobre X , y que g−1(y) tiene una derivada continua sobre Y.
Entonces la fdp de Y esta dada por:
fY (y) =
fX(g−1(y))· | ddyg−1(y)) | si y ∈ Y
0 e.o.c.(2.8)
Demostracion: Aplicando al teorema ultimo la regla de la cadena, se tiene
fY (y) =d
dyFY (y) =
d
dyFX(g−1(y)) = fX(g−1(y)) · d
dyg−1(y) g creciente
fY (y) =d
dyFY (y) =
d
dy(1− FX(g−1(y)) = −fX(g−1(y)) · d
dyg−1(y) g decreciente
La cual puede ser expresada en forma consisa como en (2.8).
Ejemplo 2.3.3. Ses fX(x) la fdp de una va. gamma, entonces esta tiene la forma,
fX(x) =1
(n− 1)!βnxn−1 e−x/β · I(0,∞)
β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =
g(X) = 1/X .
Probabilidad y EstadısticaSegundo Semestre 2005
54 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado ultimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monotona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X2.
En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,
donde cada uno de ellos representa el intervalo donde g(x) = x2 es monotona. En general
este sera el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp fX(x), Y = g(X), y se define el so-
porte de X, X . Supongamos que existe una particion A0, A1, . . . , Ak de X , tal que P (X ∈A0) = 0 y fX(x) es continua sobre cada Ai. Ademas, supongase que existen funciones
g1(x), g2(x), . . . , gk(x), definidas sobre A1, . . . , Ak respectivamente, satisfaciendo:
(a) g(x) = gi(x) , para x ∈ Ai
(b) gi(x) es monotona sobre Ai
(c) El conjunto Y = y : y = gi(x) , para algunx ∈ Ai es el mismo para cada i = 1, . . . , k y
(d) g−1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces
fY (y) =
∑ki=0 fX(g−1(y))· | d
dyg−1(y)) | si y ∈ Y0 e.o.c.
El punto mas importante en este teorema es que X puede ser divididos en conjuntos
A1, . . . , Ak, tal que g(x) sea monotona sobre cada Ai. Es posible ignorar el conjunto excep-
cional A0, ya que P (X ∈ A0) = 0. Esta es una tecnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada gi(x) es una transformacion 1− 1
de Ai en Y.
Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces
fX(x) =1√2π
exp−x2/2 ·I(−∞,∞)
Sea Y = X2. Halle fY (y)
Probabilidad y EstadısticaSegundo Semestre 2005
55 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la
transformacion de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda FX(x) y se define la va. Y = FX(x).
Entonces Y ∼ U(0, 1), tal que P (Y ≤ y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a F−1X , la inversa de la fda con algun detalle.
Si FX es estrictamente creciente, entonces F−1X esta bien definida como
F−1X (y) = x ⇐⇒ FX(x) = y (2.9)
Sin embargo, si la fda llega a ser constante en algun intervalo, entonces su inversa no esta bi-
en definida por (2.10).
Cualquier x ∈ [x1, x2], por ejemplo (intervalo donde la FX(x) es constante), satisface
FX(x) = y. Este problema se soluciona, definiendo F−1X (y), para 0 < y < 1, del siguiente
modo,
F−1X (y) = infx : FX(x) ≥ y, (2.10)
esta definicion coincide con de F−1X (y) cuando FX(x) = y no es constante, pero provee una
F−1X siempre univariada
Dem. del teorema:
Para Y = FX(X) = g(X); Y = (0, 1).
P (Y ≤ y) = P (FX(X) ≤ y)
= P (F−1X (FX(X)) ≤ F−1
X (y)) (F−1X creciente)
= P (X ≤ F−1X (y))
= FX(F−1X (y)) (definicion de FX)
= y (continuidad de FX)
En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1,
mostrando ası que Y ∼ U(0, 1)
Probabilidad y EstadısticaSegundo Semestre 2005
56 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
¿Como se razono detras de la igualdad
P (F−1X (FX(X)) ≤ F−1
X (y)) = P (X ≤ F−1X (y))?
esta requiere una particular atencion. Si FX es estrictamente creciente, entonces es ver-
dad que F−1X (FX(X)) = X. Sin embargo, si FX presenta algun escalon, puede suceder que
F−1X (FX(X)) 6= X, pero eso se salva ocupando la definicion para F−1
X con en (2.10).
Una aplicacion de este teorema esta en la generacion de muestras aleatorias provenientes
de una distribucion particular. Si se quiere generar una observacion x proveniente de una
poblacion con fda FX , necesitamos generar solamente el numero aleatorio uniforme u entre
0 y 1, y resolver para x la ecuacion FX(x) = u.
2.4. Valores Esperados
El valor esperado o esperanza de una v.a. X es, su valor promedio. Aquı hablamos de
valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.
El valor esperado de una distribucion, tambien puede ser pensado como una medida de
centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion
de probabilidad, queremos obtener un numero que resuma un valor tıpico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el
perıodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x 1 2 3 4 5 6 7
fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
Probabilidad y EstadısticaSegundo Semestre 2005
57 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Podemos considerar a la poblacion como aquella formada por 15000 personas, cada
una con su propio valor de X (segun la cantidad de materias en las que inscribio en ese
ano academico); la proporcion con cada valor X esta dada por fX(x) de la tabla. Por
ejemplo podrıamos interpretar el valor fX(1) = P (X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Analogamente, fX(2) = P (X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y ası siguiendo, se genera la tabla (2.4)
x 1 2 3 4 5 6 7
fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
No registrado 150 450 1950 3750 5850 2550 300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma
como formada por los valores X.
Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-
lizarlo para calcular valores caracterısticos de esa poblacion (como por ejemplo la media µ)
y hacer inferencias a partir de tales caracterısticas.
Si se quisiera determinar el numero promedio de cursos por estudiante, o el valor prome-
dio de X de la poblacion, debemos calcular el numero total de cursos y dividir entre el
numero total de estudiantes. El valor promedio de X de la poblacion es entonces,
1(150) + 2(450) + 3(1950) + · · ·+ 7(300)15000
= 4,57, (2.11)
como 15015000 = 0,01 = fX(1); 450
15000 = 0,03 = fX(2); . . . , etc., otra expresion para el cociente
(2.11) es:
1 · fX(1) + 2 · fX(2) + 3 · fX(3) + · · ·+ 7 · fX(7) (2.12)
Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,
solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
Probabilidad y EstadısticaSegundo Semestre 2005
58 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresion (2.13), nos conduce la siguiente definicion de valor esperado o media de una
poblacion.
Definicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es
E g(X) =
∫∞−∞ g(x) fX(x) dx si X es continua
∑x∈X g(x) fX(x) =
∑x∈X g(x) P (X = x)) si X es discreta
Suponiendo que la integral o suma existen. Si E | g(X) |= ∞ diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial λ, es decir su fdp
es,
fX(x) =1λ
e−x/λ · I(0 ≤ x < ∞) λ > 0
Se pide encontrar E X
Rta. E X = λ
Ejemplo 2.4.2. Si X tiene una distribucion binomial con parametros n y p, entonces su
fmp es,
P (X = x) =(
n
x
)px (1− p)n−x , x = 0, 1, . . . , n
donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp
suma 1. Determine el valor esperado de X.
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
fX(x) =1π
11 + x2
, −∞ ≤ x ≤ ∞.
Mostrar, entonces que E | g(X) |= ∞.
Probabilidad y EstadısticaSegundo Semestre 2005
59 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
El proceso de tomar esperanza es una operacion lineal, lo cual significa que la esperanza
es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX + b) = aE X + b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayorıa de tales propiedades se derivan de las propiedades de la integral o la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1(X), g2(X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag1(X) + bg2(X) + c) = aE (g1(X)) + bE (g2(X)) + c.
(b) Si g1(x) ≥ 0, ∀x =⇒ E (g1(X)) ≥ 0.
(c) Si g1(x) ≥ g2(x), ∀x =⇒ E (g1(X)) ≥ E (g2(X)).
(d) Si a ≤ g1(x) ≥ b, ∀x =⇒ a ≤ E (g1(X)) ≥ b.
Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con
relacion a considerarla como un ”buen acierto”para el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X − b)2, o sea buscamos el valor de b mas cercano a X. Podemos ası, determinar el
valor de b que minimiza E(X − b)2 y, por lo tanto esto podrıa interpretarse en terminos
estadısticos como la busqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X − b)2, ya que la respuesta podrıa depender de X, siendo ası un
predictor inutil de X).
Podrıamos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el
calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en
relacion con este problema y la E X, ası escribimos
E(X − b)2 = E(X −E X + E X − b)2
= E((X − E X) + (E X − b))2
= E(X −E X)2 + (E X − b)2 + 2E((X −E X)(E X − b)),
Probabilidad y EstadısticaSegundo Semestre 2005
60 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
en esta ultima igualdad hemos expandido el cuadrado. Ahora note que
E((X −E X)(E X − b)) = (E X − b)E(X − E X) = 0
ya que (E X − b) es constante sale fuera de la expresion, y E(X −E X) = E X −E X = 0.
Esto significa que
E(X − b)2 = E(X −E X)2 + (E X − b)2. (2.13)
No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el
segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mınb
E(X − b)2 = E(X − E X)2 (2.14)
Existe un resultado similar para la mediana.
Cada vez que evaluemos la esperanza de una funcion no lineal de X, podemos proceder de
dos maneras diferentes. De la definicion de E g(X), serıa posible calcular directamente
E g(X) =∫ ∞
−∞g(x)fX(x) dx. (2.15)
Pero tambien podrıamos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego
calcular
E g(X) = E Y =∫ ∞
−∞y fY (y) dy. (2.16)
Ejemplo 2.4.5. Sea X ∼ U(0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5. Momentos y Funciones Generadoras de Mo-
mentos
Los distintos momentos de una distribucion son una importante clase de esperanzas.
Definicion 2.5.1. Para cada entero n, el n-esimo momento de X (o de FX(x)), notado
µ′n, es
µ′n = E Xn.
Probabilidad y EstadısticaSegundo Semestre 2005
61 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
El n-esimo momento central de X, es
µn = E (X − µ)n ,
donde µ = µ′ = E X
Ademas de la media, E X, de una va., quiza el momento mas importante es el central
de segundo orden, mas comunmente conocido como la varianza.
Definicion 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X − E X)2. La raız cuadrada positiva de la V ar X se denomina desviacion estandar de
X.
La varianza de una medida del grado de diseminacion de una distribucion alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X− b)2 es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mınimo. La interpretacion agregada
a la varianza es que valores grandes de la misma, significan que X es muy variable. En
el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no
existe variacion en X. La desviacion estandar tiene la misma interpretacion cualitativa:
pequenos valores de la misma significan que X esta probablemente muy cerca de E X, y
grandes valores significa que X es muy variable. La desviacion estandar es mas facil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone
ahora calcular V ar X.
Rta.: V ar X = λ2
Vemos que la varianza de una distribucion exponencial esta directamente relacionada
con el parametro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando
los valores de λ. De esta manera sera posible notar como la distribucion esta mas concentrada
alrededor de su media para valores pequenos de λ. El comportamiento de la varianza de
una va. exponencial, como una funcion de λ, es una caso especial del comportamiento de la
varianza resumido en el siguiente teorema,
Probabilidad y EstadısticaSegundo Semestre 2005
62 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de con-
stantes a, b se cumple,
V ar(aX + b) = a2V ar X.
En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,
V ar X = E X2 − (E X)2, (2.17)
la cual es muy facil de demostrar.
Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1− p)
Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-
ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen
razones estadısticas para examinar momentos de orden mas algo que 2.
Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de
probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Definicion 2.5.3. Sea X una va. con fda. FX . La funcion generadora de momentos (fgm)
de X (o FX) , denotada por MX(t) ,es
MX(t) = E et X ,
suponiendo que la esperanza exista para valores de t en algun entorno del 0. Esto es, existe
un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Probabilidad y EstadısticaSegundo Semestre 2005
63 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Mas explıcitamente, podemos escribir la fgm de X como
MX(t) =∫∞−∞ et x fX(x) dx Si X es continua
MX(t) =∑
x∈X et x fX(x) Si X es discreta
Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm MX(t), entonces
E Xn = M(n)X (0),
donde se define
M(n)X (0) =
dn
dtnMX(t)|t=0 .
Es decir el n-esimo momento de la va. X es igual a la n-esima derivada de la fgm de X
evaluada en t = 0
Del teorema ultimo anterior es facil mostrar que,
d
dtMX(t)|t=0 = E X et X |t=0 = E X.
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
fX(x) =1
Γ(α)βαxα−1 e−x/β , 0 < x < ∞, α > 0, β > 0,
donde Γ(α) representa la funcion gamma. Determinar la MX(t) para esta va.
Rta.: MX(t) =(
11−βt
)αsi t < 1
β .
Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-
tribucion discreta, la distribucion binomial. Si X ∼ Bin(n, p), determina la fgm de X
Rta.: MX(t) = [pet + (1− p)]n.
Podrıa ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-
mentos, e.d.,
X1 ∼ f1 , X2 ∼ f2 con f1 6= f2,
Probabilidad y EstadısticaSegundo Semestre 2005
64 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
pero tal que E Xr1 = E Xr
2 r = 0, 1, . . ..
Querrıamos tener condiciones para poder caracterizar las distribuciones con iguales momen-
tos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su
fgm.
Teorema 2.5.3. Sean FX(x), FY (y) dos fda tales que sus momentos existen
(a) Si FX y FY tienen soporte acotado, entonces FX(u) = FY (u) sı y solo sı
E Xr = E Y r r = 0, 1, . . ..
(b) Si las fgm existen y se cumple MX(t) = MY (t) para todo t en algun entorno del 0,
entonces FX(u) = FY (u) ∀u.
La demostracion de este teorema recae en las teorıa de las ”transformaciones de Laplace”(ver
Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada
por
MY (t) = MaX+b (t) = eb t MX(at).
Probabilidad y EstadısticaSegundo Semestre 2005
65 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
2.6. Ejercicios
2.1 De un lote que contiene 25 artıculos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el numero de defectuosos encontrados. Obtener la distribucion de probabili-
dades de X si,
(a) los artıculos se escogen con sustitucion
(b) los artıculos se escogen sin sustitucion.
2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =
1, 2, . . .
(a) Calcular P (Xsea par ).
(b) Calcular P (X ≥ 5).
(c) Calcular P (Xes divisible por 3)
2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =
j) = (1− a) aj , j = 0, 1, . . .
(a) ¿Para que valores a es significativo el modelo anterior?
(b) Verificar que la anterior representa una legıtima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P (X < s + t | X > s) = P (X ≥ t).
2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. fX(x) = be−bx I (x ≥ 0). Sea
pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1− a) aj y determine a.
2.5 La v.a. continua X tiene f.d.p. fX(x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un numero que
satisface −1 < b < 0, calcular P (X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: fX(x) = 20x3(1− x)I(0 < x < 1).
Probabilidad y EstadısticaSegundo Semestre 2005
66 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
(a) Obtener una expresion para fda, FX y dibujar su grafico.
(b) Calcular la P (X ≤ 23).
(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.
Especıficamente, si 13 < X < 2
3 , el compuesto se vende por C1 dolares/galon.
Encontrar la distribucion de probabilidades de la utilidad neta por galon.
2.7 Supongase que X esta distribuida uniformemente en [−α, α], en donde α > 0. Cada
vez que sea posible determinar α de modo que se satisfaga lo siguiente:
(a) P (X > 1) = 13 (b) P (X > 1) = 1
2 (c) P (X > 12) = 0,7
(d) P (X > 12) = 0,3 (e) P (| X |< 1) = P (| X |> 1).
2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX(x) = 42x5(1− x), 0 < x < 1; Y = X3.
(b) fX(x) = 7e7x, 0 < x < ∞; Y = 4X + 3.
2.9 Si X tiene fdp
fX(x) =1σ2
xe−(x/σ2)/2 · I(0,∞), σ2 es una constante positiva
Determine la fdp de Y = eX .
2.10 Suponga que X tiene una distribucion geometrica con fmp dada por fX(x) = 13(2
3)x , x =
0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especificar la distribucion de probabilidad
de Y , especifique su fmp.
2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX(x) = 12 e−|x|, −∞ < x < ∞; Y =| X |3 .
(b) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2.
(c) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2 si X ≤ 0 e Y = 1−X si X > 0.
Probabilidad y EstadısticaSegundo Semestre 2005
67 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
2.12 Suponga que X es una va. con la siguiente funcion de densidad
fX(x) =12(1 + x) · I(−1, 1).
(a) Encuentre la fdp. de Y = X2 (b) Encuentre la E X y la V arX
2.12 Una mediana de una distribucion es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 .
(Si X es continua, m satisface∫ m−∞ fX(x)dx =
∫∞m fX(x)dx = 1
2 .). Encuentre la
mediana de las siguientes distribuciones
(a) fX(x) = 3x2 · I(0, 1) (b) fX(x) = 1π(1+x2)
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) fX(x) = axa−1 0 < x < 1, a > 0
(b) fX(x) = 1n x = 1, 2, . . . , n; n > 0 entero
(c) fX(x) = 32(x− 1)2, 0 < x < 2
2.14 Sea µn el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas
a la media y la varianza son,
α3 =µ3
(µ2)3/2y α4 =
µ4
(µ2)2.
El valor α3 es llamado coeficiente de asimetrıa, y el α4 es llamado de curtosis. La
medida de asimetrıa se refiere a cuanto se aparta la forma de la distribucion simetrica
la fdp. La curtosis, aunque mucho mas difıcil de interpretar que la asimetrıa, mide
cuanta forma de punta o chata tiene la fdp.
(a) Muestre que si la fdp es simetrica alrededor de un punto a, entonces α3 = 0.
(b) Calcule α3 para f(x) = e−x , x ≥ 0, una fdp que tiene asimetrıa a la derecha.
(c) Calcule α4 para cada una de las siguientes fdp.
(i) f(x) = 1√2π
e−x2/2, −∞ < x < ∞
(ii) f(x) = 12 · I(−1, 1)
(iii) f(x) = 12e−|x| ,−∞ < x < ∞
Probabilidad y EstadısticaSegundo Semestre 2005
68 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
2.15 Sea MX(t) la fgm de una va. X, y se define S(t) = log(MX(t)). Muestre que,
d
dtS(t)|t=0 = E X
d2
dt2S(t)|t=0 = V ar X.
2.16 En cada uno de los siguientes casos verifique que la expresion dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P (X = x) = e−λλx
x! , MX(t) = eλ(et−1) , x = 0, 1, 2, . . . ; λ > 0
(b) P (X = x) = p(1− p)x , MX(t) = p1−(1−p)et , x = 0, 1, 2, . . . ; 0 < p < 1
(c) f(x) = e−(x−µ)2/(2σ2)√2πσ
, MX(t) = eµt+σ2t2/2, −∞ < x < ∞, −∞ < µ < ∞, σ > 0
2.17 Determinar E X4 para X ∼ N(0, 1) [use que ϕ′(x) = xϕ(x)].
2.18 Teorema: [Convergencia de fgm]: Suponga que Xi, i = 1, 2, . . . es una secuencia
de va., cada una con fgm MXi(t). Ademas suponga que
lımi−→∞
MXi(t) = MX(t) para todo t en un entorno de 0,
y MX(t) es una fgm. Entonces existe una unica fda FX , cuyos momentos son deter-
minados por MX(t)y, para todo x donde FX(x) es continua, se tiene
lımi−→∞
FXi(x) = FX(x).
Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda
respectiva.1
Una aproximacion muy util es la de la distribucion Binomial a la distribucion de
Poisson. La distribucion binomial esta caracterizada por dos cantidades, n y p. La
aproximacion de Poisson es valida cuando ”n es grande y np pequeno”.
La fmp de una va. con distribucion de Poisson esta dada por
P (X = x) =e−λλx
x!, x = 0, 1, . . . , λ > 0.
La aproximacion afirma que si X ∼ Bin(n, p) e Y ∼ Po(λ), con λ = np, entonces
P (X = x) ≈ P (Y = x)
para n grande y np pequeno.
1La demostracion de este teorema tambien recae sobre la teorıa de transformadas de Laplace
Probabilidad y EstadısticaSegundo Semestre 2005
69 Prof.Mg. Osmar Vera
Probabilidad y Estadıstica
Se te pide demostrar esta afirmacion siguiendo los siguientes pasos:
(a) Encontrar MX(t), MY (t)
(b) Reemplazar p = λn en MX(t)
(c) Calcular el lımn−→∞ MX(t), observando que su resultado es justamente MY (t)
la fgm de la Poisson.
(d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de
una Bin(15, 0,3) y de una Po(4,5); observe el resultado del teorema.
Probabilidad y EstadısticaSegundo Semestre 2005
70 Prof.Mg. Osmar Vera