Cap¶‡tulo 2 Variables aleatorias - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos...

Capıtulo 2

Variables aleatorias

2.1. Introduccion

En muchos experimentos resulta mas facil manejarse con una variable resumen que

con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,

podrıamos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta

cosa. Si usaramos un 1 para el que contesta ”me agrada 2un o para el que contesta

”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada

uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1

o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de

alguna manera razonable. Esto podrıa hacerse si, por ejemplo, nos interesa solamente

el numero de personas a quienes les agrada (o equivalentemente, les desagrada) de

entre los 50 entrevistados. Nos podrıa interesar calcular, por ejemplo, la probabilidad

de que les agrade a la mitad, o a la tercera parte; y ası definir la cantidad X =

numeros de 1´s encontrados entre los 50, de esta manera tendrıamos capturada la

esencia del problema.

Ahora el espacio muestral que recorre X es el conjunto 0, 1, 2, . . . , 50, el cual es

35

Probabilidad y Estadıstica

mucho mas facil de manejar que el original. Para definir esta cantidad X es necesario

definir una funcion del espacio muestral original, Ω, a un nuevo espacio, usualmente

el conjunto de los numeros reales. En general se tiene la siguiente

Definicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral Ω en

los numeros reales.

Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implıcita-

mente. Veamos algunos ejemplos en la siguiente tabla:

Experimentos Variable Aleatoria

Arrojar dos dados X = suma de los numeros obtenidos

Arrojar una moneda 25 veces X = numero de caras obtenidas en los 50 tiros

Aplicar diferentes tipos de fertilizantes

a grupos de plantas X = rendimiento por acre

En la definicion de v.a. tenemos definido un nuevo espacio muestral (el rango o recorrido

de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual

esta definida sobre el espacio muestral original, puede ser usada para la v.a.

Supongamos que se tiene el siguiente espacio muestral:

Ω = ω1, ω2, . . . , ωn

con una funcion de probabilidad P , y definimos una v.a. X con un rango en X = x1, x2, . . . , xn.Definiremos una funcion de probabilidad PX sobre X del siguiente modo:

PX(X = xi) = P (ωj ∈ Ω /X(ωj) = xi) (2.1)

Note que la funcion PX a la izquierda del igual en (2.1) es una funcion de probabilidad

inducida por X , definida en terminos de la probabilidad original P . La igualdad (2.1) for-

malmente define una funcion de probabilidad, PX , para la v.a. X. Por supuesto que se

debera verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-

cio. Como son equivalentes, simplemente (2.1) se escribira como P (X = xi) en lugar de

PX(X = xi)

Probabilidad y EstadısticaSegundo Semestre 2005

36 Prof.Mg. Osmar Vera


Notacion Variables aleatorias siempre seran denotadas por letras imprenta mayusculas

tales como, X, Y , Z, X1, X2, Y1, etc; y los valores de su realizacion (o su rango) con su

correspondiente letra minuscula. Ası, la v.a. X diremos que puede tomar el valor x.

Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos

la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:

ω X(ω)

CCC 3

CCS 2

CSC 2

SCC 2

CSS 1

SCS 1

SSC 1

SSS 0

El rango de valores de la v.a. X es X = 0, 1, 2, 3. Asumiendo equiprobabilidad, se

tiene P (ω) = 1/8 ∀ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla:

x PX (X = x)

0 1/8

1 3/8

2 3/8

3 1/8

Por ejemplo PX(X = 1) = P (CSS, SSC, SCS) = 38 .

Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamano 50 formado por 1´s y 0´s.

Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = 0, 1, 2, . . . , 50.Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obteni-

da contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral

original. Como cada cadena es igualmente probable, tenemos que

P (X = 27) =Nro. de cadenas con 27 1´s

Nro. total de cadenas=

(5027

)

250.




En general

PX(X = i) =

(50i

)

250

Estos ejemplos anteriores tienen un Ω y un X finito. Tambien X podrıa ser numerable.

Si X no es numerable, tambien es posible definir la funcion de probabilidad inducida PX de

forma similar a la anterior:

Para A ⊂ X ,

PX(X ∈ A) = P (ω ∈ Ω /X(ω) ∈ A).

Esta tambien define legıtimamente una funcion de probabilidad que cumple con los

axiomas de Kolmogorov.

2.2. Funciones de Distribucion

Con toda v.a. X, tenemos asociada una funcion llamada funcion de distribucion

acumulativa de X, dicha tambien f.d.a.

Definicion 2.2.1. La f.d.a. de una v.a. X, denotada por FX(x), se define por:

FX(x) = PX(X ≤ x) ∀x ∈ R

Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa

la cantidad de caras obtenidas. Determinemos FX(x)

x < 0 =⇒ FX(x) = PX(X ≤ x) = 0

0 ≤ x < 1 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) = 1/8

1 ≤ x < 2 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) = 1/2

2 ≤ x < 3 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8

x ≥ 3 =⇒ FX(x) = 1Finalmente, la funcion de distribucion asociada a X es,

FX(x) =

0 si x < 0

1/8 si 0 ≤ x < 1

1/2 si 1 ≤ x < 2

7/8 si 2 ≤ x < 3

1 si x ≥ 3




Le proponga al lector que grafique esta funcion, obtendra un grafico en R2 con las siguientes

caracterısticas:

(a) FX(x) esta definida ∀x, no solamente en X . Por ejemplo: FX(2,5) = 7/8

(b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi).

(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3.

(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la

funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad

a la derecha. Simbolicamente se tiene:

lımx−→x+

i

FX(x) = FX(xi) si xi ∈ X

Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se

piensa que estan definidas en terminos de probabilidad.

Teorema 2.2.1. La funcion F(x) es una f.d.a. sı y solo sı las siguientes tres condiciones

se cumplen:

(a)

lımx−→−∞ F (x) = 0 ∧ lım

x−→∞ F (x) = 1

(b) F (x) es no decreciente como funcion de x.

(c) F (x) es continua a la derecha, esto es:

lımx−→x+

0

F (x) = F (x0) ∀x0.

Prueba:

Para probar la condicion necesaria, basta escribir F (x) en terminos de la funcion de prob-

abilidad. Para la suficiencia o sea, que si una funcion F satisface las tres condiciones del

teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),

deberıamos establecer que existe un espacio muestral Ω, una funcion de probabilidad P

sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X.




Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas

veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener

cara en cualquier lanzamiento.

Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su

f.d.a.

X = 1, 2, 3, . . ., entonces para x = 1, 2, . . . ,

P (X = x) = (1− p)x−1p ,

ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, ademas los eventos

ocurren de manera independiente. Para cualquier entero positivo x se tiene,

FX(x) = P (X ≤ x) =x∑

i=1

P (X = i) =x∑

i=1

(1− p)i−1 p , x = 1, 2, . . .

recordar que la suma parcial de una serie geometrica es

n∑

k=1

tk−1 =1− tn

1− t, t 6= 1 (2.2)

Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-

abilidad, encontramos que la f.d.a. de nuestra v.a. X es

FX(x) = P (X ≤ x)

=1− (1− p)x

1− (1− p))p

= 1− (1− p)x , x = 1, 2, . . .

La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se

sugiere dibujar esta funcion, por ejemplo para p = 0,3.

Es facil mostrar que 0 < p < 1 para que FX(x) satisfaga las condiciones del teorema (2.2.1).

lımx−→−∞ FX(x) = 0, ya que FX(x) = 0 ∀x < 0 y

lımx−→∞ FX(x) = lım

x−→∞ [1− (1− p)x] = 1.




Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funcion

FX(x) =1

1 + exp−x,

la cual satisface las condiciones de teorema (2.2.1).

Por ejemplo,

lımx−→−∞ FX(x) = 0, ya que lım

x−→−∞ exp−x = ∞

y

lımx−→∞ FX(x) = 1, ya que lım

x−→∞ exp−x = 0

Si derivamos FX(x) una vez, tenemos

d

dxFX(x) =

exp−x

(1 + exp−x)2> 0 ,

mostrando que FX es creciente como funcion de x. FX no solamente es continua a la derecha.

Sino tambien continua. Este es un caso especial de la llamada distribucion logıstica.

Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.

que sea continua o no. En efecto, la asociacion nos conduce a la siguiente definicion,

Definicion 2.2.2. Una v.a. X es continua se FX(x) es una funcion continua de x. Una

v.a. X es discreta de FX(x) es una funcion dada a trozos con respecto a x.

Necesitamos definir la nocion de cuando dos v.a. son identicamente distribuidas.

Definicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para

cualquier conjunto A, P (X ∈ A) = P (Y ∈ B)

Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.

Esto es, la definicion ultima anterior no dice que X = Y .

Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres

veces. Definimos las v.a. X e Y como sigue,

X = numero de caras obtenidas

Y = numero de cecas obtenidas




La distribucion de X esta dada en el ejemplo (2.1.2), y se verifica facilmente que

la distribucion de Y es exactamente la misma; esto significa que para valores de k =

0, 1, 2, 3 P (X = k) = P (Y = k). Ası, X e Y estan identicamente distribuidas, sin em-

bargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y .

Igual distribucion de v.a., no implica igualdad en las v.a.

Teorema 2.2.2. Las siguientes afirmaciones son equivalentes:

(a) Las v.a. X e Y estan identicamente distribuidas

(b) FX(x) = FY (x) para cada x.

Prueba:

Para mostrar la equivalencia, debemos demostrar que cada afirmacion implica la otra.

Veamos que (a) =⇒ (b).

Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,

P (X ∈ A) = P (Y ∈ B).

En particular, para el conjunto (−∞, x] se tiene

P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) ∀x.

Pero esta ultima igualdad es equivalente a:

P (X ≤ x) = P (Y ≤ x) ∀x,

o que FX(x) = FY (x) para cada x.

La implicacion inversa, (b) =⇒ (a) es mucho mas difıcil de probar. Para mostrarla se requiere

usar una baterıa pesada de σ- algebras de Borel. No entraremos aquı en mas detalles. Es

suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar

que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para

mas detalles ver Chung,1977).




2.2.1. Densidad y Funciones de masa

Asociada con una v.a.X y su f.d.a. FX(x) existe otra funcion, llamada segun corresponda:

funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).

Los terminos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.

Ambas funciones esta relacionadas con probabilidades puntuales de v.a.

Definicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-

da por:

fX(x) = P (X = x) , ∀x.

Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,

fX(x) = P (X = x) =

(1− p)x−1 p si x = 1, 2, . . .

0 en otro caso

Recordar que fX(x) o equivalentemente P (X = x) es la medida del salto de la f.d.a. en

x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente

sumar sobre todos los puntos de un evento en forma apropiada.

Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos,

P (a ≤ X ≤ b) =b∑

k=a

fX(k) =b∑

k=a

(1− p)k−1p.

Ası, se puede conseguir con esto un caso especial

P (X ≤ b) =b∑

k=1

fX(k) = FX(b).

Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de

anotar con letras imprentas mayusculas las f.d.a.´s; y con la correspondiente minuscula la

f.m.p. o la f.d.p. respectiva.

Debemos tener un poco mas de cuidado en nuestra definicion de f.d.p. en el caso continuo.

Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos

lo siguiente: ya que X = x ⊂ x− ε < X ≤ x para cualquier ε > 0, nosotros tendremos

a partir del teorema (1.2.1) parte f. que,

P (X = x) ≤ P (x− ε < X ≤ x) = FX(x)− FX(x− ε),




para cualquier ε > 0. Por lo tanto,

0 ≤ P (X = x) ≤ lımx−→ε+

[FX(x)− FX(x− ε)] = 0,

por la continuidad de FX . Sin embargo, si nosotros comprendemos el proposito de la f.d.p.,

su definicion sera clara.

Definicion 2.2.5. La funcion de densidad de probabilidad o f.d.p., fX(x), de una v.a.

continua X es la funcion que satisface:

FX(x) =∫ x

−∞fX(x) dt para todo x. (2.3)

Una nota sobre notacion: La expresion ”X tiene una distribucion dada por FX(x)”se

abrevia simbolicamente por ”X ∼ FX(x)”, donde leemos el sımbolo ”∼como ”esta distribui-

do como”. Tambien podremos en forma similar escribir X ∼ fX(x) o, si X e Y tienen la

misma distribucion, X ∼ Y .

En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificacion de incluir

o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0

si X es una v.a. continua,

P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).

En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion

que la f.d.a. Segun sea el caso se puede ocupar una u otra para resolver problemas, de

acuerdo si facilita o no su resolucion.

Ejemplo 2.2.6. Para la distribucion logıstica dada en el ejemplo anterior. Se pide, deter-

minar su f.d.p. y determinar una metodologıa para calcular la P (a < X < b)

Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto

fx(x) =d

dxFX(x) =

exp−x

(1 + exp−x)2.

El area bajo la curva fx(x) dado un intervalo de probabilidad (ver Figura 2.1) es:




Figura 2.1: Area bajo la curva logistica

P (X ∈ [a, b]) = FX(b)− FX(a) =∫ b

−∞fX(x) dx−

∫ a

−∞fX(x) dx =

∫ b

afX(x) dx.

Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas

consecuencias de la definicion.

Teorema 2.2.3. Una funcion fX(x) es una f.d.p. (o una f.m.p.) de una variable aleatoria

X si y solo sı

(a) fX(x) ≥ 0 ∀ x.

(b)∑

x fX(x) = 1 (f.m.p.) o∫ +∞−∞ fX(x) dx = 1 (f.d.p.).

Prueba:

Si fX(x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las definiciones.

En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,

1 = lımx−→∞ FX(x) =

∫ +∞

−∞fX(t) dt.




La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene fX(x) podemos

definir FX(x) y recurrir al Teorema 2.2.1.

Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el pun-

taje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =

maxX1, X2. Determinar la f.m.p y la f.d.a. de la v.a. X

X ≤ x ⇐⇒ maxX1, X2 ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x.

La ultima igualdad se deduce de la definicion de maximo!.

∴ X ≤ x es equivalente a,

X1 ≤ x ∩ X2 ≤ x.

Al estar suponiendo que los dados se lanzan de manera independiente, resulta que

P (X ≤ x) = P [X1 ≤ x ∩ X2 ≤ x]

= P (X1 ≤ x) · P (X2 ≤ x).

Si suponemos que los dados son equilibrados , se tiene que

P (X1 = l) = P (X2 = l) =16

con l = 1, . . . , 6.

Luego,

P (Xi ≤ x) =x∑

l=1

P (Xi = l) =x

6x = 1, 2, . . . , 6, i = 1, 2.

Finalmente,

P (X ≤ x) =x2

36, x = 1, . . . , 6.

Siendo esta su f.d.a.. Pero

P (X = x) = P (X ≤ x)− P (X ≤ x− 1

=x2

36− (x− 1)2

36=

2x− 16

, x = 1, . . . , 6.




Siendo esta su f.m.p

• ¿Que ocurre si lanzamos ahora infinitamente el dado en forma independiente?

Si razonamos como en la parte ultima anterior del ejemplo, sea Si el puntaje obtenido

en el i-esimo lanzamiento, i=1,. . . ,k.

Nos interesa la v.a. Y = ”el puntaje maximo obtenido”:

Y = max S1, S2, . . . ,k .

Por definicion del maximo, Y ≤ y es equivalente a,

S1 ≤ y ∩ S2 ≤ y ∩ . . . ∩ Sk ≤ y.

Luego, usando la independencia de los lanzamientos, se obtiene que

P (Y ≤ y) =k∏

i=1

P (Si ≤ y) =(y

6

)k, y = 1, . . . , 6.

Finalmente, para y = 1, 2, . . . , 6,

P (Y = y) = P (Y ≤ y)− P (Y ≤ y − 1) =16k

[yk − (y − 1)k].

Calcular la probabilidad de que el maximo valor leıdo sea un valor y en infinitos lanzamien-

tos, corresponde a tomar

lımk−→∞

P (Y = y).

Para calcular este lımite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-

alente como

P (Y = y) =yk

6k

[1−

(y − 1y

)k].

Al tomar lımite se obtiene:

lımk−→∞

P (Y ≤ y) =

0 si y < 6

1 si y = 6

Esto significa que en un numero infinito de lanzamientos, la probabilidad de obtener un

puntaje maximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje

igual a 6 es uno!!!.




Ejemplo 2.2.8. Probar que la funcion dada por

fX(x) =1√2π

exp−x2/2 . (2.4)

es una funcion de densidad de probabilidad

En efecto, obviamente fX(x) > 0. Para verificar que es una densidad, falta comprobar

que∫∞−∞ fX(x) dx = 1.

Sea a =∫∞−∞ e−x2/2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que

a2 =∫ ∞

−∞e−x2/2 dx ·

∫ ∞

−∞e−y2/2 dy =

∫ ∞

−∞

∫ ∞

−∞e−(x2+y2)/2 dx dy;

y tomando, en la integral doble, coordenadas polares (r, φ) queda

a2 =∫ 2π

0dφ

∫ ∞

0e−r2/2 r dr = 2π.

Esta densidad se define como la densidad normal tıpica (o estandar), y se la anota con la

letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la

densidad de una v.a. con distribucion Normal estandar, definida por (2.4).

Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por

f(x) =

kx si 0 < x < 1

0 en otro caso

Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.

Nota ¡fX(x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo

P (X = 0,5) = 0, y por lo tanto fX(0,5) no la representa. Solo cuando la funcion se integra

entre dos lımites produce una probabilidad. Sin embargo, es posible dar una interpretacion

de 4x fX(x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce

que

P (x ≤ X ≤ x +4x) =∫ x+4x

xfX(s) ds = 4x fX(ξ) , x ≤ ξ ≤ x +4x.

Si 4x es pequeno, 4x fX(x) es aproximadamente igual a P (x ≤ X ≤ x +4x). Si fX es

continuo por la derecha, esta llega a ser mas segura cuando 4x −→ 0.




2.3. Transformaciones y Esperanzas

A menudo, si nosotros somos capaces de modelar un fenomeno en terminos de la va X

con una FX(x), tambien tendremos la relacion con la conducta de funciones de X. En esta

seccion estudiaremos tecnicas que nos permitiran ganar informacion acerca de funciones de

X que podrıan ser de interes, que puede ir desde ser completa (las distribuciones de esas

funciones) a muy vaga (la conducta del promedio).

2.3.1. Distribuciones de funciones de una Variable Aleatoria

Si X es una v.a. con fda FX(x), entonces cualquier funcion de X, digamos g(X), es

tambien una v.a.. A menudo g(X) es de interes en sı misma y escribiremos Y = g(X) para

denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su

conducta probabilıstica, en terminos de la de X. Esto es, para cualquier conjunto A,

P (Y ∈ A) = P (g(X) ∈ A) ,

esto muestra que la distribucion de Y depende de las funciones FX y g. Dependiendo de

la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de

esta probabilidad.

Formalmente, si nosotros escribimos y = g(x), la funcion g(x) define una mapeo del espacio

muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto

es,

g(x) : X −→ Y.

Es posible asociar con g un mapeo inverso, denotado por g−1, el cual es un mapeo prove-

niente de subconjuntos de Y a subconjuntos de X , y esta definido por

g−1 (A) = x ∈ X : g(x) ∈ A.

Note que el mapeo g−1 esta definido de conjuntos en conjuntos, esto es, g−1(A) es el conjunto

de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto




formado por un solo punto, digamos A = y. Entonces

g−1 (y) = x ∈ X : g(x) = y.

En este caso casi siempre se escribe g−1(y) en lugar de g−1 (y). Sin embargo, la cantidad

g−1(y) puede aun ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay

solamente un valor de x para el cual g(x) = y, entonces g−1(y) en el conjunto unitario x,y escribiremos g−1(y) = x.

Si la v.a. Y esta definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y,

P (Y ∈ A) = P (g(X) ∈ A)

= = P (x ∈ X : g(x) ∈ A) (2.5)

= P (X ∈ g−1(A)).

Esta define la distribucion de probabilidades de Y . Serıa justo mostrar que esta distribucion

de probabilidad satisface los Axiomas de Kolmogorov.

Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es

Y = y : y = g(x), x ∈ X, el cual tambien es un conjunto numerable; con lo cual Y es una

v.a discreta. Usando (2.5), la fmp de Y es

fY (y) = P (Y = y) =∑

x∈g−1(y)

P (X = x) =∑

x∈g−1(y)

fX(x), para y ∈ Y ,

y fY (y) = 0 para y /∈ Y. En este caso para encontrar la fmp de Y solo es necesario identificar

g−1(y), para cada y ∈ Y y sumar apropiadamente las probabilidades.

Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la

forma

fX(x) = P (X = x) =(

n

x

)px(1− p)n−x , x = 0, 1, . . . , n ,

donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) =

n− x

Valores como n y p que al tomar diferentes valores producen diferentes funciones de

probabilidad, se llaman parametros de la distribucion. Consideremos la va. Y = g(X),

donde g(x) = n−x. Esto es Y = n−X. Aquı X = 0, 1, 2, · · · , n y Y = y : y = g(x), x ∈




X = 0, 1, 2, · · · , n. Para cualquier y ∈ Y, n − x = g(x) = y sı y solo si x = n − y. Ası,

g−1(y) es entonces simplemente el punto x = n− y, y

fY (y) =∑

x∈g−1(y)

fX(x)

= fX(n− y)

=(

n

n− y

)pn−y(1− p)n−(n−y)

=(

n

y

)(1− p)ypn−y

Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y

(1− p).

Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas

simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos

de estos casos.

La fda de Y = g(X) es

FY (y) = P (Y ≤ y)

= P (g(X) ≤ y)

= P (x ∈ X : g(x) ≤ y) (2.6)

=∫

x∈X : g(x)≤yfX(x) dx.

Muchas veces resulta difıcil identificar x ∈ X : g(x) ≤ y y resolver la integral de fX(x)

bajo esa region.

Cuando hacemos transformaciones, es importante mantener presente los espacios mues-

trales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando

hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,

X = x : fX(x) > 0 y Y = y : y = g(x) para algun x ∈ X. (2.7)

La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal con-

junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de




la distribucion. Este terminologıa puede tambien aplicarse para una fmp o, en general, para

una funcion no negativa.

Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que

satisfacen

a. u > v =⇒ g(u) > g(v) (crecientes) o

b. u < v =⇒ g(u) > g(v) (decrecientes)

Si la transformacion x −→ g(x) es monotona, entonces esta es (1-1) de X −→ Y. Tambien

para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası la

transformacion g unıvocamente manda x´s en y´s. Si g es monotona, g−1 es univaluada,

esto es g−1(y) = x sı y solo sı y = g(x). Si g es creciente, esto implica que

x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≤ g−1(y)

= x ∈ X : x ≤ g−1(y).

Mientras que si g es decreciente, esto implica que

x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≥ g−1(y)

= x ∈ X : x ≥ g−1(y).

Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir

FY (y) =∫

x∈X : x≤g−1(y)fX(x) dx

=∫ g−1(y)

−∞fX(x) dx

= FX(g−1(y)).

Si g(x) es decreciente, se tiene,

FY (y) =∫ g−1(y)

−∞fX(x) dx

= 1− FX(g−1(y)). (aquı fue usada la continuidad de X)

Resumimos estos resultados en el siguiente teorema




Teorema 2.3.1. Supongamos que X tiene una fda FX(x), sea Y = g(X), X e Y definidos

como en (2.7).

a. Si g es una funcion creciente sobre X , FY (y) = FX(g−1(y)) para y ∈ Y.

b. Si g es una funcion decreciente sobre X y X es una v.a. continua,

FY (y) = 1− FX(g−1(y)) para y ∈ Y.

Ejemplo 2.3.2. Sea X fX(x) = 1.I(0 < x < 1), de donde se tiene X ∼ U(0, 1). Es-

to ultimo se lee ”X con distribucion uniforme en el intervalo (0,1)”. Se pide determinar

FX(x), FY (y), fY (y) si Y = g(X) = −logX.

Se aconseja siempre verificar que, en este caso la fX es una densidad.

Determinacion de FX :

FX(x) =∫ x−∞ fX(t) dt para todo x ∈ R, por definicion,

i. Si x < 0 =⇒ fX(x) = 0 =⇒ FX(x) =∫ x−∞ 0 dt = 0.

ii. Si 0 < x < 1 =⇒ fX(x) = 1 =⇒ FX(x) =∫ 0−∞ 0 dt +

∫ x0 1 dt = 0 + t

]x

0= x.

iii Si x ≥ 1 =⇒ fX(x) = 0 =⇒ FX(x) =∫ 0−∞ 0 dt +

∫ 10 1 dt +

∫ x1 0 dt = 0 + t

]1

0+ 0 = 1.

De donde se tiene,

FX(x) =

0 si x < 0

x si 0 < x < 1

1 si x ≥ 1

Determinacion de FY :

Veamos si g(x) es monotona en el soporte de X, X .

d

dxg(x) = −1

x< 0 , para x ∈ (0, 1) = X ,

de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y definido

como en (2.7), resulta ser Y = (0,∞). Queda calcular la g−1(y) para y ∈ Y = (0,∞); la

cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g−1(y).

Finalmente, aplicando el teorema 2.3.1 parte b), resulta

FY (y) = 1− FX(g−1(y)) = 1− FX(e−y) = 1− e−y, y ∈ Y = (0,∞)




Para determinar fY (y) queda diferenciar la fda de Y , ası

fY (y) =d

dyFY (y) = ey (y > 0)

La fdp y la fda de Y respectivamente son:

fY (y) = ey · I(0,∞) , FY (y) =

0 si y ≤ 0

1− e−y si y > 0

Este resultado afirma que si: X ∼ U(0, 1) =⇒ Y = −logX ∼ Exp(1).

Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresion resultante

esta dada por el siguiente teorema

Teorema 2.3.2. Supongamos X v.a. con una fdp fX(x). Sea Y = g(X), donde g es

monotona una transformacion de X; X e Y son respectivamente sus soportes. Suponga

ademas que fX(x) es continua sobre X , y que g−1(y) tiene una derivada continua sobre Y.

Entonces la fdp de Y esta dada por:

fY (y) =

fX(g−1(y))· | ddyg−1(y)) | si y ∈ Y

0 e.o.c.(2.8)

Demostracion: Aplicando al teorema ultimo la regla de la cadena, se tiene

fY (y) =d

dyFY (y) =

d

dyFX(g−1(y)) = fX(g−1(y)) · d

dyg−1(y) g creciente

fY (y) =d

dyFY (y) =

d

dy(1− FX(g−1(y)) = −fX(g−1(y)) · d

dyg−1(y) g decreciente

La cual puede ser expresada en forma consisa como en (2.8).

Ejemplo 2.3.3. Ses fX(x) la fdp de una va. gamma, entonces esta tiene la forma,

fX(x) =1

(n− 1)!βnxn−1 e−x/β · I(0,∞)

β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =

g(X) = 1/X .




En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el

resultado ultimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es

monotona sobre ciertos intervalos.

Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X2.

En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,

donde cada uno de ellos representa el intervalo donde g(x) = x2 es monotona. En general

este sera el caso, dado en el siguiente problema.

Teorema 2.3.3. Supongamos X tiene una fdp fX(x), Y = g(X), y se define el so-

porte de X, X . Supongamos que existe una particion A0, A1, . . . , Ak de X , tal que P (X ∈A0) = 0 y fX(x) es continua sobre cada Ai. Ademas, supongase que existen funciones

g1(x), g2(x), . . . , gk(x), definidas sobre A1, . . . , Ak respectivamente, satisfaciendo:

(a) g(x) = gi(x) , para x ∈ Ai

(b) gi(x) es monotona sobre Ai

(c) El conjunto Y = y : y = gi(x) , para algunx ∈ Ai es el mismo para cada i = 1, . . . , k y

(d) g−1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces

fY (y) =

∑ki=0 fX(g−1(y))· | d

dyg−1(y)) | si y ∈ Y0 e.o.c.

El punto mas importante en este teorema es que X puede ser divididos en conjuntos

A1, . . . , Ak, tal que g(x) sea monotona sobre cada Ai. Es posible ignorar el conjunto excep-

cional A0, ya que P (X ∈ A0) = 0. Esta es una tecnica que puede ser usada para manejar

los extremos de intervalo. Es importante notar que cada gi(x) es una transformacion 1− 1

de Ai en Y.

Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces

fX(x) =1√2π

exp−x2/2 ·I(−∞,∞)

Sea Y = X2. Halle fY (y)




La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado

de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la

transformacion de probabilidad integral.

Teorema 2.3.4. Consideremos X va. continua con fda FX(x) y se define la va. Y = FX(x).

Entonces Y ∼ U(0, 1), tal que P (Y ≤ y) = y; 0 < y < 1.

Antes de demostrarlo, daremos una mirada a F−1X , la inversa de la fda con algun detalle.

Si FX es estrictamente creciente, entonces F−1X esta bien definida como

F−1X (y) = x ⇐⇒ FX(x) = y (2.9)

Sin embargo, si la fda llega a ser constante en algun intervalo, entonces su inversa no esta bi-

en definida por (2.10).

Cualquier x ∈ [x1, x2], por ejemplo (intervalo donde la FX(x) es constante), satisface

FX(x) = y. Este problema se soluciona, definiendo F−1X (y), para 0 < y < 1, del siguiente

modo,

F−1X (y) = infx : FX(x) ≥ y, (2.10)

esta definicion coincide con de F−1X (y) cuando FX(x) = y no es constante, pero provee una

F−1X siempre univariada

Dem. del teorema:

Para Y = FX(X) = g(X); Y = (0, 1).

P (Y ≤ y) = P (FX(X) ≤ y)

= P (F−1X (FX(X)) ≤ F−1

X (y)) (F−1X creciente)

= P (X ≤ F−1X (y))

= FX(F−1X (y)) (definicion de FX)

= y (continuidad de FX)

En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1,

mostrando ası que Y ∼ U(0, 1)




¿Como se razono detras de la igualdad

P (F−1X (FX(X)) ≤ F−1

X (y)) = P (X ≤ F−1X (y))?

esta requiere una particular atencion. Si FX es estrictamente creciente, entonces es ver-

dad que F−1X (FX(X)) = X. Sin embargo, si FX presenta algun escalon, puede suceder que

F−1X (FX(X)) 6= X, pero eso se salva ocupando la definicion para F−1

X con en (2.10).

Una aplicacion de este teorema esta en la generacion de muestras aleatorias provenientes

de una distribucion particular. Si se quiere generar una observacion x proveniente de una

poblacion con fda FX , necesitamos generar solamente el numero aleatorio uniforme u entre

0 y 1, y resolver para x la ecuacion FX(x) = u.

2.4. Valores Esperados

El valor esperado o esperanza de una v.a. X es, su valor promedio. Aquı hablamos de

valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.

El valor esperado de una distribucion, tambien puede ser pensado como una medida de

centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos

los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion

de probabilidad, queremos obtener un numero que resuma un valor tıpico o esperado de las

observaciones de la v.a.

Examinemos el siguiente ejemplo,

Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el

perıodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante

seleccionado se inscribe; supongamos que X tiene la siguiente fmp,

x 1 2 3 4 5 6 7

fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02




Podemos considerar a la poblacion como aquella formada por 15000 personas, cada

una con su propio valor de X (segun la cantidad de materias en las que inscribio en ese

ano academico); la proporcion con cada valor X esta dada por fX(x) de la tabla. Por

ejemplo podrıamos interpretar el valor fX(1) = P (X = 1) = 0,01, como que 1 de cada 100

estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron

en una sola materia. Analogamente, fX(2) = P (X = 2) = 0,03, como que 3 de cada 100

estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en

dos materias; y ası siguiendo, se genera la tabla (2.4)

x 1 2 3 4 5 6 7

fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02

No registrado 150 450 1950 3750 5850 2550 300

Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma

como formada por los valores X.

Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-

lizarlo para calcular valores caracterısticos de esa poblacion (como por ejemplo la media µ)

y hacer inferencias a partir de tales caracterısticas.

Si se quisiera determinar el numero promedio de cursos por estudiante, o el valor prome-

dio de X de la poblacion, debemos calcular el numero total de cursos y dividir entre el

numero total de estudiantes. El valor promedio de X de la poblacion es entonces,

1(150) + 2(450) + 3(1950) + · · ·+ 7(300)15000

= 4,57, (2.11)

como 15015000 = 0,01 = fX(1); 450

15000 = 0,03 = fX(2); . . . , etc., otra expresion para el cociente

(2.11) es:

1 · fX(1) + 2 · fX(2) + 3 · fX(3) + · · ·+ 7 · fX(7) (2.12)

Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,

solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).




El valor promedio, o la media de X es entonces un promedio ponderado de los posibles

valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.

La expresion (2.13), nos conduce la siguiente definicion de valor esperado o media de una

poblacion.

Definicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es

E g(X) =

∫∞−∞ g(x) fX(x) dx si X es continua

∑x∈X g(x) fX(x) =

∑x∈X g(x) P (X = x)) si X es discreta

Suponiendo que la integral o suma existen. Si E | g(X) |= ∞ diremos que E g(X) no

existe.

Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial λ, es decir su fdp

es,

fX(x) =1λ

e−x/λ · I(0 ≤ x < ∞) λ > 0

Se pide encontrar E X

Rta. E X = λ

Ejemplo 2.4.2. Si X tiene una distribucion binomial con parametros n y p, entonces su

fmp es,

P (X = x) =(

n

x

)px (1− p)n−x , x = 0, 1, . . . , n

donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp

suma 1. Determine el valor esperado de X.

Rta.: E X = np

Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe

es la variable aleatoria Cauchy, cuya fdp es,

fX(x) =1π

11 + x2

, −∞ ≤ x ≤ ∞.

Mostrar, entonces que E | g(X) |= ∞.




El proceso de tomar esperanza es una operacion lineal, lo cual significa que la esperanza

es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que

para cualquier par de valores a y b,

E (aX + b) = aE X + b.

El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para

calcularla. La mayorıa de tales propiedades se derivan de las propiedades de la integral o la

suma, y son resumidas en el siguiente teorema:

Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1(X), g2(X),

funciones de la va. X, cuyas esperanzas existen, se cumple:

(a) E (ag1(X) + bg2(X) + c) = aE (g1(X)) + bE (g2(X)) + c.

(b) Si g1(x) ≥ 0, ∀x =⇒ E (g1(X)) ≥ 0.

(c) Si g1(x) ≥ g2(x), ∀x =⇒ E (g1(X)) ≥ E (g2(X)).

(d) Si a ≤ g1(x) ≥ b, ∀x =⇒ a ≤ E (g1(X)) ≥ b.

Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con

relacion a considerarla como un ”buen acierto”para el valor de X.

Supongamos que medimos la distancia entre una va. X y una constante b mediante la

forma (X − b)2, o sea buscamos el valor de b mas cercano a X. Podemos ası, determinar el

valor de b que minimiza E(X − b)2 y, por lo tanto esto podrıa interpretarse en terminos

estadısticos como la busqueda de un buen predictor de X. (Note que no es bueno mirar un

valor de b que minimice (X − b)2, ya que la respuesta podrıa depender de X, siendo ası un

predictor inutil de X).

Podrıamos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el

calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en

relacion con este problema y la E X, ası escribimos

E(X − b)2 = E(X −E X + E X − b)2

= E((X − E X) + (E X − b))2

= E(X −E X)2 + (E X − b)2 + 2E((X −E X)(E X − b)),




en esta ultima igualdad hemos expandido el cuadrado. Ahora note que

E((X −E X)(E X − b)) = (E X − b)E(X − E X) = 0

ya que (E X − b) es constante sale fuera de la expresion, y E(X −E X) = E X −E X = 0.

Esto significa que

E(X − b)2 = E(X −E X)2 + (E X − b)2. (2.13)

No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el

segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.

Por lo tanto,

mınb

E(X − b)2 = E(X − E X)2 (2.14)

Existe un resultado similar para la mediana.

Cada vez que evaluemos la esperanza de una funcion no lineal de X, podemos proceder de

dos maneras diferentes. De la definicion de E g(X), serıa posible calcular directamente

E g(X) =∫ ∞

−∞g(x)fX(x) dx. (2.15)

Pero tambien podrıamos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego

calcular

E g(X) = E Y =∫ ∞

−∞y fY (y) dy. (2.16)

Ejemplo 2.4.5. Sea X ∼ U(0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada

de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.

2.5. Momentos y Funciones Generadoras de Mo-

mentos

Los distintos momentos de una distribucion son una importante clase de esperanzas.

Definicion 2.5.1. Para cada entero n, el n-esimo momento de X (o de FX(x)), notado

µ′n, es

µ′n = E Xn.




El n-esimo momento central de X, es

µn = E (X − µ)n ,

donde µ = µ′ = E X

Ademas de la media, E X, de una va., quiza el momento mas importante es el central

de segundo orden, mas comunmente conocido como la varianza.

Definicion 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =

E(X − E X)2. La raız cuadrada positiva de la V ar X se denomina desviacion estandar de

X.

La varianza de una medida del grado de diseminacion de una distribucion alrededor de

la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X− b)2 es minimizada eligiendo b =

E X. Consideremos ahora la medida absoluta de este mınimo. La interpretacion agregada

a la varianza es que valores grandes de la misma, significan que X es muy variable. En

el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no

existe variacion en X. La desviacion estandar tiene la misma interpretacion cualitativa:

pequenos valores de la misma significan que X esta probablemente muy cerca de E X, y

grandes valores significa que X es muy variable. La desviacion estandar es mas facil para

interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.

X.

Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone

ahora calcular V ar X.

Rta.: V ar X = λ2

Vemos que la varianza de una distribucion exponencial esta directamente relacionada

con el parametro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando

los valores de λ. De esta manera sera posible notar como la distribucion esta mas concentrada

alrededor de su media para valores pequenos de λ. El comportamiento de la varianza de

una va. exponencial, como una funcion de λ, es una caso especial del comportamiento de la

varianza resumido en el siguiente teorema,




Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de con-

stantes a, b se cumple,

V ar(aX + b) = a2V ar X.

En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,

V ar X = E X2 − (E X)2, (2.17)

la cual es muy facil de demostrar.

Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide

ahora calcular V ar X.

Rta.: V ar X = np(1− p)

Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-

ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen

razones estadısticas para examinar momentos de orden mas algo que 2.

Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de

probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm

puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular

momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el

de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos

puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.

Definicion 2.5.3. Sea X una va. con fda. FX . La funcion generadora de momentos (fgm)

de X (o FX) , denotada por MX(t) ,es

MX(t) = E et X ,

suponiendo que la esperanza exista para valores de t en algun entorno del 0. Esto es, existe

un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un

entorno del 0, nosotros diremos que la fgm no existe.




Mas explıcitamente, podemos escribir la fgm de X como

MX(t) =∫∞−∞ et x fX(x) dx Si X es continua

MX(t) =∑

x∈X et x fX(x) Si X es discreta

Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,

Teorema 2.5.2. Si X tiene fgm MX(t), entonces

E Xn = M(n)X (0),

donde se define

M(n)X (0) =

dn

dtnMX(t)|t=0 .

Es decir el n-esimo momento de la va. X es igual a la n-esima derivada de la fgm de X

evaluada en t = 0

Del teorema ultimo anterior es facil mostrar que,

d

dtMX(t)|t=0 = E X et X |t=0 = E X.

Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso

general es,

fX(x) =1

Γ(α)βαxα−1 e−x/β , 0 < x < ∞, α > 0, β > 0,

donde Γ(α) representa la funcion gamma. Determinar la MX(t) para esta va.

Rta.: MX(t) =(

11−βt

)αsi t < 1

β .

Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-

tribucion discreta, la distribucion binomial. Si X ∼ Bin(n, p), determina la fgm de X

Rta.: MX(t) = [pet + (1− p)]n.

Podrıa ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-

mentos, e.d.,

X1 ∼ f1 , X2 ∼ f2 con f1 6= f2,




pero tal que E Xr1 = E Xr

2 r = 0, 1, . . ..

Querrıamos tener condiciones para poder caracterizar las distribuciones con iguales momen-

tos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su

fgm.

Teorema 2.5.3. Sean FX(x), FY (y) dos fda tales que sus momentos existen

(a) Si FX y FY tienen soporte acotado, entonces FX(u) = FY (u) sı y solo sı

E Xr = E Y r r = 0, 1, . . ..

(b) Si las fgm existen y se cumple MX(t) = MY (t) para todo t en algun entorno del 0,

entonces FX(u) = FY (u) ∀u.

La demostracion de este teorema recae en las teorıa de las ”transformaciones de Laplace”(ver

Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.

Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada

por

MY (t) = MaX+b (t) = eb t MX(at).




2.6. Ejercicios

2.1 De un lote que contiene 25 artıculos, 5 de los cuales son defectuosos, se eligen 4 al azar.

Sea X el numero de defectuosos encontrados. Obtener la distribucion de probabili-

dades de X si,

(a) los artıculos se escogen con sustitucion

(b) los artıculos se escogen sin sustitucion.

2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =

1, 2, . . .

(a) Calcular P (Xsea par ).

(b) Calcular P (X ≥ 5).

(c) Calcular P (Xes divisible por 3)

2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =

j) = (1− a) aj , j = 0, 1, . . .

(a) ¿Para que valores a es significativo el modelo anterior?

(b) Verificar que la anterior representa una legıtima f.m.p.

(c) Demostrar que para dos enteros positivos cualesquiera s y t,

P (X < s + t | X > s) = P (X ≥ t).

2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X

se puede representar como una v.a. continua con f.d.p. fX(x) = be−bx I (x ≥ 0). Sea

pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1− a) aj y determine a.

2.5 La v.a. continua X tiene f.d.p. fX(x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un numero que

satisface −1 < b < 0, calcular P (X > b | X < b/2).

2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,

en donde X, 0 < X < 1, tiene la siguiente fdp: fX(x) = 20x3(1− x)I(0 < x < 1).




(a) Obtener una expresion para fda, FX y dibujar su grafico.

(b) Calcular la P (X ≤ 23).

(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.

Especıficamente, si 13 < X < 2

3 , el compuesto se vende por C1 dolares/galon.

Encontrar la distribucion de probabilidades de la utilidad neta por galon.

2.7 Supongase que X esta distribuida uniformemente en [−α, α], en donde α > 0. Cada

vez que sea posible determinar α de modo que se satisfaga lo siguiente:

(a) P (X > 1) = 13 (b) P (X > 1) = 1

2 (c) P (X > 12) = 0,7

(d) P (X > 12) = 0,3 (e) P (| X |< 1) = P (| X |> 1).

2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.

(a) fX(x) = 42x5(1− x), 0 < x < 1; Y = X3.

(b) fX(x) = 7e7x, 0 < x < ∞; Y = 4X + 3.

2.9 Si X tiene fdp

fX(x) =1σ2

xe−(x/σ2)/2 · I(0,∞), σ2 es una constante positiva

Determine la fdp de Y = eX .

2.10 Suponga que X tiene una distribucion geometrica con fmp dada por fX(x) = 13(2

3)x , x =

0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que

tanto X como Y son v.a. discretas. Para especificar la distribucion de probabilidad

de Y , especifique su fmp.

2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.

(a) fX(x) = 12 e−|x|, −∞ < x < ∞; Y =| X |3 .

(b) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2.

(c) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2 si X ≤ 0 e Y = 1−X si X > 0.




2.12 Suponga que X es una va. con la siguiente funcion de densidad

fX(x) =12(1 + x) · I(−1, 1).

(a) Encuentre la fdp. de Y = X2 (b) Encuentre la E X y la V arX

2.12 Una mediana de una distribucion es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 .

(Si X es continua, m satisface∫ m−∞ fX(x)dx =

∫∞m fX(x)dx = 1

2 .). Encuentre la

mediana de las siguientes distribuciones

(a) fX(x) = 3x2 · I(0, 1) (b) fX(x) = 1π(1+x2)

2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad

(a) fX(x) = axa−1 0 < x < 1, a > 0

(b) fX(x) = 1n x = 1, 2, . . . , n; n > 0 entero

(c) fX(x) = 32(x− 1)2, 0 < x < 2

2.14 Sea µn el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas

a la media y la varianza son,

α3 =µ3

(µ2)3/2y α4 =

µ4

(µ2)2.

El valor α3 es llamado coeficiente de asimetrıa, y el α4 es llamado de curtosis. La

medida de asimetrıa se refiere a cuanto se aparta la forma de la distribucion simetrica

la fdp. La curtosis, aunque mucho mas difıcil de interpretar que la asimetrıa, mide

cuanta forma de punta o chata tiene la fdp.

(a) Muestre que si la fdp es simetrica alrededor de un punto a, entonces α3 = 0.

(b) Calcule α3 para f(x) = e−x , x ≥ 0, una fdp que tiene asimetrıa a la derecha.

(c) Calcule α4 para cada una de las siguientes fdp.

(i) f(x) = 1√2π

e−x2/2, −∞ < x < ∞

(ii) f(x) = 12 · I(−1, 1)

(iii) f(x) = 12e−|x| ,−∞ < x < ∞




2.15 Sea MX(t) la fgm de una va. X, y se define S(t) = log(MX(t)). Muestre que,

d

dtS(t)|t=0 = E X

d2

dt2S(t)|t=0 = V ar X.

2.16 En cada uno de los siguientes casos verifique que la expresion dada para la fgm, y en

cada caso use la fgm para determinar la E X y la V arX.

(a) P (X = x) = e−λλx

x! , MX(t) = eλ(et−1) , x = 0, 1, 2, . . . ; λ > 0

(b) P (X = x) = p(1− p)x , MX(t) = p1−(1−p)et , x = 0, 1, 2, . . . ; 0 < p < 1

(c) f(x) = e−(x−µ)2/(2σ2)√2πσ

, MX(t) = eµt+σ2t2/2, −∞ < x < ∞, −∞ < µ < ∞, σ > 0

2.17 Determinar E X4 para X ∼ N(0, 1) [use que ϕ′(x) = xϕ(x)].

2.18 Teorema: [Convergencia de fgm]: Suponga que Xi, i = 1, 2, . . . es una secuencia

de va., cada una con fgm MXi(t). Ademas suponga que

lımi−→∞

MXi(t) = MX(t) para todo t en un entorno de 0,

y MX(t) es una fgm. Entonces existe una unica fda FX , cuyos momentos son deter-

minados por MX(t)y, para todo x donde FX(x) es continua, se tiene

lımi−→∞

FXi(x) = FX(x).

Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda

respectiva.1

Una aproximacion muy util es la de la distribucion Binomial a la distribucion de

Poisson. La distribucion binomial esta caracterizada por dos cantidades, n y p. La

aproximacion de Poisson es valida cuando ”n es grande y np pequeno”.

La fmp de una va. con distribucion de Poisson esta dada por

P (X = x) =e−λλx

x!, x = 0, 1, . . . , λ > 0.

La aproximacion afirma que si X ∼ Bin(n, p) e Y ∼ Po(λ), con λ = np, entonces

P (X = x) ≈ P (Y = x)

para n grande y np pequeno.

1La demostracion de este teorema tambien recae sobre la teorıa de transformadas de Laplace




Se te pide demostrar esta afirmacion siguiendo los siguientes pasos:

(a) Encontrar MX(t), MY (t)

(b) Reemplazar p = λn en MX(t)

(c) Calcular el lımn−→∞ MX(t), observando que su resultado es justamente MY (t)

la fgm de la Poisson.

(d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de

una Bin(15, 0,3) y de una Po(4,5); observe el resultado del teorema.



Cap¶‡tulo 2 Variables aleatorias - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos...

Documents

Transcript of Cap¶‡tulo 2 Variables aleatorias - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos...