[61.09] Probabilidad y Estadística - Facultad de...

38

Transcript of [61.09] Probabilidad y Estadística - Facultad de...

Page 1: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

[61.09] Probabilidad y Estadística

María Inés Parnisari

26 de julio de 2012

Índice

I Probabilidad 2

1. Introducción a la estadística y el análisis de datos 2

2. Probabilidad 2

3. Variables aleatorias y distribuciones de probabilidad 6

4. Representación mediante grácos 9

5. Media, varianza y covarianza de variables aleatorias 10

6. Procesos de Bernoulli, Poisson e hipergeométrico 12

7. Distribución uniforme, normal... y otras 16

8. Aproximaciones de distribuciones 21

9. Funciones de variables aleatorias 22

10.Simulación 25

II Estadística 26

11.Deniciones 26

12.Estadística inferencial 26

13.Estimadores puntuales 28

14.Estimación por intervalo 29

15.Test de hipótesis 33

16.Estadística Bayesiana 36

1

Page 2: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Parte I

Probabilidad

1 Introducción a la estadística y el análisis de datos

Sean x1, x2, ..., xn las observaciones en una muestra.

Media de una muestra: es un promedio numérico. Se dene como:

x =x1 + x2 + ...+ xn

n

=

x : FX(x) =

1

2

Mediana de una muestra: si las observaciones están ordenadas en orden creciente, la medianaes:

x =

xn+1

2si n es impar

12

(xn

2+ xn

2 +1

)si n es par

=

P (X < x) ≤ 1

2

P (X > x) ≥ 12

Moda de una muestra: es el valor que ocurre con más frecuencia en la muestra. Se dene como:

modx = x : fX(x) es máximo

Rango de la muestra: xmax − xminVarianza de la muestra: σ2 =

∑ni=1

(xi−x)2

n−1

Desvío de la muestra: σ =√σ2

2 Probabilidad

Probabilidad: estudio de los fenómenos aleatorios.

2.1 Espacio muestral

Espacio muestral: conjunto de todos los resultados posibles de un experimento estadístico. Serepresenta con la letra Ω. Hay de dos tipos:

Espacio muestral discreto: contiene un número nito de posibilidades, o una serie inter-minable con tantos elementos como números existen.

Espacio muestral continuo: contiene un número innito de posibilidades, tantas como elnúmero de puntos en un segmento de recta.

Punto muestral: cada resultado en un espacio muestral.

2.2 Eventos

Evento: subconjunto de un espacio muestral.

Denimos las operaciones sobre eventos:

2

Page 3: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Complemento: dado un evento A de un espacio muestral Ω, es el subconjunto de todos loselementos de Ω que no están en A. Se representa con el símbolo A.

Intersección: dados dos eventos A y B, se dene a la intersección como A ∩B = todos loselementos que están en A y en B. Dos eventos son mutuamente excluyentes o disjuntossi A ∩B = ∅.

Unión: dados dos eventos A y B, se dene a la unión A∪B = todos los elementos que estánen A, o en B, o en ambos.

La relación entre eventos y el correspondiente espacio muestral Ω se puede ilustrar de forma grácausando diagramas de Venn.

Figura 1: Diagrama de Venn

2.3 Conteo de puntos muestrales

Regla de multiplicación generalizada: si una operación se puede ejecutar en n1 formas, ysi para cada una de éstas se puede llevar a cabo una segunda operación en n2 formas, y asísucesivamente, la serie de k operaciones se puede realizar en

∏ki=1 ni formas.

Permutación simple: arreglo de todos los elementos de un conjunto de n objetos, de manera queel orden sí importa y no se repiten los elementos.

Pn = n!

Ejemplo: las permutaciones posibles de las letras a,b,c (n = 3) son: abc, acb, bac, bca, cab y cba(P3 = 3! = 6).

Permutación con repetición: número de permutaciones distintas de n objetos de los que n1 sonde una clase, n2 de una segunda clase,...,nk de una k-ésima clase.

Pn[n1,n2,...,nk] =n!

n1!n2! · · ·nk!

Ejemplo: un entrenador necesita tener a 10 jugadores parados en una la. Hay 1 jugador de primeraño, 2 de segundo año, 4 de tercer año y 3 de cuarto año. El número de formas diferentes paraformar la la es 10!

1!2!4!3! = 12,600.

Particiones: número de formas de partir un conjunto de n objetos en r celdas con n1 objetos enla primera celda, n2 objetos en la segunda, y así sucesivamente, es(

n

n1, n2, . . . , nr

)=

n!

n1!n2! · · ·nr!

donde n1 + n2 + ...+ nr = n.

Ejemplo: la cantidad de formas de asignar 7 personas (n = 3) a una habitación triple y a 2 dobles(r = 3) es

(7

3,2,2

)= 7!

3!2!2! = 210.

3

Page 4: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Combinaciones simples: número de formas de seleccionar m objetos de n sin importar el orden.Es un tipo especial de partición con 2 celdas: una con m elementos y la otra con los n−m objetosrestantes.

Cn,m =

(n

m

)=

n!

(n−m)!m!

Ejemplo: el número de formas de seleccionar 3 juegos de 10 disponibles es(

103

)= 10!

7!3! = 120.

Combinaciones con repetición: número de formas de seleccionar m objetos de n donde noimporta el orden y sí se repiten los elementos.

CRn,m =

(n+m− 1

n

)=

(n+m− 1)!

(m− 1)!n!

Ejemplo: en una bodega hay 5 tipos diferentes de botellas. ¾De cuántas formas se pueden elegir 4botellas? La respuesta es

(5+4−1

5

)= 8!

3!5! = 56.

Variación simple: se llama variación dem elementos tomados de n a los distintos grupos formadospor m elementos de forma que sí importa el orden, y no se repiten los elementos.

Vn,m =n!

(n−m)!

Ejemplo: se tienen 7 libros y solo 3 espacios en una biblioteca. La cantidad de formas en las quese pueden colocar 3 libros elegidos es V7,3 = 7!

(7−3)! = 210.

Variación con repetición: se llama variaciones con repetición de m elementos tomados de n alos distintos grupos formados por m elementos de manera que sí importa el orden, y sí se repitenlos elementos.

V Rn,m = nm

Ejemplo: ¾cuántos números de 3 cifras se puede formar con los dígitos: 1, 2, 3, 4 y 5? La respuestaes 53 = 125.

2.4 Probabilidad de un evento

Probabilidad (denición axiomática): la probabilidad de un evento A es la suma de las probabil-idades de todos los puntos muestrales en A. Por lo tanto:

1. 0 ≤ P (A) ≤ 1

2. P (∅) = 0

3. P (Ω) = 1

Teorema de Laplace: si un experimento puede tener N diferentes resultados equiprobables, y si nde estos resultados corresponden al evento A, entonces P (A) = n

N .

Axioma de continuidad : para cada sucesión de eventos A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · tal que⋂∞i=1Ai = ∅, entonces lımn→∞ P (An) = 0.

2.5 Reglas aditivas

Teorema: si A y B son dos eventos, entonces

P (A ∪B) = P (A) + P (B)− P (A ∩B)

4

Page 5: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Corolario 1: si A1, ..., An son mutuamente excluyentes, entonces

P (A1 ∪ · · · ∪An) = P (A1) + · · ·+ P (An)

Corolario 2: si A1, . . . , An es una partición del espacio muestral Ω, entonces

P (A1 ∪ · · · ∪An) = P (A1) + . . .+ P (An) = P (Ω) = 1

Teorema: si A y A son eventos complementarios, entonces P (A) + P (A) = 1.

2.6 Probabilidad condicional

Probabilidad condicional: la probabilidad de que un evento B ocurra cuando se sabe que yaocurrió un evento A se llama probabilidad condicional. Se denota como P (B|A) y se dene como

P (B|A) =P (A ∩B)

P (A)

Eventos independientes: dos eventos A y B son independientes si y sólo si P (B|A) = P (B) yP (A|B) = P (A).

2.7 Reglas multiplicativas

Regla multiplicativa: si en un experimento pueden ocurrir los eventos A y B, entonces

P (A ∩B) = P (A) · P (B|A) = P (B ∩A) = P (B) · P (A|B)

Eventos independientes: dos eventos A y B son independientes si y sólo si

P (A ∩B) = P (A) · P (B)

2.8 Regla de Bayes

Regla de eliminación / probabilidad total: si los eventos B1, ..., Bk constituyen una particióndel espacio muestral Ω tal que P (Bi) 6= 0 para i = 1, ..., k, entonces para cualquier evento A de Ω:

P (A) =

k∑i=1

P (Bi ∩A) =

k∑i=1

P (Bi) · P (A|Bi)

Figura 2: Diagrama de árbol

5

Page 6: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Regla de Bayes: si los eventos B1, ..., Bk constituyen una partición del espacio muestral Ω talque P (Bi) 6= 0 para i = 1, ..., k, entonces para cualquier evento A de Ω tal que P (A) 6= 0:

P (Br|A) =P (Br ∩A)∑ki=1 P (Bi ∩A)

=P (Br) · P (A|Br)∑ki=1 P (Bi) · P (A|Bi)

2.9 Mecánica Estadística

Hay n celdas y r partículas que se distribuyen al azar en las celdas. La distribución de las partículasen las celdas:

Estadística deMaxwell-Boltzmann

Estadística de Bose-Einstein Estadística de Fermi-Dirac

Las r partículas son distintas. Las r partículas sonindistinguibles.

Hay r < n partículas.

Todas las ubicaciones de laspartículas son igualmente

posibles.

Todas las ubicaciones de laspartículas son igualmente

posibles.

Cada celda puede contener, a losumo, 1 partícula.

Evento elemental: r − upla(x1, . . . , xr) donde xi = númerode celda donde cayó la partícula

i

Evento elemental: n− upla(r1, . . . , rn) donde ri = cantidad

de partículas en la celda i,∑ni=1 ri = r

Evento elemental: n− upla(b1, . . . , bn) donde

bi =

1 si la celda i está ocupada

0 si no

Cantidad de tuplas posibles: nr Cantidad de tuplas posibles:(r+n−1n−1

) Cantidad de eventoselementales:

(nr

)P [evento elemental] = 1

nr P [evento elemental] = 1

(r+n−1n−1 )

P [evento elemental] = 1

(nr)

3 Variables aleatorias y distribuciones de probabilidad

3.1 Concepto de variable aleatoria

Variable aleatoria: función que asocia un número real con cada elemento del espacio muestral.Tiene la forma fX(x) : Ω→ <, donde X denota la variable aleatoria, x uno de sus valores, y Ω elespacio muestral. Hay de tres tipos:

Discreta: hay nitos resultados posibles, o innitos numerables resultados posibles. Repre-sentan datos por conteo.

Continua: su conjunto de valores posibles es un intervalo de números. Representan datosmedidos (pesos, alturas, distancias, etc.)

Mixta.

Teorema: X e Y son variables aleatorias independientes sí y sólo si f(x, y) = f(x)f(y)∀(x, y).

Condición necesaria (pero no suciente) para que X,Y sean independientes: el soporte de f(x, y)debe ser un rectángulo o un conjunto ordenado de ellos.

3.2 Distribuciones discretas de probabilidad

Función de probabilidad de una variable aleatoria discreta X: conjunto de pares ordenados(x, P (X = x)) tales que para cada resultado posible x:

1. P (X = x) ≥ 0,

6

Page 7: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

2.∑∀x P (X = x) = 1.

Función de distribución acumulada de una variable aleatoria discreta X: dada la dis-tribución de probabilidad P (X = x),

FX(x) = P (X ≤ x) =∑t≤x

P (X = t) para −∞ < x <∞

Propiedades de la función de distribución:

1. P (a < X ≤ b) = FX(b)− FX(a)

2. P (a ≤ X ≤ b) = FX(b)− FX(a) + P (a)

3. P (a ≤ X < b) = FX(b)− FX(a) + P (a)− P (b)

4. P (a < X < b) = FX(b)− FX(a)− P (b)

5. FX(x) es no decreciente y continua a derecha

6. lımx→−∞ FX(x) = 0; lımx→+∞ FX(x) = 1

Átomo de X: se dice que a ∈ < es un átomo de la variable aleatoria discreta X si P (X = a) > 0.

3.3 Distribuciones continuas de probabilidad

Función de densidad de probabilidad de una variable aleatoria continua X: función f(x)denida en el conjunto <, tal que:

1. f(x) ≥ 0 para toda x ∈ <

2.´∞−∞ f(x) dx = 1

3. P (X = x) = 0 para toda x ∈ <

4. P (a < X < b) = P (a ≤ X ≤ b) =´ baf(x) dx

Función de distribución acumulada de una variable aleatoria continua X: dada la funciónde densidad f(x), se dene a la función de distribución como

FX(x) = P (X ≤ x) =

ˆ x

−∞f(t) dt para −∞ < x <∞

3.4 Distribuciones mixtas de probabilidad

X es una variablea aleatoria mixta cuando:

Existen a tales que P (X = a) > 0. Dichos puntos a son los puntos pesados de X, es decir,que acumulan probabilidad.

P (a ≤ X ≤ b) =[´ bafX(x) dx

]+ P (X = a) + P (X = b)

7

Page 8: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

3.5 Distribuciones de probabilidad conjunta

3.5.1 Caso discreto

Función de probabilidad conjunta: si X e Y son dos variables aleatorias discretas, la distribu-ción de probabilidad para sus ocurrencias simultáneas se representa mediante una función P (x, y)que verica:

1. P (x, y) = P [(X = x) ∩ (Y = y)]

2. P (x, y) ≥ 0 para todo (x, y)

3.∑∀x∑∀y P (x, y) = 1

Función de probabilidad marginal:

P (X = x) =

∑∀y P (x, y)

P (Y = y) =∑∀x P (x, y)

Función de probabilidad condicional:

P (Y = y|X = x) = P (x,y)

P (X=x)

P (X = x|Y = y) = P (x,y)P (Y=y)

Función de probabilidad conjunta: P (x, y) = P (x) · P (y|x) = P (y) · P (x|y)

3.5.2 Caso continuo

Función de densidad conjunta: la función f(x, y) es una función de densidad conjunta de lasvariables aleatorias continuas X y Y si:

1. f(x, y) ≥ 0 para todo (x, y)

2.´ +∞−∞´ +∞−∞ f(x, y) dx dy = 1

3. P [(X,Y ) ∈ A] =˜Af(x, y) dx dy

Función de probabilidad marginal:

fX(x) =

´ +∞−∞ f(x, y) dy

fY (y) =´ +∞−∞ f(x, y) dx

Función de probabilidad condicional:

fY |X(y|x) = f(x,y)

fX(x)

fX|Y (x|y) = f(x,y)fY (y)

Función de probabilidad conjunta: f(x, y) = f(x) · f(y|x) = f(y) · f(x|y)

3.6 Variables truncadas

Truncado: truncar la variable aleatoria X a un conjunto B ⊂ R signica condicionarla a tomarvalores en el conjunto B.

FX|X∈B(x) = P (X ≤ x|X ∈ B) =P (X ≤ x,X ∈ B)

P (X ∈ B)

fX|X∈B(x) =fX(x)1x ∈ BP (X ∈ B)

8

Page 9: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

3.7 Mezcla de variables aleatorias

Sean n variables aleatorias Xi, donde cada una se asocia a un resultado Ri de un experimentoaleatorio. Si P (Ri) es la probabilidad de ocurrencia de cada resultado, y

∑ni=1 P (Ri) = 1, entonces:

fXM (x) = fX1(x) · P (R1) + fX2

(x) · P (R2) + · · ·+ fXn(x) · P (Rn)

Propiedades:

E [XM ] =∑ni=1E [Xi] · P (Ri)

σ2XM

=∑ni=1 P (Ri) ·

[σ2Xi

+ (E [Xi]− E [XM ])2]

3.8 Suma aleatoria de variables aleatorias

Dada una cantidad aleatoria Y de términosXi idénticamente distribuidos, y sea la variable aleatoria

W |Y =

Y∑i=1

Xi

Entonces:

E(W ) = E(Y ) · E(X)

σ2(W ) = E(Y )σ2(X) + E2(X)σ2(Y )

4 Representación mediante grácos

Figura 3: Distribución empírica.

Distribución empírica: la función de distribución empíricaFn(x) de n puntos sobre la recta x1, ..., xn es la función escaleracon saltos de altura 1

n en los puntos x1, ..., xn.

Fn(x) =1

n

n∑i=1

1xi ≤ x

La distribución empírica es una aproximación a la función dedistribución acumulada, FX(x).

Histograma: un histograma de una muestra x1, . . . , xn se ob-tiene eligiendo una partición en m intervalos de extremos a0 < · · · < am con longitudesLj = aj − aj−1; calculando las frecuencias relativas

pj =1

n

n∑i=1

1 aj−1 < xi < aj

y gracando la función igual apjLj

en el intervalo (aj−1, aj ] y a 0 fuera de los intervalos:

fx1,...,xn;a0,...,am(x) =

m∑j=1

pjLj

1 x ∈ (aj−1, aj ]

O sea, un conjunto de rectágulos con área pj .

9

Page 10: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Figura 4: Histograma.

Un histograma es una aproximación a la función de densidad de prob-abilidad, fX(x).

Cuantil-α de X: es cualquier número xα ∈ R, con α ∈ (0, 1) tal que

P (X < xα) ≤ α y P (X ≥ xα) ≥ α

El cuantil-α de una variable aleatoria absolutamente continua es laúnica solución de la ecuación ˆ xα

−∞fX(x) dx = α

5 Media, varianza y covarianza de variables aleatorias

5.1 Media de una variable aleatoria

5.1.1 Caso univariante

Media / valor esperado / esperanza: sea X una variable aleatoria. La media o valor esperadode X es un tipo de promedio que describe el lugar donde se centra la distribución de probabilidadde X. Es un número real, que a veces no existe.

µx = E [X] =

∑∀x x · P (X = x) si X es discreta´ +∞−∞ x · f(x) dx si X es continua∑∀x:P (x) 6=0 x · P (X = x) +

´∀x:f(x)6=0

x · f(x) dx si X es mixta

Teorema: sea X una variable aleatoria. El valor esperado de la variable aleatoria g(X) es:

µg(X) = E [g(X)] =

∑∀x g(x) · P (X = x) si X es discreta´ +∞−∞ g(x) · f(x) dx si X es continua∑∀x:P (x)6=0 g(x) · P (X = x) +

´∀x:f(x) 6=0

g(x) · f(x) dx si X es mixta

Esperanza condicional: dada la función de densidad f(x) de una variable aleatoria X, y dadoun conjunto A, denimos:

E [X|X ∈ A] =

∑∀x x ·

P (X=x)P (x∈A) si X es discreta´ +∞

−∞ x · f(x)P (x∈A) dx si X es continua

Teorema: dada una variable aleatoria X y un conjunto A de X, tenemos que

E [X|A] · P (A) + E[X|A

]· P(A)

= E[X]

5.1.2 Caso bivariante

Media / valor esperado / esperanza: sean X e Y variables aleatorias con función de densidadde probabilidad conjunta f(x, y). La media o valor esperado de la variable aleatoria g(X,Y ) es:

µg(X,Y ) = E [g(X,Y )] =

∑∀x∑∀y g(x, y)P (x, y) si X e Y son discretas´ +∞

−∞´ +∞−∞ g(x, y) f(x, y) dx dy si X e Y son continuas

Esperanza condicional: sean las variables aleatorias X, Y con función de densidad condicionalfY |X(y|x). La esperanza de X dado Y = y es una variable aleatoria tal que, para cada y ∈ R

10

Page 11: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

E [X|Y = y] =

∑∀x x · P (x|y) si X es discreta´ +∞−∞ x · fX|Y (x|y) dx si X es continua

Línea de regresión: considerando a x como una variable,

ϕ(x) = E [Y |X = x] =

ˆ +∞

−∞y · fY |X (y|x) dy

Recta de regresión: la recta de regresión de Y basada en X es la función lineal Y = aX + b que

minimiza la distancia d(Y , Y

)=

√E

[(Y − Y

)2], y se calcula como:

Y =cov(X,Y )

var(X)(X − E [X]) + E [Y ]

5.2 Varianza y covarianza de variables aleatorias

Varianza: sea X una variable aleatoria con densidad de probabilidad f(x) y media µ. La varianzade X es el número σ2

X ≥ 0 que mide las uctuaciones de X en torno a µ:

σ2X = E

[(X − µ)2

]=

∑∀x(x− µ)2 · P (X = x) si X es discreta´ +∞−∞ (x− µ)2 · f(x) dx si X es continua

Teorema: seaX una variable aleatoria con densidad de probabilidad f(x). La varianza de la variablealeatoria g(X) es:

σ2g(X) = E

[g(X)− µg(x)

]2=

∑∀x[g(x)− µg(X)

]2P (X = x) si X es discreta´∞

−∞[g(x)− µg(X)

]2f(x) dx si X es continua

Teorema: σ2X = E

(X2)− E(X)2

Teorema de Pitágoras: σ2X = σ2 [E [Y |X]] + E

[σ2 [Y |X]

]Varianza condicional: σ2(Y |X) = E

[Y 2|X

]− (E [Y |X])

2

Desviación estándar: σ =√σ2

Covarianza: sean X e Y variables aleatorias con densidad de probabilidad conjunta f(x, y). Lacovarianza de X e Y es:

cov(X,Y ) = E [(X − µX) (Y − µY )] =

∑∀x∑∀y(x− µX)(y − µY ) · P (x, y) si Xe Y son discretas´∞

−∞´∞−∞(x− µX)(y − µY ) · f(x, y) dx dy si Xe Y son continuas

Lo que nos importa de la covarianza es su signo.

Teorema: la covarianza de dos variables aleatorias X e Y es cov(X,Y ) = E(XY )− E(X)E(Y )

Coeciente de correlación: seanX y Y variables aleatorias con covarianza cov(X,Y ) y desviaciónestándar σX y σY respectivamente. El coeciente de correlación de X y Y es:

ρXY =cov(X,Y )

σXσY

El coeciente de correlación mide el grado de linealidad entre dos variables aleatorias.

Teorema: |ρXY | ≤ 1

11

Page 12: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

5.3 Medias, varianzas y covarianzas de combinaciones lin-eales de variables aleatorias

Desigualdad de Cauchy-Schwartz: E [|XY |] ≤√E [X2]E [Y 2]

Teorema: si X,Y son variables aleatorias, E[X] = E [E[X|Y ]]

Teorema: si X,Y son variables aleatorias, E [X · g(Y )|Y ] = g(Y ) · E [X|Y ]

Teorema: si X e Y son independientes, E [Y |X] = E [Y ]

Teorema: E[X] =

´∞0

(1− FX(x)) dx si FX(x) = 0 para x < 0´∞0

(1− FX(x)) dx−´ 0

−∞ FX(x) dx si FX(x) 6= 0 para x < 0

Teorema: si a ∈ <, entonces E[a] = a.

Teorema: si a ∈ <, entonces E [a|Y ] = a.

Teorema: si a, b ∈ < y X es una variable aleatoria, entonces E [aX + b] = aE[X] + b.

Teorema: si a, b ∈ < y X,Y, Z son variables aleatorias, entonces E [aX + bZ|Y ] = aE [X|Y ] +bE [Z|Y ].

Teorema: E[g(X)± h(X)] = E[g(X)]± E[h(X)].

Teorema: E[g(X,Y )± h(X,Y )] = E[g(X,Y )]± E[h(X,Y )].

Teorema: si X e Y son dos variables aleatorias independientes, entonces E(XY ) = E(X)E(Y ).

Teorema: siX e Y son dos variables aleatorias independientes, entonces cov(X,Y ) = 0. La recíprocano es cierta.

Teorema: si a y b son constantes, entonces σ2aX+b = a2σ2

X .

Teorema: si X e Y son variables aleatorias con densidad de probabilidad conjunta f(x, y) entoncesσ2aX+bY = a2σ2

X + b2σ2Y + 2abσXY

Teorema: cov(X,X) = σ2X .

Teorema: cov(aX, bY ) = ab · cov(X,Y ).

Teorema: cov(X,Y + Z) = cov(X,Y ) + cov(X,Z).

6 Procesos de Bernoulli, Poisson e hipergeométrico

Notación: Y ∼ XBE(p) signica la variable aleatoria Y distribuye como una variable aleatoriaBernoulli de parámetro p.

6.1 Proceso de Bernoulli y variables asociadas

Proceso de Bernoulli: debe tener las siguientes propiedades.

1. Consistir en n ensayos.

2. Cada ensayo debe tener 2 posibles resultados, éxito o fracaso.

3. La probabilidad de éxito (p ∈ (0, 1)) debe mantenerse constante en cada ensayo.

4. Los ensayos son independientes (i.e. el muestreo se realiza con reemplazo).

Variable de Bernoulli: variable aleatoria dicotómica (0 es fracaso y 1 es éxito) que verica

P (XBE = x) = px(1− p)1−x =

p si x = 1

1− p si x = 0

Media: p

12

Page 13: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Varianza: p(1− p)

Propiedades:

Sean X1, X2, . . . variables aleatorias independientes tales que Xi ∼ Bernoulli(p). Sea SN =∑Ni=1Xi. Si N ∼ Poisson (λ), entonces SN ∼ Poisson (λp)

Variable binomial: variable aleatoria que representa la cantidad de éxitos obtenidos en n ex-perimentos Bernoulli independientes, donde la probabilidad de éxito en un experimento es p. Sudistribución de probabilidad es:

P (XBI = x) =

(nx

)px(1− p)n−x si x = 0, 1, . . . , n

0 ∀ otro x

Media: np

Varianza: np(1− p)

Propiedades:

1. La suma de n variables aleatorias Bernoulli de parámetro p es una variable aleatoria binomialde parámetros n y p.

2. Si X ∼ Binomial (nX , p) y Y ∼ Binomial (nY , p) y X,Y son independientes, entonces lavariable aleatoria W = X + Y es W ∼ Binomial (nX + nY , p).

Ejemplo: la probabilidad de que una persona se cure de una enfermedad es 0, 4. Si se sabe que15 contraen esa enfermedad, la probabilidad de que se curen exactamente 5 personas es P (XBI =5) =

(155

)0,450,610 = 0, 186.

Variable geométrica: variable aleatoria que representa la cantidad de experimentos Bernoulliindependientes necesarios hasta obtener el primer éxito (incluyéndolo). Su distribución de proba-bilidad es:

P (XG = x) =

(1− p)x−1p si x = 1, 2, . . . ,∞0 ∀ otro x

Media: 1p

Varianza: 1−pp2

Propiedades:

1. Las variables geométricas tienen la propiedad de pérdida de memoria. Es decir, si X ∼Geom(p), entonces P (X > n+m|X > n) = P (X > m), donde n,m ∈ N.

2. Si X es una variable aleatoria en N con la propiedad de pérdida de memoria, entoncesX ∼ Geom(p), donde p = P (X = 1).

Ejemplo: en un proceso de fabricación, en promedio, 1 de cada 100 artículos está defectuoso. Laprobabilidad de que el 5to artículo que se inspecciona sea el primer defectuoso encontrado es

P (XG = 5) = 1100 ·

(99100

)4= 0, 0096.

Variable Pascal / binomial negativa: variable aleatoria que representa la cantidad de exper-imentos Bernoulli independientes hasta obtener el r-ésimo éxito. Su distribución de probabilidades:

P (XPA = n) =

(n−1r−1

)pr(1− p)n−r si n = r, r + 1, . . . ,∞

0 ∀ otro n

13

Page 14: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Media: rp

Varianza: r(1−p)p2

Propiedades:

1. La suma de n variables aleatorias geométricas de parámetro p es una variable aleatoria Pascalde parámetros n y p.

2. Si Xn ∼ Binomial (n, p) y Tk ∼ Pascal (k, p) vale que P (Sn ≥ k) = P (Tk ≤ n).

Proceso multinomial: debe tener las siguientes propiedades.

1. Consistir en n ensayos.

2. Cada ensayo debe tener k posibles resultados.

3. La probabilidad de éxito (pk) debe mantenerse constante para cada k.

4. Los ensayos son independientes.

Distribución multinomial: dado un experimento multinomial que consiste en n ensayos indepen-dientes, con una probabilidad pk de obtener el resultado Ek para cada k, entonces la distribuciónde probabilidad de las variables aleatorias X1, ..., Xk (que representan el número de ocurrencias deE1, ..., Ek) es:

f(x1, ..., xk; p1, ..., pk, n) =

(n

x1, . . . , xk

)px1

1 px22 ...pxkk

Ejemplo: un aeropuerto tiene 3 pistas. Las probabilidades de que cada una de las pistas seanutilizadas por un avión son P1 = 2

9 , P2 = 116 , P3 = 11

18 . ¾Cuál es la probabilidad de que 6 avionesque llegan al azar se distribuyan de la siguiente manera: 2, 1, 3? Resolvemos: f(2, 1, 3; 2

9 ,116 ,

1118 , 6) =(

62,1,3

) (29

)2 ( 116

)1 ( 1118

)3= 0, 1127.

6.2 Proceso Poisson y variables asociadas

Proceso Poisson: debe tener las siguientes propiedades.

1. El número de resultados que ocurren en un intervalo o región especíca es independientedel número que ocurre en cualquier otro intervalo o región del espacio disjunto. Es decir, elproceso Poisson no tiene memoria.

2. La probabilidad de que ocurra un solo resultado en un intervalo muy corto es proporcional ala longitud del intervalo.

3. La probabilidad de que ocurra más de un resultado en un intervalo corto es insignicante.

4. La tasa de éxito λ por unidad de continuo t debe ser constante, λ > 0.

Teorema (distribución condicional de los tiempos de llegada): dado un proceso Poisson de intensidadλ sobre R+. Si se sabe que en un tiempo t hubo n éxitos, entonces cada éxito tiene distribución∼ f (0, t) independiente de los demás.

Variable Poisson: variable aleatoria que representa la cantidad de éxitos obtenidos en un procesoPoisson. Su distribución es:

P (XPO = x) =

(λt)x

x! e−λt con x ∈ N0 ∀ otro x

14

Page 15: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Media: λt

Varianza: λt

Propiedades:

1. Teorema de superposición: La suma de n variables Poisson de parámetros λ y t genera otravariable Poisson de parámetros nλ y t.

2. Teorema de aditividad : si X ∼ Poisson (λ1) y Y ∼ Poisson (λ2), y X,Y son independientes,enonces S = X + Y distribuye como S ∼ Poisson (λ1 + λ2).

3. Teorema del adelgazamiento: si X ∼ Poisson (λx, t) y Y |X ∼ Binomial(p) entonces Y ∼Poisson (λy = λx · p, t) y además X − Y ∼ Poisson (λx−y = (1− p) · λx).

Variable exponencial: variable aleatoria que representa la cantidad de continuo t hasta obtenerel primer éxito en un proceso Poisson, o la cantidad de continuo t entre dos éxitos. Su distribuciónes:

P (XEXP = t) =

λe−λt si t > 0

0 si t ≤ 0

Media: 1λ

Varianza: 1λ2

Función de distribución acumulada: FXE (t) = 1− e−λt si t > 0

Propiedades:

1. Las variables aleatorias exponenciales no tienen memoria. Es decir: P(XEXP>t+hXEXP>t

)= P (XEXP > h).

2. Teorema: sea T una variable aleatoria continua a valores en R+. Si T pierde memoria, entoncesT ∼ Exp (λ = − log [P (T > 1]).

3. Teorema de la competencia: si T1 ∼ Exp (λ1) y T2 ∼ Exp (λ2), y ambas son independientes,entonces P (mın (T1, T2) = T1) = λ1

λ1+λ2, y P (mın (T1, T2) = T2) = λ2

λ1+λ2.

4. Teorema de la competencia generalizado: sean las variables aleatorias independientes T1 ∼Exp (λ1), T2 ∼ Exp (λ2), ..., Tn ∼ Exp (λn). Sea M = mın (T1, T2, . . . , Tn). Entonces M ∼Exp (λ1 + λ2 + · · ·+ λn) y P (M = Tj) =

λjλ1+···+λn .

5. Teorema (suma geométrica de exponenciales independientes): sean X1, X2, . . . variables i.i.d

tales que Xi ∼ Exp (λ). Si S =∑Ni=1Xi, donde N ∼ Geom (p), entonces S ∼ Exp (λp)

Variable Gamma: variable aleatoria que representa la cantidad de continuo t hasta obtener elk-ésimo éxito en un proceso Poisson. Su distribución es:

P (XΓ = t) =

tk−1

(k−1)!λke−λt si t > 0

0 ∀ otra t

Media: kλ

Varianza: kλ2

Propiedades:

1. La suma de n variables aleatorias exponenciales de parámetro λ es una variable aleatoriaGamma de parámetros (n, λ).

2. Si X ∼ Γ (k1, λ) y Y ∼ Γ (k2, λ) entonces la variable Z = X + Y distribuye como Z ∼Γ (k1 + k2, λ).

3. Si X ∼ Γ(k, λ) entonces P (X > x) = P (Y < k) donde Y ∼ PO (λ, x).

15

Page 16: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

6.3 Proceso hipergeométrico y variables asociadas

Proceso hipergeométrico: posee las siguientes propiedades.

1. Dados N artículos, se seleccionan aleatoriamente n de ellos.

2. k de los N artículos se clasican como éxito y N − k como fracaso.

3. El muestreo se realiza sin reemplazo.

Variable hipergeométrica: variable aleatoria que representa la cantidad de éxitos obtenidos enun proceso hipergeométrico. Su distribución es:

P (XHG = x) =

(kx)(

N−kn−x)

(Nn)si x ∈ max(0, n+m−N, . . . ,mın(m,n)

0 en otro caso

Media: nkN

Varianza: N−nN−1nkN

(1− k

N

)Ejemplo: tenemos un lote de 100 artículos, de los cuales 12 están defectuosos. La probabilidad de

que haya 3 defectuosos en una muestra de 10 artículos es P (X = 3) =(12

3 )(887 )

(10010 )

= 0, 08.

Variable hiperpascal: variable aleatoria que representa la cantidad de extracciones sin reposiciónen un proceso hipergeométrico hasta obtener el r-ésimo éxito. Su distribución es:

P (XHP = x) =

(kr−1

)(N−kn−r

)(Nx−1

) · k − r + 1

N − x+ 1con r ≤ x ≤ (N − k) + r

Distribución hipergeométrica multivariada: dado un experimento hipergeométrico multi-variado que consiste en seleccionar n elementos de un universo de tamaño N , donde el universo sepuede dividir en k celdas A1, ..., Ak con a1, ..., ak elementos cada una, entonces la distribución deprobabilidad de las variables aleatorias X1, ..., Xk (que representan el número de elementos que seseleccionan de Ak) es:

f(x1, ..., xk; a1, ..., ak;N ;n) =

(a1

x1

)(a2

x2

)· · ·(akxk

)(Nn

)Ejemplo: 10 personas se usan para un estudio biológico. El grupo contiene 3 personas con sangretipo O, 4 con sangre tipo A y 3 personas con tipo B. La probabilidad de que una muestra aleatoriade 5 personas contenga 1 persona con sangre tipo O, 2 personas con tipo A y 2 personas con tipo

B es f(1, 2, 2; 3, 4, 3; 10, 5) =(31)(

42)(

32)

(105 )

= 0, 214.

7 Distribución uniforme, normal... y otras

7.1 Distribución uniforme

Distribución uniforme discreta: si la variable aleatoria X toma los valores x1, x2, ..., xk conidénticas probabilidades, entonces la distribución uniforme discreta está dada por

P (X = x) =

1k si x ∈ x1, x2, . . . , xk0 ∀ otro x

Media: 1k

∑ki=1 xi

16

Page 17: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Varianza: 1k

∑ki=1(xi − µ)2

Distribución uniforme continua: la función de densidad de la variable aleatoria uniforme con-tinua X en el intervalo (a, b) es

f(x) =

1b−a si a < x < b

0 ∀ otro x

Media: a+b2

Varianza: (b−a)2

12

7.2 Distribución normal

Figura 5: Distribución normal.

Distribución normal: la función de densidad de la variablealeatoria normal X, con media µ y desviación estándar σ es:

fX(x) =1√2πσ

· e−12 ( x−µσ )

2

para −∞ < x <∞

La probabilidad P (a < X < b) =´ bafX(x) dx no se puede

calcular analíticamente, porque no existe una primitiva de lafunción fX(x). Para efectuar dicho cálculo la variable aleatoriaX deberá ser llevada a su forma normal estándar Z, que tienemedia 0 y desvío 1:

Z =X − µXσX

siendo fZ(z) =1√2πe−

12 z

2

Entonces, volviendo al cálculo anterior:

P (a < X < b) =tabulado

P

(a− µXσX

< Z <b− µXσX

)Propiedades:

1. FZ(z) = φ(z)

2. φ(−z) = 1− φ(z)

3. Si W =∑ki=1 (ciXi) con ci ∈ R y Xi variables aleatorias con distribución normal de media

µXi y varianza σ2Xi, entonces W es una variable aleatoria normal con µW =

∑ki=1 (ci · µXi)

y si las Xi son independientes entonces σ2W =

∑ki=1

(c2i · σ2

Xi

).

4. La mezcla de variables aleatorias normales no es una variable aleatoria normal.

7.2.1 Teorema Central del Límite (TCL)

Teorema: dados n valores Xi independientes e idénticamente distribuidos, con media µX y desvíoσX conocidos, si W =

∑ni=1Xi y si n es sucientemente grande (generalmente n > 25) entonces

W tiene distribución normal con media nµX y desvío√nσX .

17

Page 18: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

7.3 Distribución chi cuadrada

Figura 6: Distribución chi cuadrada

Distribución chi cuadrada: la variable aleatoria continua X tiene una distribución chi cuadrada,con ν grados de libertad, si su función de densidad está dada por

f(x; ν) =

1

2ν2 Γ( ν2 )

· x ν2−1 · e− x2 si x > 0

0 ∀ otro x

Media: ν

Varianza: 2ν

La distribución χ2ν NO es simétrica.

Teorema: si Z ∼ N (0, 1), entonces U = Z2 distribuye como U ∼ χ2ν=1

Teorema: sea T =∑ni=1 (Zi)

2, donde las Zi ∼ N (0, 1) son independientes, entonces T ∼ Γ

(α = n

2 , β = 12

),

o lo que es lo mismo, T ∼ χ2ν=n.

7.4 Distribución de Weibull

Figura 7: Distribución de Weibull

Distribución de Weibull: la variable aleatoria continua X tiene una distribución de Weibull,con parámetros α > 0 y β > 0, si su función de densidad está dada por

f(x;α;β) =

αβxβ−1e−αx

β

si x > 0

0 ∀ otro x

18

Page 19: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Media: α−1β · Γ(1 + 1

β )

Varianza: α−2β

Γ(1 + 2

β )−[Γ(1 + 1

β )]2

Función de distribución acumulada: FX(x) = 1− e−αxβ para x ≥ 0

7.5 Distribución Gamma generalizada

Distribución Gamma generalizada: la variable aleatoria continua X tiene una distribuciónGamma generalizada, con parámetros α > 0 y β > 0, si su función de densidad está dada por

f(x;α;β) =

1

βαΓ(α)xα−1e−x/β si x > 0

0 ∀ otro x

donde Γ(α) =´∞

0xα−1e−x dx, Γ(n) = (n− 1)! y Γ(0,5) =

√π.

Media: αβ

Varianza: αβ2

7.6 Distribución Beta

Figura 8: Distribución Beta

Distribución Beta: la variable aleatoria continua X tiene una distribución Beta, con parámetrosα > 0 y β > 0, si su función de densidad está dada por

f(x;α;β) =

Γ(α+β)

Γ(α)Γ(β)xα−1(1− x)β−1 si 0 < x < 1

0 ∀ otro x

donde Γ(α) =´∞

0xα−1e−x dx, Γ(n) = (n− 1)! y Γ(0,5) =

√π.

Media: αα+β

Varianza: αβ(α+β)2(α+β+1)

19

Page 20: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

7.7 Distribución t de Student

Figura 9: Distribución t de Student

Teorema: sean Z ∼ N (0, 1) y V ∼ χ2ν . Si Z y V son independientes, entonces la distribución de

T =Z√V/ν

está dada por

h(x) =Γ[ν+1

2

]Γ[ν2

]√πν

(1 +

x2

v

)−(ν+1)/2

para t ∈ R

que es la distribución t de Student con ν grados de libertad.

Media: 0 (para v > 1)

Varianza: νν−2 para ν > 2

h(x) es simétrica.

Teorema: conforme ν →∞, tν → Z, siendo Z ∼ N (0, 1). En general basta con que ν ≥ 20.

7.8 Distribución F de Fisher

Figura 10: Distribución F de Fisher

Teorema: sean U y V dos variables aleatorias independientes tales que U ∼ χ2u y V ∼ χ2

v. Ladistribucipon de la variable aleatoria

F =U/u

V/v

20

Page 21: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

está dada por

h(f) =

Γ[u+v

2 ](uv )u/2

Γ[u2 ]Γ[ v2 ]f(u/2)−1

(1+uf/v)(u+v)/2 si f > 0

0 si f ≤ 0

y se conoce como la distribución F de Fisher con u y v grados de libertad. Se la denota comoFu,v.

Media: vv−2 (para v > 2)

Varianza: 2v2(u+v−2)u(v−2)2(v−4) (para v > 4)

8 Aproximaciones de distribuciones

8.1 Aproximación de la binomial mediante la normal

Si X ∼ BI(n, p), entonces cuando n → ∞ y p → 12 , X tiene aproximadamente una distribución

normal Y ∼ N(µ = np, σ2 = np(1− p)

), y además

P (X ≤ x) ≈ P (Y ≤ x+ 0,5)

P (X = x) ≈ P (x− 0,5 < Y < x+ 0,5)

La aproximación será buena si np ≥ 5 cuando p ≤ 12 , o si np(1− p) ≥ 5 cuando p > 1

2 .

8.2 Aproximación de la binomial mediante la Poisson

Si X ∼ BI(n, p), entonces cuando n → ∞, p → 0 y np → µ permanece constante, X tieneaproximadamente una distribución Poisson Y ∼ PO(µ = np).

P (X = x) ≈ P (Y = x)

8.3 Aproximación de la Poisson mediante la normal

Si X ∼ PO (λt), y λ > 10 entonces X tiene aproximadamente una distribución normal Y ∼N(µ = λt, σ2 = λt

).

P (X = x) ≈ P (x− 0,5 < Y < x+ 0,579)

Cuando λ > 1000, P (X ≤ x) = P (Y ≤ y)

8.4 Aproximación de la hipergeométrica mediante la binomi-al

Si X ∼ HIP (k,N, n), y nN ≤ 0,05, entonces X tiene aproximadamente una distribución binomial

Y ∼ BI(µ = nk

N , σ2 = n · kN

(1− k

N

)).

P (X = x) ≈ P (Y = x)

21

Page 22: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

9 Funciones de variables aleatorias

9.1 Transformación de variables aleatorias

9.1.1 Caso discreto

Teorema: sea X una variable aleatoria discreta con distribución de probabilidad f(x). Si tenemosla transformación Y = u(X), que es una función inyectiva y = u(x) de la cual podemos resolverpara x en términos de y mediante x = w(y), entonces la distribución de probabilidad de Y es

g(y) = f [w(y)]

Teorema: sean X1 y X2 variables aleatorias discretas con distribución de probabilidad conjun-

ta f(x1, x2). Si tenemos las transformaciones

Y1 = u1(x1, x2)

Y2 = u2(x1, x2), que son funciones inyectivas

y1 = u1(x1, x2)

y2 = u2(x1, x2), de las cuales podemos resolver x1, x2 en términos de y1, y2 mediante

x1 = w1(y1, y2)

x2 = w2(y1, y2),

entonces la distribución de probabilidad conjunta de Y1y Y2 es

g(y1, y2) = f [w1(y1, y2), w2(y1, y2)]

9.1.2 Caso continuo

Teorema: sea X una variable aleatoria continua con distribución de probabilidad f(x). Denamoscon Y = u(X) una transformación inyectiva entre los valores de X y Y , de manera que la ecuacióny = u(x) se resuelva para x en términos de y mediante x = w(y). Entonces, la distribución deprobabilidad de Y es

g(y) = f [w(y)] · |J |

donde J = w′(y) es el jacobiano de la transformación.

Teorema: suponga que X es una variable aleatoria continua con distribución de probabilidad f(x).Denamos la transformación no inyectiva Y = u(X). Si el intervalo sobre el que se dene X sepuede dividir en k conjuntos disjuntos, de manera que cada una de las funciones inversas xk = wk(y)de y = u(x) dena una correspondencia inyectiva, entonces la distribución de probabilidad de Yes

g(y) =

k∑i=1

f [wi(y)] · |Ji|

donde Ji = w′i(y), i = 1, 2, ..., k.

Teorema: suponga que X1 y X2 son variables aleatorias continuas con distribución de probabilidad

conjunta f(x1, x2). Denamos la transformación inyectiva

Y1 = u1(X1, X2)

Y2 = u2(X1, X2), de manera que

las ecuaciones

y1 = u1(x1, x2)

y2 = u2(x1, x2)se pueden resolver para x1, x2 en términos de y1, y2 mediante

x1 = w1(y1, y2)

x2 = w2(y1, y2). Entonces, la distribución de probabilidad conjunta de Y1, Y2 es

g(y1, y2) = f [w1(y1, y2), w2(y1, y2)] · |J |

donde J = det

[∂x1

∂y1

∂x1

∂y2∂x2

∂y1

∂x2

∂y2

]

22

Page 23: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

9.2 Extremos de n variables aleatorias

Sean las variables aleatorias independientes e idénticamente distribuídas X1, . . . , Xn con funciónde densidad fX(x) y función de distribución FX(x).

Máximo Mínimo

XM = max X1, . . . , Xn Xm = mın X1, . . . , Xn

fXM (x) = nfX(x) [FX(x)]n−1

fXm(x) = nfX(x) [1− FX(x)]n−1

FXM (x) = [FX(x)]n

FXm(x) = 1− [1− FX(x)]n

9.3 Suma de dos variables aleatorias

Sean X,Y dos variables aleatorias con densidad conjunta fX,Y (x, y). Sea Z = X + Y . Para cadaz ∈ R, Bz = (x, y) ∈ R² : y ≤ z − x vale que

fZ(z) =

ˆ +∞

−∞fX,Y (x, z − x) dx

9.4 Mínimo entre dos variables aleatorias

Sean X,Y dos variables aleatorias con densidad conjunta fX,Y (x, y). Sea U = mınX,Y . Paracada u ∈ R vale que

FU (u) = 1−ˆ ∞u

ˆ ∞u

fX,Y (x, y) dx dy

9.5 Cambio de variable lineal

Sea la variable aleatoria X con función de densidad fX(x). La función de densidad del cambio devariable Y = aX + b, donde a > 0 y b ∈ N, es:

fY (y) =1

a· fX

(y − ba

)

9.6 Ejemplo de cambio de variable

Sea la variable aleatoria X tal que fX(x) = 19 (x+ 1)

2para x ∈ [−1, 2].

Sea la variable aleatoria Y =

X si − 1 ≤ X < 1

1 si X ≥ 1

23

Page 24: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

La función de distribución de Y es:

FY (y) = P (Y ≤ y)

=

P [X ≤ y] si − 1 ≤ y < 1

P [1 ≤ y] si y ≥ 1

=

´ y−1

19 (x+ 1)

2dx si − 1 ≤ y < 1´ 1

−119 (x+ 1)

2dx si y ≥ 1

=

0 si y < −1127 (y + 1)3 si− 1 ≤ y < 1

1 si y >≥ 1

La función de densidad de Y es:

fY (y) = dFY (y)dy =

19 (y + 1)2 si − 1 ≤ y ≤ 1

0 ∀ otro y

9.7 Ejemplo de cambio de variable bidimensional

Sean la variables aleatorias independientes U1, U2 tales que fUi(ui) = 1 si ui ∈(− 1

2 ,12

)para cada

i ∈ 1, 2.Como son independientes, la función de densidad conjunta es fU1,U2 (u1, u2) = 1 para u1, u2 ∈(− 1

2 ,12

).

Sea la variable aleatoria Z = U1 + U2. Es claro que el rango posible de Z es z ∈ (−1, 1).

Figura 11: Algunas curvas de nivel: U1 + U2 = k para k ∈ R

La probabilidad P (Z ≤ z) , cuando z ≤ 0, se interpreta grácamente como el área que está a laizquierda y abajo de la recta U1 + U2 = z (el triángulo). Cuando z ≥ 0, la probabilidad P (Z ≤ z)puede verse como el área del triangulo de vértices

(− 1

2 ,−12

),(

12 ,−

12

),(− 1

2 ,12

)más el área del

24

Page 25: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

trapecio delimitado por las rectas U1 + U2 = 0 y U1 + U2 = z. O también puede pensarse como 1menos el área del triangulo que está a la derecha y arriba de la recta U1 + U2 = z.

La función de distribución de Z es:

FZ(z) = P (Z ≤ z)

=

0 si z < −1´ z+0,5

−0,5

´ z−x−0,5

1 dy dx si − 1 ≤ z < 0

1−´ 0,5

z−0,5

´ 0,5

z−x 1 dy dx si 0 ≤ z < 1

1 si z > 1

=

0 si z < −1´ z+0,5

−0,5(z − x+ 0,5) dx si − 1 ≤ z < 0

1−´ 0,5

z−0,5(0,5− z + x) dx si 0 ≤ z < 1

1 si z > 1

=

0 si z < −1

0,5z2 + z + 0,5 si − 1 ≤ z < 0

−0,5z2 + z + 0,5 si 0 ≤ z < 1

1 si z > 1

Por lo tanto, la función de densidad de Z es:

fZ(z) =d (Fz(z))

dz=

z + 1 si − 1 ≤ z < 0

1− z si 0 ≤ z < 1

0 ∀ otro z

10 Simulación

Sea U una variable aleatoria tal que U ∼ f(0, 1). Sea X una variable aleatoria tal que su funciónde distribución es FX(x). Si

X =

F−1X (U) si FX es creciente

sup x ∈ < : FX(x) < u en otro caso

entonces X es una variable aleatoria tal que su función de distribución es FX(x).

Ejemplo: sea X una variable aleatoria exponencial de parámetro λ = 1.

fX(x) = e−x

FX(x) = 1− e−x

x = F−1X (u)

x = − ln (1− u)

25

Page 26: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Parte II

Estadística

Objetivo: a partir de las observaciones de un fenómeno aleatorio, hacer inferencias sobre la dis-tribución de probabilidades subyacente.

11 Deniciones

Población: totalidad de las observaciones en las que estamos interesados, de número nito oinnito.

Muestra: subconjunto de una población.

Muestra aleatoria: sean X1, X2, . . . , Xn variables aleatorias independientes, cada una con la mis-ma distribución de probabilidad fX(x). Denimos X1, X2, . . . , Xn como una muestra aleatoria detamaño n de la población fX(x), y su distribución de probabilidad conjunta es f (x1, x2, . . . , xn) =f (x1) f (x2) · · · f (xn).

Estadístico: variable aleatoria que es función de variables aleatorias que forman una muestraaleatoria.

Estimador: estadístico que se usa para estimar el valor de un parámetro desconocido de unadistribución de probabilidad.

12 Estadística inferencial

12.1 Propiedades de los estimadores

Sea X una variable aleatoria que depende de un parámetro desconocido θ. Sea θ un estimador deθ basado en una muestra aleatoria de tamaño n.

1. Sesgo: B[θ]

= E[θ]− θ

Si B[θ]

= 0 para el parámetro θ, el estimador θ es insesgado.

Si lımn→∞B[θ]

= 0, el estimador θ es asintóticamente insesgado, y por lo tanto,

ECM[θ]

= var[θ]

2. Varianza: var[θ]

= E[(θ − θ)2

]3. Error cuadrático medio:

ECM[θ]

= E

[(θ − θ

)2]

= var[θ]

+B2[θ]

4. Consistencia: a medida que aumenta el tamaño de la muestra, el estimador se aproxima alverdadero valor del parámetro.

a) Consistencia débil: para cada ε > 0, debe cumplir que

lımn→∞

P(∣∣∣θ − θ∣∣∣ > ε

)= 0

Teorema: si θ es asintóticamente insesgado y var[θ]−→n→∞

0, entonces θ es débilmente

consistente.

26

Page 27: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

b) Consistencia fuerte:

P(

lımn→∞

θ = θ)

= 1

5. Eciencia: si var[θ1

]< var

[θ2

]entonces θ1 es mejor estimador que θ2.

12.2 Comparación de estimadores

El estimador θ1 es mejor que el estimador θ2 si ECM[θ1

]≤ ECM

[θ2

]para todo θ, con desigual-

dad estricta para al menos un valor de θ.

12.3 Algunos estadísticos importantes

Sean X1, X2, . . . , Xn una muestra aleatoria de tamaño n de una población con distribución X ∼N(µ, σ2

).

Media de la muestra:

X =1

n

n∑i=1

Xi

Es insesgado.

ECM[X]

= σ2

n

Distribución muestral de X: X ∼ N(µX = µ, σ2

X= σ2

n

).

(Si X 6∼ N (µ, σ2), la distribución anterior vale sólo para n sucientemente grande).

Varianza de la muestra:

S2 =1

n− 1

n∑i=1

(Xi − X

)2=

1

n (n− 1)

n n∑i=1

X2i −

(n∑i=1

Xi

)2

Es insesgado.

Teorema: si S2 es la varianza de una muestra aleatoria de tamaño n que se toma de

una población normal que tiene varianza σ2, entonces el estadístico U = (n−1)·S2

σ2 =∑ni=1

(Xi−X)2

σ2 tiene una distribución chi cuadrada con ν = n− 1 grados de libertad.

Proporción de la muestra:

P =X

n

donde X es la cantidad de éxitos en n experimentos.

Distribución muestral de P : P ∼ N(p, p(1−p)n

)Diferencia de dos medias:

∆ = X1 − X2

Distribución muestral de ∆: ∆ ∼ N(µ∆ = µ1 − µ2, σ

2∆ =

σ21

n1+

σ22

n2

)Diferencia de dos proporciones:

∆ = P1 − P2

Distribución muestral de ∆: ∆ ∼ N(µ∆ = p1 − p2, σ

2∆ = p1(1−p1)

n1+ p2(1−p2)

n2

)27

Page 28: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

13 Estimadores puntuales

SeaX una variable aleatoria cuya distribución pertenece a la familia paramétrica F = Fθ(x) : θ ∈ Θ.Sean los valores x = (x1, x2, . . . , xn) de una muestra aleatoria X = (X1, X2, . . . , Xn).

Familia regular: la familia F = Fθ(x) : θ ∈ Θ es regular si cumple que:

1. El conjunto de parámetros Θ es abierto.

2. El soporte de fX(x) no depende de θ.

3. La función fX(x) es derivable respecto a θ.

Ejemplo: algunas familias no regulares:

Bernoulli discreta (no se cumple 1)

Uniforme continua (no se cumple 2)

Estimador puntual del parámetro θ: variable aleatoria θ(X) que depende de la muestra aleato-ria pero no del parámetro.

13.0.1 Estimadores de máxima verosimilitud

Estimador de máxima verosimilitud: valor θmv ∈ Θ que maximiza la función de verosimilitud

L (θ|x) =

n∏i=1

f (xi|θ)

Cálculo del emv para familiares no regulares: debe hacerse a mano.

Cálculo del emv para familias regulares: θmv es solución del siguiente sistema de ecuaciones:∑ni=1 ψj (θ|xi) = 0 si j = 1, . . . , d

ψj (θ|x) = ∂ log f(x|θ)∂θj

para cada x, y para j = 1, . . . , d

Esta condición es necesaria pero no suciente. Para asegurarse que θ es un máximo, debe vericarselas condiciones de segundo orden, y vericar que sea un máximo absoluto.

Dada una muestra aleatoria X = (X1, X2, . . . , Xn) de tamaño n:

Distribución Estimador de máxima verosimilitud

X ∼ f (0, θ) θmv(X) = max (X1, X2, . . . , Xn)X ∼ Bernoulli(p) pmv(X) = X

X ∼ Binom (n, p) pmv(X) = Xn , X = cantidad éxitos

X ∼ Geom(p) pmv(X) = 1X

X ∼ Pascal(r, θ) θmv(X) = rX

X ∼ Poisson (λt) λtmv(X) = X

X ∼ Exp (λ) λmv(X) = 1X

X ∼ Gamma (λ, k), k conocido λmv(X) = nk∑ni=1 Xi

X ∼ N(µ, σ2

), σ2 > 0 conocida µmv(X) = X

X ∼ N(µ, σ2

), µ conocida σ2

mv(X) = 1n

∑ni=1 (Xi − µ)

2

X ∼ N(µ, σ2

) µmv(X) = X

σ2mv(X) = 1

n

∑ni=1

(Xi − X

)2Teorema (principio de invarianza): sea X1, X2, . . . , Xn una muestra aleatoria de una variablealeatoria X cuya distribución pertenece a la familia paramétrica F = Fθ : θ ∈ Θ. Sea g : Θ→ Λ

28

Page 29: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

una función biunívoca de Θ sobre Λ. Si θmv es un estimador de máxima verosimilitud para θ,entonces el estimador de máxima verosimilitud para λ = g(θ) es

λmv = g(θmv

)Teorema: sea X1, X2, . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria Xperteneciente a una familia exponencial uniparamétrica con función de probabilidad de la forma

fX|θ(x) = c(x) · ea(θ)·T (x)+b(θ)

El estimador de máxima verosimilitud de θ basado en la muestra es solución de la ecuación

− b′(θ)

a′(θ)=

1

n

n∑i=1

T (Xi)

siempre y cuando la solución pertenezca al espacio paramétrico Θ.

14 Estimación por intervalo

Sea una muestra aleatoria X = (X1, X2, . . . , Xn) de la variable aleatoria X cuya función de dis-tribución pertenece a la familia paramétrica de funciones F = Fθ : θ ∈ Θ, Θ ∈ <.Intervalo de conanza para θ de nivel 1 − α: intervalo aleatorio I(X) que depende de unamuestra aleatoria X, tal que

P (θ ∈ I(X)) = 1− α

Cota inferior de conanza para θ de nivel 1−α: variable aleatoria a(X) que depende de unamuestra aleatoria X, tal que

P (a(X) ≤ θ) = 1− α

Cota superior de conanza para θ de nivel 1 − α: variable aleatoria a(X) que depende deuna muestra aleatoria X, tal que

P (θ ≤ a(X)) = 1− α

Pivote: dada una variable aleatoria Xθ y dada una muestra X = x, un pivote es una variablealeatoria de la forma Q(X, θ) cuya distribución es conocida, y no depende de θ.

Método de construcción de intervalo de conanza: sea la variable aleatoria X que dependede un parámetro θ. Sea una muestra X = x. Para construir un intervalo de conanza para θ,P (θ ∈ I(X)) = 1− α, los pasos a seguir son:

1. Obtener un estimador puntual del parámetro, θ, en general por máxima verosimilitud.

2. Caracterizar la distribución de θ.

3. Hallar un pivote de θ.

4. Poner cotas al pivote y despejar el parámetro.

Error: si tenemos una estimación θ del parámetro desconocido θ, ε =∣∣∣θ − θ∣∣∣ es el error cometido

en la estimación.

Teorema llave: sea Xi ∼ N(µ, σ2

). Sea la muestra aleatoria X = (X1, X2, . . . , Xn). Valen las

siguientes armaciones:

1. Z =√n(X−µ)σ tiene distribución Z ∼ N (0, 1).

2. U = n−1σ2 S

2 = 1σ2

∑ni=1

(Xi − X

)2tiene distribución U ∼ χ2

v=n−1.

29

Page 30: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

3. Z y U son variables aleatorias independientes.

Teorema: sean X1, X2, . . . , Xn variables aleatorias independientes tales que X ∼ N (µ, σ). Sean losestadísticos

X =1

n

n∑i=1

Xi

S2 =1

n− 1

n∑i=1

(Xi − X

)2Entonces la variable aleatoria T = X−µ

S/√nes T ∼ tν=n−1.

30

Page 31: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Tenemos las muestras X1, X2, . . . , Xn. Notar que [a∓ b] = [a− b, a+ b].

Dist de muestra Parámetro Pivote para el parámetro Dist del pivote I. de C. de nivel 1− α Error

Xi ∼ f(0, θ) θX(n) = max (Xi)

Y =X(n)

θ

fY (y) = nyn−1

y ∈ [0, 1]

[X(n),

X(n)n√α

]Xi ∼ N

(µ, σ2

), σ2

conocidaµ Z = X−µ

σ/√n

Z ∼ N (0, 1)[X ∓ σ√

n· z(1−α/2)

]ε ≤ z(1−α/2)

σ√n

Xi ∼ N(µ, σ2

), µ

conocidaσ2 U =

∑ni=1(Xi−µ)2

σ2 U ∼ χ2v=n

[∑ni=1(Xi−µ)2

χ2n,(1−α/2)

,∑ni=1(Xi−µ)2

χ2n,(α/2)

]

Xi ∼ N(µ, σ2

)µ, σ2 desconocidos

µ, σ2

S =√

1n−1

∑ni=1

(Xi − X

)2Y = X−µ

S/√n

U = (n−1)σ2 S2

Y ∼ tv=n−1

U ∼ χ2v=n−1

I(X)µ =[X ∓ tv=n−1,(1−α/2)

s√n

]I(X)σ2 =

[(n−1)s2

χ2v=n−1,(1−α/2)

, (n−1)s2

χ2v=n−1,(α/2)

]Xi ∼ Bernoulli(p)

n >> 1p Z =

√n(X−p)√n(1−p) Z ∼ N (0, 1)

[z2(1−α/2)+2nX

2z2(1−α/2)

+2n∓

z(1−α/2)

√z2(1−α/2)

+4nX(1−X)

2z2(1−α/2)

+2n

]n ≥ z2

(1−α/2)

ε2

Xi ∼ Binom (n, p) p Z = P−p√p(1−p)n

Z ∼ N (0, 1)

[P ∓ z(α/2)

√p ˆ(1−p)n

] Con conanza (1− α)100 %:

ε ≤ z(1−α/2)

√p(1−p)n

Con conanza ≥ (1− α)100 %:

ε ≤ z(1−α/2)

√14

n

Xi ∼ Exp(λ) λX =

∑ni=1Xi

U = 2λXU ∼ χ2

v=2n

[χ2v=2n,(α/2)

2X ,χ2v=2n,(1−α/2)

2X

]Xi ∼ Poisson(λ) λ

X =∑ni=1Xi

Z = X−nλ√nλ

Z ∼ N (0, 1)

[Xn +

z2(1−α/2)

2n ∓ z(1−α/2)√n

√Xn +

z2(1−α/2)

4n

]Ai ∼ N

(µA, σ

2A

)Bi ∼ N

(µB , σ

2B

)σ2A, σ

2B conocidas

∆ = µA − µB Z =(A−B)−∆√σ2AnA

+σ2BnB

Z ∼ N (0, 1)

[(A− B

)∓ z(1−α/2)

√σ2A

nA+

σ2B

nB

]

31

Page 32: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Dist de muestra Parámetro Pivote para el parámetro Dist del pivote I. de C. de nivel 1− α Error

Ai ∼ N(µA, σ

2A

)Bi ∼ N

(µB , σ

2B

)σ2A = σ2

B desconocidas∆ = µA − µB

S2A, S

2B son los

estimadores devarianza de A y B

S2P =

(nA−1)S2A+(nB−1)S2

B

nA+nB−2

T = (A−B)−∆√S2P

(1

nA+nB

)T ∼ tv=nA+nB−2

[(A− B

)∓ tv=15,(1−α/2)

√S2P

(1

nA+nB

)]

Ai ∼ N(µA, σ

2A

)Bi ∼ N

(µB , σ

2B

)σ2A 6= σ2

B desconocidas∆ = µA − µB T = (A−B)−∆√

S2AnA

+S2BnB

ν =

(S2AnA

+S2BnB

)2

(S2AnA

)2

nA+1 +

(S2BnB

)2

nB+1

T ∼ tνAi ∼ N

(µA, σ

2A

)Bi ∼ N

(µB , σ

2B

)µA, µB desconocidas

R =σ2A

σ2B

F = 1R

(S2A

S2B

)F ∼ FnA−1,nB−1

Xi ∼ Bern (p1)Yi ∼ Bern (p2)n1 ≈ n2, grandes

∆ = p1 − p2 Z = X−Y−∆√X(1−X)n1

+Y (1−Y )n2

Z ∼ N (0, 1)

[X − Y ∓ z(1−α/2)

√X(1−X)

n1+

Y (1−Y )n2

]

32

Page 33: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

15 Test de hipótesis

Objetivo: formar un procedimiento de decisión que se base en datos muestrales, para ofrecer unaconclusión acerca de una conjetura. Dicho procedimiento de decisión debe hacerse con la nociónde la probabilidad de una conclusión errónea.

15.1 Deniciones

Hipótesis estadística: conjetura con respecto a una o más poblaciones. En toda conjetura haydos hipótesis:

H0: hipótesis nula. Se opone a H1 y a menudo (no siempre) es su complemento lógico. Amenudo representa el status quo contrario a una nueva idea. Las conclusiones no implicanuna aceptación literal de H0.

H0 : θ ∈ Θ0

H1: hipótesis alternativa. Por lo general, representa la teoría que debe probarse.

H1 : θ ∈ Θ1

Tipos de hipótesis:

Hipótesis simple: es del tipo H : θ = θ0, donde θ0 ∈ R.

Hipótesis compuesta: es del tipo H : θ ∈ Θ, donde Θ es un subconjunto de R.

Tipos de pruebas:

1. Prueba de una sola cola: prueba donde la alternativa es unilateral, es decirH0 : θ = θ0

H1 : θ > θ0

o

H0 : θ = θ0

H1 : θ < θ0

2. Prueba de dos colas: prueba donde la alternativa es bilateral, es decirH0 : θ = θ0

H1 : θ 6= θ0

Test / Regla de Decisión: función δ : Rn → 0, 1 que le asigna a cada posible realización de lamuestra x una y solo una de las hipótesis.

δ(X) =

rechazamos H0 si X ∈ Raceptamos H0 si X /∈ R

=

1 si X ∈ R0 si X /∈ R

Región crítica: región del espacio Rn sobre la que rechazamos H0.

R = x ∈ Rn : δ(x) = 1

Región de aceptación: región sobre la que no rechazamos H0.

Valor crítico: valor xc para el cual si x > xc, rechazamos H0.

Estadístico de prueba: variable aleatoria X que depende de una muestra aleatoria, sobre la cualse basa la decisión.

33

Page 34: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

15.2 Errores

Situaciones posibles al probar una hipótesis estadística:

Conclusión \ Realidad H0 es verdadera H0 es falsa

No rechace H0 Decisión correcta Error tipo IIRechace H0 Error tipo I Decisión correcta

α = P [error tipo I] = P [rechazar H0|H0 es verdadera]

β = P [error tipo II] = P [no rechazar H0|H0 es falsa]

Propiedades:

Los errores tipo I y II están relacionados. En general, cuando disminuye la probabilidad deuno, aumenta la probabilidad del otro.

El tamaño de la región crítica, y por lo tanto la probabilidad de cometer un error tipo I, sepuede reducir al ajustar el(los) valor(es) crítico(s).

Si aumentamos el tamaño muestral n, entonces α y β se reducen de forma simultánea.

Para un valor n jo, si aumenta α disminuye β.

SiH0 es falsa, β es máximo cuando el valor real del parámetro se aproxima al valor hipotético.

Nivel de signicancia del test: sea δ un test para decidir entre las hipótesis H0 : θ ∈ Θ0 contraH1 : θ ∈ Θ1. El nivel de signicación del test es la máxima probabilidad de rechazar la hipótesisH0 cuando ésta es verdadera.

α = NS = max P [rechazar H0|H0 es V] = maxθ∈Θ0

β(θ)

Su elección es arbitraria, pero generalmente α = 0,05; 0,01; 0,1, etc.

Nivel de conanza del test:NC = 1− α

Función de potencia:β(θ) = P [rechazar H0|θ]

Un test será bueno si para θ ∈ Θ0, β(θ) ≈ 0, y si para θ ∈ Θ1, β(θ) ≈ 1.

Potencia del test: es la probabilidad de NO cometer error de tipo II. Lo ideal es que tienda aser 1. La potencia se ve afectada por tres factores:

1. Tamaño de la muestra (n): a mayor n, mayor potencia.

2. Nivel de signicancia: a mayor nivel de signicancia, mayor potencia, y menor es la regiónde aceptación.

3. El verdadero valor del parámetro que está bajo prueba. Cuanto mayor es la diferencia entreese valor y el valor especicado por H0, mayor potencia, mayor potencia.

Característica operativa: función L(θ) = 1− β(θ).

34

Page 35: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

15.3 Construcción de reglas de decisión

1. Si θ1(X) es una cota inferior de conanza de nivel 1− α para θ, entonces

δ(X) =

1 si θ0 < θ1(X)

0 si θ0 ≥ θ1(X)

es un test de nivel α para decidir entre las hipótesis

H0 : θ ≤ θ0 contra H1 : θ > θ0

2. Si θ2(X) es una cota superior de conanza de nivel 1− α para θ, entonces

δ(X) =

1 si θ0 > θ2(X)

0 si θ0 ≤ θ2(X)

es un test de nivel α para decidir entre las hipótesis

H0 : θ ≥ θ0 contra H1 : θ < θ0

3. Si [θ1(X), θ2(X)] es un intervalo de conanza de nivel 1− α para θ, entonces

δ(X) =

1 si θ0 /∈ [θ1(X), θ2(X)]

0 si θ0 ∈ [θ1(X), θ2(X)]

es un test de nivel α para decidir entre las hipótesis

H0 : θ = θ0 contra H1 : θ 6= θ0

4. Un test de nivel α para decidir entre las hipótesis

H0 : θ = θ0 contra H1 : θ > θ0

es

δ(X) =

1 si Q(θ(X), θ0

)> q1−α

0 si Q(θ(X), θ0

)≤ q1−α

15.4 Test de la χ2 para bondad de ajuste

Objetivo: decidir a favor o en contra de una hipótesis H que arma que los datos observadosconstituyen una muestra aleatoria X = (X1, . . . , Xn) de una distribución F .

Tipos de hipótesis:

Hipótesis simple: F está completamente especicada.

Hipótesis compuesta: F pertenece a una familia paramétrica, que depende de r parámetrosdesconocidos.

Procedimiento: dada una muestra aleatoria de tamaño n, X = (x1, . . . xn), donde X ∼ FX y lahipótesis H0 : FX = Fr; dado un nivel de signicancia de α.

1. Si r ≥ 1, estimar los parámetros desconocidos con EMV, y establecer que FX = Frmv .

35

Page 36: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

2. Dividir el rango de la variable aleatoria X en una cantidad k de conjuntos disjuntos (clasesCi) tales que

pi = P [x ∈ Ci|H0 es verdadera]k∑i=1

pi = 1

pi > 0

npi ≥ 5 (regla de Fisher)

Para evitar que haya clases sub o sobre dimensionadas, utilizar el criterio pi ≈ pj paraCi 6= Cj .

3. Agrupar los datos de la muestra según las clases establecidas, y contar las frecuencias obser-vadas (ni , i = 1...k).

4. Calcular el valor del estadístico:

D2 =

k∑i=1

(ni − npi)2

npi

5. Test:δ(X) = 1

D2 > χ2

ν=k−r−1,(1−α)

16 Estadística Bayesiana

Objetivo: sea X una variable aleatoria cuya función de densidad es conocida y depende de unparámetro θ. La esencia del enfoque Bayesiano consiste en realizar estimaciones acerca de θsuponiendo que θ es una variable aleatoria con cierta función de densidad de probabilidades apriori.

Regla de Bayes:

Caso discreto: P (A|E) = P (E|A)P (A)

P (E|A)P (A)+P(E|A)P(A)

Caso continuo: fY |X=x(y) =fX|Y=y(x)·fY (y)´+∞

−∞ fX|Y=y(x)·fY (y) dy

Función de densidad a priori : función de densidad del parámetro desconocido θ antes derealizar el experimento. Es subjetiva.

πθ(t) , t ∈ Θ

Función de densidad a posteriori : sea la variable aleatoria X con función de densidad f(x|θ),donde la función de densidad a priori de θ es πθ(t). La densidad del parámetro desconocido θdespués de obtener una muestra x es:

πθ(t|x) =f(x|t) · πθ(t)´

Θf(x|t) · πθ(t) dt

Si la muestra es x = (x1, . . . ,xn) entonces la función de densidad a posteriori es:

πθ(t|x) =

∏ni=1 f(xi|t) · πθ(t)´

Θ

∏ni=1 f(xi|t) · πθ(t) dt

Tener en cuenta que el espacio paramétrico Θ puede cambiar luego de realizar el experimento.Ejemplo: sea X ∼ f(0, θ). A priori, θ ∼ f(2, 3). El espacio paramétrico a priori es Θ ∈ (2, 3). Sila muestra obtenida es x = 8, entonces el espacio paramétrico a posteriori es Θ = (8,∞).

36

Page 37: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

Distribuciones predictivas: sea X = (X1, . . . , Xn) una muestra aleatoria de una distribuciónindexada por θ. Se observa que X = x y se quiere predecir el comportamiento de una nuevaobservación Y ∼ g (y|θ), donde Y depende de θ. La función de densidad predictiva (o incondicional)de la nueva observación Y será:

g (y|x) =

ˆg (y|t) · π (t|x) dt

Teorema: si la distribución a priori del parámetro θ es ∼ f(a, b), la densidad a posteriori esproporcional a la función de verosimilitud.

π (t|x) ∝ L (t|x)

16.1 Estimadores bayesianos

Se trata de obtener una estimación puntual o por intervalo para θ, después de haber obtenido unamuestra aleatoria X, donde X tiene función de densidad f(x|θ).

Estimación bayesiana por esperanza condicional: θ(X) = E [θ|X] =´t · π (t|X) dt

Estimación bayesiana por máximo a posteriori: θmap(X) = maxt∈Θ π (t|X)

Estimación por intervalo para parámetro continuo: dada la muestra aleatoria X, para encon-trar un intervalo [a, b] tal que P (θ ∈ [a, b] |X) = 1− α y que la longitud de ese intervalo seala mínima posible, hay que resolver las siguientes ecuaciones:

´ θ(x)

aπ (t|x) dt = 1−α

2

´ bθ(x)

π (t|x) dt = 1−α2

16.2 Estadísticos bayesianos conocidos

Sea X = (X1, . . . , Xn) una muestra aleatoria de tamaño n correspondiente a una variable aleatoriaX.

1. Si X ∼ Bernoulli(θ) y la distribución a priori de θ es ∼ f (0, 1)...

a) Distribución a posteriori de θ: ∼ β(k + 1, n − k + 1) donde k es la cantidad de éxitosque hubo en la muestra

b) Función de probabilidad predictiva: ∼ Bernoulli(k+1n+2

)c) Estimadores bayesianos:

θ(x) = 1n+2 (1 +

∑ni=1 xi)

θmap(x) = kn = x

d) Estimación por intervalo: [0, 1− n+1√α]

2. Si X ∼ N(θ, σ2

)(σ2 conocido) y la distribución a priori de θ es ∼ N

(µ, ρ2

)...

a) Distribución a posteriori de θ: ∼ N(nρ2x+σ2µnρ2+σ2 , σ2ρ2

nρ2+σ2

)b) Función de probabilidad predictiva: ∼ N

(µ∗, σ

2 + ρ2∗)con

µ∗ = nρ2x+σ2µnρ2+σ2 y

ρ2∗ = σ2ρ2

nρ2+σ2

c) Estimadores bayesianos: θ = nρ2x+σ2µnρ2+σ2

37

Page 38: [61.09] Probabilidad y Estadística - Facultad de Ingenieríaweb.fi.uba.ar/~mparnisari/files/6109.pdf · Regla de multiplicación generalizada : si una operación se puede ejecutar

d) Estimación por intervalo:

3. Si X ∼ Poisson(θ) y la distribución a priori de θ es ∼ Γ (ν, λ)...

a) Distribución a posteriori de θ: ∼ Γ (∑ni=1 xi + ν, n+ λ)

b) Función de probabilidad predictiva: f (x|x) = Γ(ν(x)+x)Γ(ν(x))x!

(1

n+λ+1

)x (n+λn+λ+1

)ν(x)

c) Estimadores bayesianos:

θ =∑ni=1 xi+ν

n+λ

θmap =∑ni=1 xi+ν−1

n+λ

d) Estimación por intervalo:

[χ2

2ν(x),α/2

2(n+λ) ,χ2

2ν(x),1−α/22(n+λ)

]4. Si X ∼ Binom(n, P ) y la distribución a priori de P es ∼ f(0, 1)...

a) Distribución a posteriori de P : ∼ β (n, x) donde x es la cantidad de éxitos observadosen la muestra y n es el tamaño de la muestra.

5. Si X ∼ Poisson (λt = θ) y la densidad a priori de θ es ∼ Γ (λ, ν)...

a) Distribución a posteriori de θ:∼ GammaGeneralizada (λΓ = n+ λ, kΓ = (∑ni=1 xi) + ν)

b) Estimadores bayesianos:

θ = n+ν−1λ+∑ni=1 xi

38