Probabilidad y Estadística 2011-1 Acordeon 1

9
Probabilidad y Estadística B Macías, F Ciencias 2011-1 ACORDEÓN 1 (MUY beta) I.1 Nociones Básicas Definición frecuentista de probabilidad: la probabilidad de un evento es la proporción de veces que sucede en el largo plazo respecto al total de experimentos / observaciones. Ejemplos: la probabilidad de que llueva es del 15% la probabilidad de que el auto arranque a -20 C es 0.38 Luego veremos que es posible probar (ley grandes números) que en el muy largo plazo (aún por definir) la probabilidad calculada converge a su probabilidad real) Nótese que para los frecuentistas la probabilidad de un evento es un número real, al que aproximamos usando técnicas diseñadas para eso. Antes de proceder al cálculo de probabilidades es necesario iniciar con una conceptualización del fenómeno a estudiar. Lo primero que notamos es que el cálculo de la probabilidad de que un evento E resulte de tal o cual manera debe de contrastarse con la probabilidad de que E ocurra de otra. P. ej., al lanzar una moneda al aire la probabilidad de que una moneda caiga "águila" (siendo un poco informales con la notación): P(E=águila) es complementaria a la probabilidad de que caiga "sol" (el único otro caso posible), y si la moneda está bien balanceada, tendremos además la intuición de que: P(E=águila) = P(E=sol) Otro ejemplo sería calcular la probabilidad de que el clima en un cierto dia sea despejado: P(E'=despejado) que dependera de las probabilidades de todos los otros casos bajo consideración (medio nublado, nublado, etc). Para comenzar requerimos por tanto definir un espacio de muestra conteniendo todos los posibles resultados de la observación o experimento bajo estudio: = { despejado, medio nublado, nublado, lluvioso } Parecería que podemos entonces concebir la probabilidad P como una función que tiene como dominio . Esto es demasiado limitado, porque además de los cálculos anteriores, me gustaría poder escribir combinaciones de circunstancias, como: P(E'=despejado o medio nublado) P(E'=no sea despejado) ... La solución consiste en tomar como dominio de P el conjunto A de subconjuntos de : A = { 0, {despejado}, {medio nublado}, {nublado}, {lluvioso}, {despejado, medio nublado}, {despejado, nublado}, ..., {despejado, medio nublado, nublado},...

Transcript of Probabilidad y Estadística 2011-1 Acordeon 1

Page 1: Probabilidad y Estadística 2011-1 Acordeon 1

Probabilidad y EstadísticaB Macías, F Ciencias 2011-1ACORDEÓN 1 (MUY beta)

I.1 Nociones Básicas

Definición frecuentista de probabilidad: la probabilidad de un evento es la proporción de veces que sucede en el largo plazo respecto al total de experimentos / observaciones.

Ejemplos:la probabilidad de que llueva es del 15%la probabilidad de que el auto arranque a -20 C es 0.38

Luego veremos que es posible probar (ley grandes números) que en el muy largo plazo (aún por definir) la probabilidad calculada converge a su probabilidad real)

Nótese que para los frecuentistas la probabilidad de un evento es un número real, al que aproximamos usando técnicas diseñadas para eso.

Antes de proceder al cálculo de probabilidades es necesario iniciar con una conceptualización del fenómeno a estudiar. Lo primero que notamos es que el cálculo de la probabilidad de que un evento E resulte de tal o cual manera debe de contrastarse con la probabilidad de que E ocurra de otra. P. ej., al lanzar una moneda al aire la probabilidad de que una moneda caiga "águila" (siendo un poco informales con la notación):

P(E=águila)

es complementaria a la probabilidad de que caiga "sol" (el único otro caso posible), y si la moneda está bien balanceada, tendremos además la intuición de que:

P(E=águila) = P(E=sol)

Otro ejemplo sería calcular la probabilidad de que el clima en un cierto dia sea despejado:

P(E'=despejado)

que dependera de las probabilidades de todos los otros casos bajo consideración (medio nublado, nublado, etc).

Para comenzar requerimos por tanto definir un espacio de muestra Ω conteniendo todos los posibles resultados de la observación o experimento bajo estudio:

Ω = despejado, medio nublado, nublado, lluvioso

Parecería que podemos entonces concebir la probabilidad P como una función que tiene como dominio . Esto es demasiado limitado, porque además de los cálculos anteriores, me gustaría poder escribir combinaciones de circunstancias, como:

P(E'=despejado o medio nublado)P(E'=no sea despejado)...

La solución consiste en tomar como dominio de P el conjunto A de subconjuntos de Ω:

A = 0, despejado, medio nublado, nublado, lluvioso,despejado, medio nublado, despejado, nublado, ...,despejado, medio nublado, nublado,...

Page 2: Probabilidad y Estadística 2011-1 Acordeon 1

despejado, medio nublado, nublado, lluvioso

De este modo podemos escribir "la probabilidad de que el día esté nublado","la probabilidad de que el día esté nublado o lluvioso", y "la probabilidad de que el día no esté nublado" respectivamente como:

P(nublado)P(nublado,lluvioso)P(nubladoC) = P(despejado,medio nublado,lluvioso)

(en el tercer caso el universo respecto al que se complementa es Ω).

Def. Un espacio de muestra Ω es un conjunto de puntos que define los posibles resultados de un experimento.

Def. Dado el conjunto A de subconjuntos de Ω, un evento es cualquier A en A.

(Para definiciones más precisas, ver p. ej. Hoel pp. 7-8).

Ejemplo. Sea:

Ω = despejado, medio nublado, lluvioso

A puede ser:

A = despejado, medio nublado, lluvioso, medio nublado, lluvioso

y un evento puede ser:

medio nublado, lluvioso ,

o sea, no despejado.

Nota. Tanto el conjunto vacío 0 como Ω están en A y son por lo tanto eventos.

Definimos ahora la probabilidad de un evento como una función que entrega un número que indica qué tan probable es que el evento suceda. Por convención, la probabilidad de un evento imposible (el vacío) es cero y la probabilidad de que ocurra cualquier resultado en el espacio de muestra Ω es uno. Las propiedades de esta función de probabilidad se introducen a través de los siguientes tres axiomas:

Def. Dado A un conjunto de subconjuntos sobre Ω, la función P:A --> R es una medida de probabilidad si:

1. P(Ω)=12. P(A)>=0 para toda A en A3. Para A0, A1, ... ajenos, P(A0+A1 ...)= Σ P(Ai)

(Usaremos "+" para denotar la unión de conjuntos, "*" para la intersección, el superíndice c en "Ac" para el complemento).

De los axiomas anteriores se siguen algunos lemas inmediatamente.

Lema. P(0) = 0P(Ac) = 1-P(A)

Page 3: Probabilidad y Estadística 2011-1 Acordeon 1

P(B) = P(A*B)+P(Ac*B) para cualquier A, B

P(Σi Ai) = 1-P(Πi Ai)Si A C B, P(A)<=P(B)P(A)<=1

Ejercicio. Demostrar.

Ejercicio. Demostrar:

P(A+B) = P(A)+P(B)-P(A*B)P(A+B+C) = P(A)+P(B)+P(C)-P(A*B)-P(A*C)-P(B*C)+P(A*B*C)

Ejercicio. Generalizar.

Def. Una tripleta (Ω,A,P) define un espacio de probabilidad.

Page 4: Probabilidad y Estadística 2011-1 Acordeon 1

I.II Probabilidad Condicional, Bayes

Probabilidad Condicional

Def. La probabilidad condicional de un evento A dado otro evento B se define como:

P(A|B) = P(A*B)/P(B)

Justificación: usar la interpretación de probabilidad como frecuencia relativa.

De la definición anterior se deriva uno de los teoremas más importantes en Probabilidad, y de gran aplicación en muchas áreas de la Computación. Supongamos que Ω está dividido en una partición A1,...An:

A1 + A2 +... + An = Ω, con Ai*Aj=0 para todas i,j,i!=j

Para cualquier B,

P(B) = Σk P(B*Ak)

(la unión de A's es Ω), y:

P(B*Ak) = P(Ak)*P(B|Ak)

por la definición de condicionalidad. De aquí se sigue el famoso:

Teorema de Bayes

P(Ai|B) = P(B|Ai)*P(Ai)/P(B)

ó:

P(Ai|B) = P(Ai)*P(B|Ai)/Σk P(Ak)*P(B|Ak)

Ejemplo (H. Sahai, 1992). Un paciente que no fuma sufre insuficiencia respiratoria (E). Se sabe que:

E1: condición normal, P(E|E1) = .002, con P(E1)=.991E2: cáncer de pulmón, P(E|E2) = .9, con P(E2) = .001E3: sarcoidosis, P(E|E3) = .95, con P(E3) = .008

(Nota: E1, E2, E3 definen una partición de Ω; Σ P(Ei) = 1).

P(E) = P(E|E1)*P(E1)+P(E|E2)*P(E2)+P(E|E3)*P(E3)= .002*.991+.9*.001+.95*.008= 0.010482

¿Cuál es el diagnóstico más probable?

P(E1|E) = .1991P(E2|E) = .859P(E3|E) = .7251

R: sarcoidosis

Nota: si lo único que se desea es la Ei que maximiza P(Ei|E), el cálculo de P(E) es innecesario).

Ejercicio. Calcular el espacio de probabilidad. Ya dimos una partición de Ω. Otra más "completa" es:

Page 5: Probabilidad y Estadística 2011-1 Acordeon 1

Ω = E1*E, E2*E, E3*E, E1*-E, E2*-E, E3*-E

Podemos calcular:

P(E1*E) = P(E|E1)*P(E1) = .002*.991 = 0.001982P(E2*E) = P(E|E2)*P(E2) = .9 * .001 = 0.0009P(E3*E) = P(E|E3)*P(E3) = .95 * .008 = 0.0076

P(E1*-E) = P(-E|E1)*P(E1) = (1-P(E|E1))*P(E1) = 0.989018P(E2*-E) ... = .0001P(E3*-E) ... = .0004

La suma total debe de dar 1. Veamos:

Σ P(Ei*E)+P(Ei*-E)= Σ P(E|Ei)P(Ei)+(1-P(E|Ei))P(Ei)= Σ P(Ei)= 1

Ejemplo (falsos positivos). Se administra una prueba a un paciente para ver si tiene una enfermedad E que tiene el 0.1% de la población. Dicha prueba:

P(Positiva|E) = .99P(Positiva|-E) = .05

Calcular P(-E|Positiva)

P(-E|Positiva) = P(Positiva|-E)*P(-E)/(P(Positiva|-E)*P(-E)+P(Positiva|E)*P(E))

= .05 * .999 / ( 0.04995 + .99 * .001 ) = .9805

O sea, aunque la prueba sea muy buena, dado que la incidencia de la enfermedad es muy baja la inmensa mayoría de los pacientes que dan positivo no tienen la enfermedad.

Def. Dos eventos A y B son independientes si:

P(A*B) = P(A)*P(B)

Que dos eventos sean independientes significa básicamente que la probabilidad de que ocurra uno no está relacionada con la del otro. Otra manera de poner esto es:

Lema. Dos eventos A y B son independientes ssi:

P(A|B) = P(A).

Ejercicio. Comprobar que ambas nociones son equivalentes.

La noción puede extenderse.

Def. Los eventos:

A = Ai, A2, ... An

son mutuamente independientes (n>=3) ssi::

1. P(A1*A2*...An) = P(A1)*P(A2)*...P(An)

2. Toda subcolección de eventos Aj1,A

j2,...A

jk de A con 2<=k<n, son mutuamente

independientes.

Page 6: Probabilidad y Estadística 2011-1 Acordeon 1

I.III Variables Aleatorias

Sigue una de las definiciones centrales de la probabilidad: la noción de variable aleatoria. La idea detrás es simplemente tener una función que etiquete con un número real cada uno de los eventos, para poder así referirnos a los eventos no directamente, sino a "aquellos que tengan tal o cual etiqueta".

Def. Una variable aleatoria discreta en (Ω,A,P) es una funcion X:

X: Ω -> x1,x2,...

sobre un espacio de muestra discreto Ω tal que x1,x2,... es un conjunto finito de reales y el conjunto:

ω ε Ω | X(ω)=xi

define un evento para toda xi.

Notas

1. Normalmente X es una función total sobre Ω (está definida para cada punto en Ω).

2. No es necesario restringir el rango a un conjunto finito; nuestros ejemplos por ahora estarán sin embargo limitados a esta restricción por lo que una definición más general es innecesaria.

3. El apelativo de "variable aleatoria" es desafortunado, porque estamos en realidad definiendo una función y no una variable, y una que además no es aleatoria. Si el nombre causa confusión, se sugiere cambiarlo en la mente por otro más adecuado como el de "función de etiquetado"

Notacion: P(ω ε Ω | X(ω)=xi) se abrevia como P(X=xi).

Ejemplo. Modelemos un experimento en el que un apostador tira al aire tres monedas, de modo que por cada "águila" que caiga gana un peso y por cada "sol" pierde uno. El espacio de muestra es inmediato:

Ω = AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS

De aquí definimos una función X que mapee cada punto en Ω a la ganancia final del jugador:

ω = AAA AAS ASA ASS SAA SAS SSA SSSX(ω) = 3 1 1 -1 1 -1 -1 -3

Nótese que X funciona exactamente como una función que etiqueta cada punto en el espacio de muestra de manera que ahora puedo referirme a los eventos en los que se gana 3 pesos, aquellos en los que pierde 1, etc:

P(X=3)P(X=-1)...

La función X está definida para capturar la información que es relevante para el jugador (¿cuánto se gana o pierde?); podríamos desde luego definirla de otra manera, pero perderíamos la información necesaria al momento de evaluar las probabilidades. Esto se ve en el siguiente ejercicio.

Ejercicio. Evaluar P(X=xi) para cada xi en 3,1,-1,3 suponiendo monedas bien balanceadas y que el resultado de lanzar cada moneda es independiente de los

Page 7: Probabilidad y Estadística 2011-1 Acordeon 1

demás.

Ejemplo (constante). Para Ω arbitraria, puedo definir una variable aleatoria constante X tal que X(ω)=c para toda ω ε Ω. De este modo,

P(X=c) = P(ω ε Ω|X(ω)=c) = P(Ω) = 1

y:

P(X=c') = P(ω ε Ω|X(ω)=c') = P(0) = 0 para c'!=c

Page 8: Probabilidad y Estadística 2011-1 Acordeon 1

I.IV Funciones de Densidad Discretas

Def. Una función de densidad discreta es la función f respecto a una variable aleatoria discreta X definida por:

f(x) = P(X=x)

para alguna medida de probabilidad P.

Ejemplo (densidad binomial). Regresemos al ejemplo del jugador y las tres monedas. bajo las suposiciones indicadas se puede ver fácilmente que:

P(X=3) = 1/8P(X=1) = 3(1/8)P(X=-1) = 3(1/8)P(X=-3) = 1/8P(X=k) = 0 cuando k no esté en 3,1,-1,-3

Estas ecuaciones definen exactamente la función de densidad asociada. Este ejemplo conforma además un patrón muy común en problemas probabilísticos. Veamos cómo generalizarlo.

Digamos que tenemos un modelo experimental muy sencillo, en el que un experimento solo puede tener dos resultados: "éxito" (denotado por 1) con probabilidad p, y "fracaso" (0) con probabilidad (1-p). Al realizar n experimentos independientes entre sí de este tipo defino implícitamente el espacio de muestra:

Ω = 000...00, 000...01, 000...10, ..., 111...10, 111...11

compuesto por 2n cadenas binarias, cada una de n dígitos binarios. La pregunta ahora es: ¿cuál es la probabilidad de obtener exactamente k éxitos en estos n experimentos? Si X es la variable aleatoria asociada al número de éxitos en cada ω,

P(X=k)= (# cadenas en Ω con k unos) *P(en una cadena haya k unos y (n-k) ceros)

Como se vió (ayudantía), el primer factor es el llamado coeficiente binomial C(k,n)=n!/k!(n-k)!; el segundo factor es (cada experimento es independiente de los demás):

P(A1...An) = Π P(Ai)

donde k de estas Ai son éxitos, y el resto fracasos. Se sigue:

P(A1...An) = Πk P(Ai=1) Πn-k P(Ai=0)= pk(1-p)n-k

Por tanto, la densidad asociada a este problema, conocida como la densidad binomial, es:

f(k) = C(k,n) pk(1-p)n-k para k=0,...,nf(k) = 0 para cualquier otro valor de k

Notación: Son equivalentes:

f es una función de densidadf es una distribución

Cuando una variable aleatoria X tiene una densidad con un nombre específico, también se dice que X tiene una distribución del mismo tipo:

Page 9: Probabilidad y Estadística 2011-1 Acordeon 1

X tiene una densidad binomialX tiene una distribución binomial