Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les...

82
1 Probabilidad y Estadística para la Bioinformática I: Modelos probabilísticos

Transcript of Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les...

Page 1: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

1

Probabilidad y Estadística para la Bioinformática

I: Modelos probabilísticos

Page 2: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

2

Esquema de la presentacio

IntroduccióEspais de probabilitatVariables aleatòriesModels de probabilitatDistribucions conjuntesDistribucions bivariants absolutament continuesIndependencia de v.a.

Page 3: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

3

Introducció

Page 4: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

4

Presentació i objectius

La bioinformàtica treballa amb gransmasses de dades succeptibles de ser:• modelitzades amb models probabilístics• analitzades amb mètodes estadístics

fonamentats en els models anteriors

Page 5: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

5

Un model per seqüències de ...

Una seqüència de mida N de nucleòtids, aminoàcids, etc. es pot modelitzar amb una cadena formada per les lletres d’un alfabet

1 3 3 2 1 3

1 2

...,

, ,..., , Ni k

S a a a a a a

a A a a a S A

=

∈ = ∈

Page 6: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

6

Ens interessa...

Models que assignin probabilitats a les seqüències: Donat un model, quina probabilitat correspon a una seqüència?• S: M1 P(S|M1), M2 P(S|M2)

Donada una seqüència S, quin dels models disponibles té més probabilitat d’haver-la generat?• S P(M1|S), P(M2|S)...

Page 7: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

7

Resumint: Ens ocuparem de...

Construcció dels models: • CALCUL DE PROBABILITATS

Estimació dels paràmetres del model:• Inferència estadística I: ESTIMACIÓ

Decisió entre models alternatius• Inferència estadística II: CONTRASTOS

Page 8: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

8

Cálcul de probabilitats

Espais de probabilitatsVariables aleatòries unidimensionalsModels probabilístics univariantsDistribucions conjuntes de probabilitatL’enfoc Bayesià

Page 9: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

9

Revisión de conceptos generales 1: Libros

Ewens & Grant (2001), Statisticalmethods in Bioinformatics• 1: One random variable• 2: Many random variables• 4: Stochastic processes (1)

Durbin et al. (1998) Biological sequenceanalysis• 11: Appendix

Page 10: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

10

Revisión de conceptos generales: 2- Enlaces a lecciones de cursos

• Probability review del curso “Probability models for Bioinformatics” (U. Michigan)

• Basic probability de Probability & Statistics lectures for Bioinformatics II (U. Zurich)

• Etc…

Page 11: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

11

Espais de probabilitat

Page 12: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

12

Espais de probabilitat:

Experiment aleatori Espai mostral

Esdeveniments observables: formats per un o més esdeveniments elementals

Probabilitat:d’esdeveniments observables

és un espai de probabilitat

1,..., , Esdev. elementalsnω ωΩ =

iUn o mes , ( )A Aω= ∈ ⊂ ΩA P

( ), ( )P A A ∈ ⊂ ΩA P( ), ,PΩ A

Page 13: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

13

Exemple

Experiment: Treure un codó

Esdeveniment observable: Veure quin AA codifica: No diferenciem entre 2 codons que codifiquen el mateix AAProbabilitat: P(AAi), i=1,...20

, ,..., (64 elements)AAA AAT TTTΩ =

Page 14: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

xyz

14

Probabilitat: Cal conèixer

Propietats de les probabilitatsEsdeveniments independentsProbabilitat condicionadaFórmula de Bayes

Page 15: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

15

Propietats de les probabilitats

Si P es una probabilitat, llavors , :( ) 0( ) 1( ) 1 ( )( ) ( ) ( )( ) ( ) ( ) ( )

Si ( ) ( )

c

C

A BPP AP A P AP B A P B P A BP A B P A P B P A B

A B P A P B

∀ ⊂Ω∅ =

= −

∩ = − ∩∪ = + − ∩⊂ → ≤

Page 16: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

16

Probabilitat condicional

Si A i B són esdeveniments i P(B)>0, la probabilitat condicional d’A, donat B és:

( )( | ) , d'on:( )

P(A B)=P(B) P(A|B)=P(A) P(B|A)

P A BP A BP B∩

=

∩ ⋅ ⋅

COMPTE: Totes los probabilitats són, de fet, probabilitats condicionades donat el model associat a l’experiment

Page 17: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

17

Independència

Dos esdeveniments són independents si la probabilitat del segon donat el primer és la mateixa que la del primer sól

P(B|A)=P(B)

Si dos esdeveniments són independents llavors la probabilitat de llurs interseccions és el productre de las probabilitats:

( ) ( ) ( )P A B P A P B∩ =

Page 18: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

18

Teorema de Bayes

Ve a ser una re-escriptura de la probabilitat condicionada, però té profundes implicacions i aplicacions

1 1

( | ) ( )( | )( | ) ( ) ( | ) ( )

i ii

k k

P B A P AP A BP B A P A P B A P A

⋅=

⋅ + + ⋅

Page 19: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

19

Variables aleatòries

Page 20: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

20

Variables aleatòries

Volem traslladar l’espai de probabilitat a la recta real de forma que es conservin les probabilitats.• A cada li assignem un nombre real• Cal fer-ho de forma que seguim podent

calcular les probabilitats d’esdeveniments observables expressades com nombres o intervals de la recta

Page 21: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

21

Definició formal de v.a.

Una v.a. És una aplicació

construïda de forma que es conservin les probabilitats és a dir que

:

: ( )

X

Xω ω

Ω →

| ( )X xω ω∈ Ω ≤ ∈ A

Page 22: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

22

Funció de distribució

• Atès que requerim que els esdeveniments de la forma siguin observables cal que sapiguem calcular-ne la probabilitat

• La funció de distribució de la v.a. X és:

• Aquesta funció transporta la probabilitat dels esdeveniments observables a la recta real i garanteix que tingui sentit calcular la probabilitat d’un nombre o un interval

( )X xω ≤

[ ]( ) ( )F x P X x P X xω= ≤ = ≤

Page 23: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

23

Variables discretes i contínues

A la pràctica no solem emprar la funció de distribució per calcular probabilitatsPer a això diferenciem entre v.a.:• Discretes: prenen valors d’un conjunt finit o

numerable 0,1, 1,2,3,5,7, • Contínues: prenen valors d’un conjunt no

numerable

Z

, ,(0,1),...+

Page 24: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

24

Variables discretes

X: v.a. discreta amb valors La funció de massa de probabilitat d’X és la funció que assigna a cada valor d’X la probabilitat d’observar-lo

1 2, ,...x x

[ ]( )i ip x P X x= =

Page 25: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

25

Propietats de la f.m.p.

1( ) ( ) 1i i

i ip x p x

== =∑ ∑

1

( ) [ ] ( )

( ) ( ) ( )i

ix x

i i i

F x P X x p x

p x F x F x≤

= ≤ =

= −

Page 26: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

26

Variables contínues

Si X és contínua no podem parlar de probabilitats en un punt ja que

altrament la suma de les probabilitats seria més gran d’1En aquest cas ens cal considerar probabilitats en intervals

[ ] 0 ,P X x x= = ∀

Page 27: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

27

Funció de densitat

Si F és contínua en l’interval existeix una funció la integral de la qual dóna la probabilitat que X prengui valors en aquest interval

f és la funció de densitat de probabilitat

[ ]0 1,x x

[ ]1

0

0 1 ( )x

x

P x X x f x dx≤ ≤ = ∫

Page 28: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

28

Propietats de les densitats

( ) 1f x dx+∞

−∞

=∫[ ]

1

0

0 1 ( )x

x

P x X x f x dx≤ ≤ = ∫[ ]( ) ( )

x

F x P X x f x dx−∞

= −∞ < ≤ = ∫( ) ( ) '( )df x F x F x

dx= =

Page 29: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

29

Esperança i moments

Els moments de les v.a. ens dónen idea de com varien els seus valors.Els dos més importants són• L’esperança matemàtica o valor mig, EX, que

indica el punt entorn del qual varia X• La variància, Var(X), que indica que tan gran

és, en promig, la dispersió al quadrat dels valors respecte el valor mitja

Page 30: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

30

Moments de les v.a. discretes

Si X és discreta es defineix

1( )i i

iEX x p x µ

== ⋅ =∑

( )

( )

2 2

2

1

( )

( )i ii

Var X E X EX

x p x

σ

µ∞

=

= − =

= − ⋅∑

Page 31: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

31

Moments de les v.a. contínues

Si X és contínua es defineix:

( )EX f x dx µ+∞

−∞

= =∫( )

( )

2 2

2

( )

( )

Var X E X EX

x f x dx

σ

µ+∞

−∞

= − =

= −∫

Page 32: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

32

Models de probabilitat

Page 33: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

33

Models de probabilitat (1)

En moltes situacions no cal construir un model de probabilitat sinó que podem adaptar-hi un model pre-existentSuposem que, observem • Punts del genoma: són de restricció?• 2 seqüencies alineades: hi ha coincidència?

Segons què mesurem podrem fer servir un o altre model de probabilitat

Page 34: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

34

Procés de Bernouilli

Si mirem si una parella de cararcetrscoincideix (1=match) o no (0=mismatch)de restricció tenim una D. de BernouilliSi comptem quantes coincidències apareixen en n llocs tenim una BinomialSi comptem el nº de mismatches fins que apareix el primer match tenim una D. Geomètrica

Page 35: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

35

La distribució binomial

Situació: Número de cops que es presenta un esdeveniment A (amb P(A)= p) en Nexperiències independientes.Model: X ~ B(N,p)

Moments E(X)= Np; Var(X)=Np(1-p)

( ) ( )P X k Nk p p k Nk N k

= =⎛⎝⎜⎞⎠⎟ − =

−1 ; 0 , 1, ... ,

Page 36: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

36

Distribució binomial: ExempleEl nombre de cares al llençar 10 cops una moneda regular segueix una d. binomial

X ~B(N=10; p=0,5)

P (X = k )

0

0 ,0 5

0 ,1

0 ,1 5

0 ,2

0 ,2 5

0 1 2 3 4 5 6 7 8 9 1 0

k

Page 37: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

37

Si suposem que les coincidències apareixen aleatòriament i independentment però que en un nombre prou gran de repeticions el nombre mig de coincidències que apareix per un nombre determinat de posicions és constant tenim un Procés de Poisson.

Page 38: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

38

Procés de Poisson

El nombre de matches que apareix en un nombre fix de caracters segueix una D. de Poisson.El temps (espai, “nº de llocs”) entre dos matches segueix una D. exponencial i El temps (espai, “nº de llocs”) entre kmatches segueix una D. Gamma • (D. Gamma=Suma de D. Exponencials)

Page 39: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

39

Distribució de PoissonModel discret que s’associa sovint a comptatges. p.ex.: número de cops que es presenta un esdeveniment en un període de temps (o espai...) quan el temps entre 2 esdeveniments és aleatori;

Model: X~P(λ) Moments: E(X) = Var(X) = λ

( )P X k e k= = =−λ λ k !

; 0 , 1, 2, ... k

Page 40: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

40

Distribució de Poisson: Exemple

El nombre de bacteris per c.c. d’una mostra segueix una distribució de Poisson de mitjana igual a 3,5.

X~P( λ = 3,5 )P(X=k)

0

0,05

0,1

0,15

0,2

0,25

0 1 2 3 4 5 6 7 8 9 10 11 12

k

Page 41: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

41

Distribució normal

Apareix de forma natural quan sumem un elevat nombre de variables independents. En condicions bastants generals molts dels models anteriors que representen sumes de variables iid (Binomial, Gamma, Poisson) tendeixen cap a una normal

Page 42: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

42

Idea general del Teorema Central del Límit (T.C.L.)

Direm que una successió de v.a. Xn verifica el T.C.L. sii existeixen successions de constants an i bn talsque la v.a. suma

verifica 1

n

n ii

S X=

=∑

( )0,1dn n

n

S a Z Nb− ⎯⎯→ ∼

Page 43: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

43

Teorema de Lindeberg i Lévy

Si les Xn són iid, amb esperança i variància finites, µ i σ2 respectivament, tenim i aleshores

A la pràctica podrem fer l’aproximació

( ) ( ) 2, varn nE S n S nµ σ= =

( )0,1dnS n Z Nnµ

σ− ⎯⎯→ ∼

( ),nS N n nµ σ≈

Page 44: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

44

Distribució de la puntuació d’un aliniament

Teorema (Waterman, 1995):• Siguin A1A2...An i B1B2...Bn amb lletres iid

Aj i Bj. Definim aleshores:

1( , )ni ii

S s A B=

=∑

( )

( )2

( ) ( , )

( ) ( ( , ))

lim ( )n

E S nE s A B n

Var S nVar s A B n

S nP x xn

µ

σ

µσ→∞

= =

= =

− ≤ = Φ

Page 45: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

45

Distribucions conjuntes

Page 46: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

46

Distribucions conjuntes de probabilitats

Sovint ens interessa estudiar múltiples característiques d’un fenomen aleatori• L’Alçada, el Pes i el Sexe d’un individu• El # d’A,C,G,T en un genoma de mida N

Les variables que mesuren més d’una característica s´’anomenen vectors aleatoris i les seves distribucions s’anomenen distribucions de probabilitats conjuntes o multivariants

Page 47: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

47

Variable aleatòria bivariant: concepte

Una v.a. bivariant és una aplicació que, a cada resultat d’un experiment, li fa correspondre dos nombres

de manera que, per tot es té

( )

( )

2, :

( ), ( )

X Y

X Yω ω ω

Ω →

| ( ) i ( )X x Y yω ω ω∈ Ω ≤ ≤ ∈ A

( ) 2,x y ∈

Page 48: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

48

Variable aleatòria bivariant: funció de distribució bivariant

La funció de distribució bivariant o conjunta d’X i Y és una generalització immediata del cas univariant:

[ ]2: 0,1F →

[ ]

( , ) | ( ) , ( )

,

Fx y P X x Y y

P X xY y

ω ω ω= ∈Ω ≤ ≤

= ≤ ≤

Page 49: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

49

Variable aleatòria bivariant: cas discret

Estudiarem el cas que (X,Y) és discreta: el recorregut o conjunt de valors possibles és finit o numerable.En aquest cas tota probabilitat

es pot calcular a partir de la funció de densitat discreta bivariant.

( )( ),X Y Ω

( , )P X Y B∈

Page 50: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

50

Densitat discreta (funció de massa de probabilitat)

És una funció Que dóna la probabilitat a cada punt del pla: per tot tenim

( , ) | ( ) , ( )

,

f x y P X x Y y

P X x Y y

ω ω ω= ∈ Ω = =

⎡ ⎤= = =⎢ ⎥⎣ ⎦

( ) 2,x y ∈

[ ]2: 0,1f →

Page 51: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

51

Densitat discreta bivariant: propietats

La massa total de probabilitat sobre el pla és 1:

Per tot subconjunt B de

i en particular

( )( ) ( , ) ,( , ) 1

i j

i jx y X Y

f x y∈ Ω

=∑

( , )

( , ) ( , )i j

i jx y B

P X Y B f x y∈

∈ = ∑2

( , ) , ( , )i j

i jx x y y

F x y P X x Y y f x y≤ ≤

⎡ ⎤= ≤ ≤ =⎢ ⎥⎣ ⎦ ∑ ∑

Page 52: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

52

La distribució multinomialPresentació

Un experiment pot donar k resultats possibles A1,A2,...,Ak amb probabilitats p1,p2,...,pk-1,(1- p1-p2-...-pk-1).Repetim n cops l’experiment i anomenem X1,X2,...,Xk el nombre de cops que es presenta A1,A2,...,Ak.La distribució conjunta d’ X1,X2,...,Xk és una multinomial

Page 53: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

53

La distribució multinomialDefinició

( )

( )

[ ] [ ]

.contrari) cas en 0 (i que talsnegatius no enters per

!!!!,,)(

:ésconjunta densitat de funcióseva la

,1,0 i positiuenter amb),,(~,,, i

paràmetres de lmultinomia ódistribuci té,,

1

121

11

11

1

1

nxx

ppxxx

nxXxXPPf

sii

ppnnMppn

XX

k

iii

xx

kkk

k

iiik

k

K

K

=

======

=≥′=

′=

=

=

……

xXx

pXp

X

Page 54: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

54

Un exemple bioinformàtic: La trinomial

Si considerem l’aliniament de 2 seqüències xy de mida n podem observar • A1 : xi aliniat amb yi. P(A1)=p1

• A2 : xi aliniat amb “-”. P(A2)=p2

• A3 : “-” aliniat amb yi. P(A3)=1-p1-p2

La variable (X1,X2): # de cops que s’observa A1,A2 (X3=n-X1-X2) és una trinomial de paràmetres: n; p1, p2

Page 55: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

55

Trinomial M(5;p1,p2)Valors que pren la distribució

X1 \ X2 0 1 2 3 4 50 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0)1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0)2 (2,0,3) (2,1,2) (2,2,1) (2,3,0)3 (3,0,2) (3,1,1) (3,2,0)4 (4,0,1) (4,1,0)5 (5,0,0)

Page 56: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

56

Trinomial M(5; 0.6, 0.2)Probabilitats conjuntes

X1 \ X2 0 1 2 3 4 50 0.0003 0.0016 0.0032 0.0032 0.0016 0.00031 0.0048 0.0192 0.0288 0.0192 0.00482 0.0288 0.0864 0.0864 0.02883 0.0864 0.1728 0.08644 0.1296 0.12965 0.0778

Page 57: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

57

Page 58: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

58

Distribucions marginals

Donat un vector aleatori pot interessar el comportament individual d’una o cadascuna de les seves components Xi

La distribució de la component i-èssimarep el nom de distribució marginal d’ Xi

Representa el comportament d’ Xi sense tenir en compte les altres, és a dir com si fos una v.a. unidimensional

Page 59: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

59

Les marginals estan als marges

El nom de distribució marginal ve de que en una bivariant discreta com la trinomialels valors d’una fila coincideixen amb el valor d’X2 i tots els d’una columna amb el d’X1 de manera que els valors en la fila 0 o columna 0 (els marges) representen precisament les distribucions marginals fila o columna

Page 60: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

60

Densitats marginals discretes

La densitat marginal d’X és:

i la d’Y: ( )1( ) ( ) ( , )

j

jXy Y

f x f x f yx∈ Ω

= = ∑

( )2( ) ( ) ( , )

i

ix X

Yf y f y f yx∈ Ω

= = ∑

Page 61: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

61

Trinomial M(5; 0.6, 0.2)Distribucions marginals

X1 \ X2 0 1 2 3 4 5 X2 P[X2=x]0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 0 0.01021 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 1 0.07682 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 2 0.23043 (3,0,2) (3,1,1) (3,2,0) 3 0.34564 (4,0,1) (4,1,0) 4 0.25925 (5,0,0) 5 0.0778X2 0 1 2 3 4 5 1.0000

P[X2=x] 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 1.0000

Page 62: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

62

Distribucions condicionals

De vegades ens interessa la distribució d’una component si sabem que l’altre ha pres un valor determinatEn l’exemple dels aliniaments podríem voler conèixer els possibles valors i probabilitats d’un aliniament si sabem que hi ha exactament un “gap” en la seqüencia test

Page 63: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

63

Densitat condicionada

Què podem dir de la distribució de Y si coneixem el valor de X?

sempre que

[ ]

[ ][ ]

( | ) |

, ( , )( )X

f y X x P Y y X x

P X x Y y f x yP X x f x

= = = = =

= = ==

( ) 0Xf x >

Page 64: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

64

Trinomial M(5; 0.6, 0.2)Dist. d’X1 condicionada per X2=1

(X1,1) p(X1,1) pX2(1)p(X1,1)-----------pX2(1)

(0,1,4) 0.002 0.41 0.004(1,1,3) 0.019 0.41 0.047(2,1,2) 0.086 0.41 0.211(3,1,1) 0.173 0.41 0.422(4,1,0) 0.13 0.41 0.316

1

Page 65: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

65

0.00 1.00

2.00 3.00

4.00 5.00

Page 66: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

66

Moments dels vectors aleatoris

Page 67: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

67

Vector de mitjanes

• Esperança aplicada a cada component del vector aleatori:

( )

( )( )

( )

µ

11 1

22 2

kk k

E XX

X E XE E

X E X

µµ

µ

⎛ ⎞⎛ ⎞ ⎛ ⎞⎟⎜⎟⎜ ⎟ ⎟⎜ ⎜⎟⎜ ⎟ ⎟⎜⎟ ⎜⎟⎜ ⎟⎟ ⎜ ⎜⎟⎜ ⎟⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎟⎜= = = = ⎜ ⎟⎟⎜ ⎟⎜ ⎟⎜⎟⎜ ⎟ ⎟⎜ ⎜⎟⎜ ⎟ ⎟⎜⎟ ⎜⎟⎜ ⎟⎟ ⎜ ⎜⎟⎜ ⎟⎟ ⎟⎜⎜ ⎟ ⎝ ⎠⎜ ⎟⎟⎜ ⎟⎜ ⎟⎜⎝ ⎠ ⎝ ⎠

X

Page 68: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

68

Matriu de variàncies i covariàncies:

Matriu formada per les covariàncies entre cada parell de components:

( ) ( )

Σ

11 12 1

21 22 2

1 2

2cov , vari

k

k

k k kk

ij i j ii iX X X

σ σ σσ σ σ

σ σ σ

σ σ σ

⎛ ⎞⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟= ⎜ ⎟⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠

= = =

……

Page 69: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

69

Matriu de correlacions

( )

Ρ

12 1

21 2

1 2

2 2

1

1

1

,

k

k

k k

ij ijij i j

i ji j

ij ij i j

X X

ρ ρρ ρ

ρ ρσ σ

ρ ρσ σσ σ

σ ρ σ σ

⎛ ⎞⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟= ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

= = =

=

Page 70: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

70

Distribucions bivariantsabsolutament contínues

Page 71: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

71

Variables aleatòries bivariantsabsolutament contínues

Direm que (X, Y) és absolutament contínua si existeix una funció f(x, y) (a la que anomenarem funció de densitat absolutament contínua conjunta o bivariant) tal que, per tot :

Si existeix, la funció de densitat absolutament contínua és única.

( , ) ( , )x y

F x y f u v dudv−∞ −∞

= ∫ ∫( ) 2,x y ∈

Page 72: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

72

Propietats de la funció de densitat conjunta

f(x, y) ≥ 0

• i, en particular,

2

( , ) ( , ) 1f x y dxdy f x y dxdy+∞+∞

−∞−∞

= =∫∫ ∫ ∫

( , ) ( , )S

P X Y S f x y dxdy∈ = ∫∫[ ] [ ] 2 2

1 11 2 1 2( ) ( , )

a b

a bP a X a b Y b f x y dxdy< ≤ ∩ < ≤ = ∫ ∫

2 ( , ) ( , )F x y f x y∂ =x y∂ ∂

Page 73: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

73

Densitats contínues marginals i condicionades

Funcions de densitat marginals:

Funcions de densitat condicionades:

( ) ( , )

( ) ( , )

X

Y

f x f x y dy

f y f x y dx

+∞

−∞+∞

−∞

=

=

∫∫

( , )( | ) ( | )( )

( , )X

( | ) ( | )( )Y

f x yf y x f y X xf xf x y

= = =

f x y f x Y yf y

= = =

Page 74: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

74

Densitat condicionada absolutament contínua

Concepte: estudiem la distribució de Yquan donem per fet que X ha pres un valor “molt proper” a x.

( )0

lim |

( , )( )

( | )

y

y

P Y y x X x

f x v dvf x

f v X x dv

εε

−∞

−∞

≤ < ≤ + =

=

=

Correspon al concepte de “densitat condicionada”

Page 75: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

75

Distribució normal bivariant

Pel cas bivariant, k=2, s’indica

amb densitat

on( ) ( ) 2

1 2

1 1, exp ,22 1

f x y Q x yπσ σ ρ

= −−

( )

2 21 1 2 2

21 1 2 2

,

1 21

Q x y

x x y yµ µ µ µρσ σ σ σρ

=

⎛ ⎞⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞− − − − ⎟⎜ ⎟ ⎟ ⎟ ⎟⎜ ⎜ ⎜ ⎜ ⎟− +⎜ ⎟ ⎟ ⎟ ⎟⎜ ⎜ ⎜ ⎜ ⎟⎟ ⎟ ⎟ ⎟⎜ ⎜ ⎜ ⎜⎜ ⎟⎜− ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠

( ) ( )1 2 1 2, , , , ,X Y N µ µ σ σ ρ∼

Page 76: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

76

Normal bivariantpropietats. I.

Marginals:

Condicionades:( ) ( )1 1 2 2, ,X N Y Nµ σ µ σ∼ ∼

( )

( ) 222 1 2

1

,

1

x

x

Y X x N

x

µ σρσ

µ µ µ σ σ ρσ

=

= + − = −

Page 77: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

77

Normal bivariantpropietats. i II.

Tota combinació lineal de X i Y és normal (encara que siguin dependents):

Incorrelació equival a independència:

( ) ( )( )

1 2 1 2

1 2 1 2

1 1 2 22 2 2 21 1 2 2 1 2 1 2

, , , , ,, ( o 0)

2

X Y NX Y N

µ µ σ σ ρβ β α µ σ β βµ β µ β µ ασ β σ β σ β β σ σ ρ

⇒+ + ≠

= + += + +

∼∼

( ) ( ) ( )1 20 ,f x y f x f yρ = ⇔ =

Page 78: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

78

Independencia de v.a.

Page 79: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

79

Variables aleatòries independents

Independència: Concepte oposat al de distribució condicionadaDues v.a. són independents si la probabilitat que una d’elles prengui valors en un interval no depèn dels valors que prengui l’altra

Page 80: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

80

Variables aleatòries independents:

Per tot parell d’intervals I i J

Equivalents a l’anterior: per tot (x,y):• f(x,y) = fX(x)fY(y)• F(x,y) = FX(x)FY(y)• f(y|X=x) = fY(y) i f(x|Y=y) = fX(x)

(aquesta darrera sempre que la corresponent condicionada tingui sentit)

,P X I Y J P X I P Y J∈ ∈ = ∈ ∈

Page 81: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

81

Mostres aleatòries simples

El concepte d’independència és molt important en inferència estadísticaUna mostra aleatòria simple de mida nd’una població X es pot considerar un vector aleatori n-dimensional les components del qual són independents i amb la mateixa distribució que X

( )1 2, ,...iid

nX X X X X=∼

Page 82: Probabilidad y Estadística para la Bioinformática · 29 Esperança i moments zEls moments de les v.a. ens dónen idea de com varien els seus valors. zEls dos més importants són

82

Distribució conjunta d’una mostra aleatòria simple (m.a.s.)

Donada una poblacióLa distribució conjunta d’una m.a.s. d’Xs’obté de forma senzilla gràcies a la independència de les components

( ; )X f x θ∼

( ) ( ) ( ) ( )

( ) ( ) ( )

( ) ( )

1 2 1 21 2 1 2...

1 2. .

1

...

; ; ;

;

n nn nX X X X X Xindep

ni d

n

ii

f x x x f x f x f x

f x f x f x

f x f ;

θ θ θ

θ θ=

= ⋅ ⋅ ⋅

= ⋅ ⋅ ⋅

= =∏ x