Análisis estadístico de microarrays de ADN -...

Post on 29-Sep-2018

224 views 0 download

Transcript of Análisis estadístico de microarrays de ADN -...

Análisis estadístico demicroarrays de ADN

Víctor MorenoBioestadística. Facultat Medicina. UABEpidemiologia i Registre del Càncer. ICO

Advertencia

Varios materiales de esta presentación(imágenes, esquemas, textos) están

copiados y a veces modificados de otrosobtenidos en Internet sin permiso de sus

autores.Me es imposible dar crédito adecuado a losautores originales, a quienes agradezco quepongan sus materiales a disposición pública

Contenido

• Qué es un microarray y para qué sirve.• Análisis estadístico:

– Análisis de imágenes– Control de calidad– Diseño de experimentos– Análisis de expresión diferencial– Reducción de la dimensionalidad– Búsqueda de patrones

Fundamentos

El material genético

DNA

mRNA

mRNA

proteina

genoma

expresión

transcriptase

DNA to RNA

reversetranscriptase

RNA to DNA

DNApolimerase

DNA to cDNA

DNA → RNA → DNA → cDNA

T A T A

A U A T

C G C G

G C G C

T C G A CT C G A C

A G C T GA G C T G

Hibridación

Usos de los microarrays• Análisis masivo del nivel de expresión de

miles de genes:– Clasificación de tumores (lympho-chip).– Respuesta a fármacos.– Asignación de función a genes (ESTs).– Inferencia de redes de regulación génica.

• Otros tipos de microarrays:– genotipado (SNPs, mutaciones, …)– número de copias del ADN (CGH)– …

Tipos de microarrays deexpresión

• Filtros SAGE: serial analysis of gene expression

• De oligonucleótidos, cortos y largos• De 2 colores

– Permiten medir la abundancia relativa de tránscritos deRNA

– Basados en la hibridación competitiva de 2 sondasmarcadas con diferente color con un cDNA diana

• De 4 colores: APEX SNP detection

MétodoEl microarray de ADN

Clones de cDNA(dianas)

Amplificación del producto por PCRPurificación

Impresión

microarray

0.1nl/spot

Micrografia de un spot hibridado en un array deS. cerevisiae

mRNA

DNA(Sonda:Probe)

cDNA microarray(Dianas: Targets)

excitacion

laser 1laser 2

emision

scanning

analisis

sobreimponer imágenes y normalizar

Lectura

A B E F G

E

D

A B E F GC D

A B

GEH

FC

ID

Labelled Target:1 gene/spot

cDNA sample 1

cDNA sample 2

Gene ArrayGene Array

A B E F G

E

D

A B E F GC D

A B

GEH

FC

ID

Labelled Target:1 gene/spot

cDNA sample 1

cDNA sample 2

Gene ArrayGene Array

Aspectos estadísticos

• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones

Datos crudosArrays HU4.6 de Yale• 4.592 dianas repartidas en 4x4

matrices de 24x24 puntos• 2 réplicas de cada diana• 2 hibridaciones posibles por

chip

• 2 imágenes TIFF de 16 bits, 1por color ~ 30Mb

Análisis de la imagen

• Localización de los puntos.• Segmentación: decidir qué

pixels son señal y qué sonbackground.

• Cuantificación: intensidadde la señal de cada canal, elbackground y medidas decalidad.

SegmentaciónSeeded Region Growing Fixed Circle

Spotspequeños

Spots nocirculares

Cuantificación• Intensidad de los spots:

– Media.– Mediana.

• Valores de background:– Local.– Constante (global)– Morphological opening: estimación suavizada

localmente en 2D del background global

Aspectos estadísticos

• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones

Medidas de calidad• Circularidad• Área, perímetro• Razón señal / background• Variación en las intensidades de los pixels• Identificación des spots defectuosos• Correlación entre intensidades de los spots• Porcentaje de spots sin señal• Distribución del área de los spots

Spots

Array

Dificultades de la técnica

Dificultades de la técnica

Dificultades de la técnica

log10(Intensity)

Den

sity

2 3 4 5 6

0.0

0.5

1.0

1.5

2.0

2.5

log10(Intensity)

Den

sity

2 3 4 5 6

02

46

8

Filtrado• Variables:

– Circularidad– Perímetro– Area

área > 30

Área

Réplicas

Normalización

• Objetivo: identificar y eliminar fuentes devariación sistemática que no seandiferencias de expresión:– Diferente eficiencia en el marcaje con color– Diferente cantidad de RNA en cy3 y cy5– Diferentes parámetros de escáner– Efectos espaciales del chip (aguja, zona …)

Normalización

• Es necesaria para asegurar que lasdiferencias en intensidades se deben adiferencias de expresión real, no a artefactosde impresión, hibridización o escaneo …

• El ajuste es un paso previo a cualquier otroanálisis estadístico

• Se evidencia cuando se compara la mismamuestra marcada con 2 colores

Visualización gráfica deintensidades

• Usual– R vs G– log2(R) vs log2(G)

• Preferible– Gráfica MA :

• M = log2(R) - log2(G) = log2(R/G)• A = (log2(R) + log2(G))/2 = (R·G)0.5

Lowess/loess: regresión robustaponderada localmente: suavizado

Normalización• Centrado

log2R/G← log2R/G - L

– Constante: L = media o mediana de log2(R/G)– Adaptativa: L = función de intensidad, sector …

• Regresión ponderada localmente (lowess o loess)

• Escaladolog2R/G←(log2R/G - L)/S

• Métodos 2D

Lowess to rank invariant gene selection

Aspectos estadísticos

• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones

RNA extraction

translation to DNA

DNA labeling

hybridization

scanning

image analysis

statistical analysis

Microarray protocol

Mayorsources ofvariability

Teoría ≠ realidad

tissue

SA

Cy5

Cy3

Cy5

Cy3

RNA

SB

• Sample and array crossed• Array aliased with dye:sample interaction

sample dye array

Dye effect

σ

σ

σ

σ

σ

σ

σ

σ

≡2:

2

2

2

2

2

:

2:

2

: : :

:

:

: :

:: :

:

: :

( )

:g a

g

d

s

a

e

g s

g d

ge

gene

dyesamplearray dye sample interaction

interaction

interaction

intgene array gene dye

ne sam

gene dye

eraction

res

p

sample

idual replica

l

tes

e

: : :g d s a g d g s g ay eµ α β γ κ τ φ λ= + + + + + + + +

Normalised in 20quintiles. Removesdye*sample effect

Variance Component estimate % % over geneinteractions

gene 2,686 86,1dye 0,000 0,0sample 0,000 0,0array = dye:sample 0,000 0,0

gene:dye 0,000 0,0 0,0gene:sample 0,252 8,1 58,1gene:array (dye:sample) 0,162 5,2 37,3

residual 0,020 0,6 4,6

100 13,9

Loop

Reference

G R

R GR G

V1

V2V3

A1

A2

A3

R

G GGV2 V3V1

V0

Comparison to a common controlCT1

B1

CT2

B2

CT3

B3

Var(TA-TB) =4σ2

Error df = 0

Balanced incomplete blocksT1

T2

B1

T2

T3

B2

T3

T1

B3

Var(TA-TB) =4/3σ2

Error df = 1

Aspectos estadísticos

• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones

Expresión diferencial

• Identificar los genes que cambian suexpresión en función de variables de interés– Resultado clínico: supervivencia, respuesta al

tratamiento, tipo de tumor, tratamientos, grupo,dosis, ...

• Estimación: cuantificar el efecto• Test: evaluar la significación estadística

Estimación

• CrudaR/G o log2R/G

• Suavizada: métodos bayesianos empíricos– Se intenta reducir la variabilidad de los valores

mediante la incorporación de informaciónexterna: distribución de probabilidad “a priori”

– Al tratarse de razones, las intensidadespequeñas suelen tener mayor variabilidad quelas grandes

2 4 6 8 10 12 14

-4-2

02

A

Nor

mal

ized

M

Método de Newton

• Supone que las intensidades de cada sondasiguen una distribución Gamma conparámetros (aR , θR) y (aG , θG)

• Modelo jerárquico Gamma-Gamma:– Los parámetros de escala ( θR y θG) provienen de

otra distribución Gamma con parámetros (a0 ,ν)

Measurement error Actual Expression

Expresión diferencial

• Con este modelo Gamma-Gamma, se puedederivar la distribución “a positeriori” de laexpresión diferencial ρ=R/G:

• Y el estimador bayesiano empírico es:

Suavizado

• Los estimadores bayesianos (R+ν)/G+ν)atenúan los estimadores crudos R/G.

• La atenuación es mayor en los valoresmenores

• El orden de las intensidades puede variar

Los cambios ¿Son significativos?

• Métodos sin réplicas (con 1 único array)– |log2 R/G |> k

• Normalmente k = 2 • Justificación: “Porque todo el mundo lo hace así”

– Si se tiene información sobre la variabilidadesperada por azar, se pueden calcular un valorde k que asegure un tasas de falsos positivosdada (Sabatti, UCLA tr304, Math Biosci)

Método de Sabatti

• Sin réplicas• Si se supone que yi ~N(θi,σ) y que hay

“pocos” θi ≠ 0, entonces• los límites k = σ[2log(n)]1/2 son adecuados

para detectar los valores de interés• σ se puede obtener de un experimento en el

que se comparen 2 muestras idénticas(normal-normal)

Sabatti (II)

• Si se desea una tasa de falsos positivos dada(α), se puede mejorar el cálculo de k demanera adaptativa para considerar quenormalmente el número de valores θi ≠ 0 esdesconocido

• Basado en el método de Benhamini &Hochberg (JRSS-B 1995)

• Depende de σ, α y n

Método de Sabatti

2log( )nσ

Método de Newton (2)• El modelo bayesiano empírico Gamma-

Gamma se puede mejorar con una mixturapara modelar la suposición de que unaproporción de los genes no modifican suexpresión:Modelo Gamma-Gamma-Bernoulli

• Se puede estimar con el algoritmo EM• Perimite calcular para cada gen la odds de

haber cambiado de expresión

2 4 6 8 10 12 14

-4-2

02

A

M

Test de hipótesis• Para cada gen podemos hacer un test sobre

la H0 de que no hay expresión diferencial: t-test / ANOVA

• Posibles errores– Tipo I o falso positivo– Tipo II o falso negativo

• Problema de multiplicidad– miles de hipótesis se prueban simultáneamente– Gran aumento de la probabilidad de error tipo I

Tests de hipótesis múltiples

• Definir una tasa de error de tipo I adecuada• Emplear un procedimiento que

– Asegure un control estricto del error de tipo I– Sea potente (pocos falsos negativos)– Tenga en cuenta la distribución conjunta de los

múltiples tests de hipótesis• Reportar un p-valor ajustado para cada gen

que refleje la tasa global de error de tipo I

Métodos basados en réplicas

Modelos jerárquicos Tseng (2001)• Serie de experimentos en las mismas

condiciones• Réplicas de hibridaciones y de spots• Asume log-normalidad de las intensidades• Estima los hiperparámetros (Bayesiano

empírico)• Calcula la distribución a posteriori con

métodos MCMC

Modelos jerárquicos

• Interesante:– Captura la dependencia entre genes

• Problemas:– Basado en log-normalidad - cuestionable

– Ignora las comparaciones múltiples

Métodos no paramétricos

• Dudoit 2002, Tusher 2001• Diseño:

– nC hibridaciones control-control– nD hibridaciones control-test

• Test:

• Permutaciones para evaluar la significación

Permutaciones

• Se intercambian las etiquetas entre control ytest al azar

• Se calcula el test (Ti) para cada gen con elnuevo orden

• Se calcula el p-valor para cada gen según lafórmula

Web resources

• Bioconductor: www.bioconductor.org• Microarrays: www.microarrays.org• Berkeley: www.stat.berkeley.edu• Stanford: genome-www.stanford.edu

Acknowledgments

• Miguel A. Peinado• Gabriel Capellá• Mónica Grau• Elisenda Vendrell• Gemma Tarafa• Antonia Obrador• Xavier Solé

• Institut Catalàd’Oncologia (ICO)

• Institut de RecercaOncològica (IRO)