Post on 11-Mar-2020
Métodos y tamaños de muestra para el monitoreo de OGMs:
Análisis del muestreo por lotes
Octavio Martínez de la Vega
Langebio – Cinvestav Irapuato
Junio 2012
Objetivo
• Revisar las bases del muestreo de materiales vegetales para la detección y cuantificación de organismos genéticamente modificados (OGM) – en particular plantas.
• Dar una guía sobre los tamaños y procedimientos de muestreo que optimicen el costo beneficio.
09/07/2012 2 CIBIOGEM Junio 2012
Back to Basics • Supuestos:
– Los marcadores de modificación genética (promotores, terminadores y otros elementos introducidos por ingeniería genética) se heredan como elementos Mendelianos dominantes.
– Pueden ser detectados por PCR utilizando iniciadores específicos.
– Se encuentran en equilibrio (de Hardy-Weinberg)
• Las poblaciones son infinitas (grandes, pues)
• Son “selectivamente neutros”
• No hay mutación relevante
• No hay migración 09/07/2012 3 CIBIOGEM Junio 2012
Frecuencias Génicas
• T ( p ) – elemento transgénico, dominante
• t ( 1-p) – “Alelo” silvestre (no transgénico)
• Genotipos (frecuencia en la población) asumiendo equilibio:
TT ( p2 ), Tt ( 2p(1-p) ), tt ( (1-p)2 )
09/07/2012 4 CIBIOGEM Junio 2012
Frecuencias Génicas
09/07/2012 5 CIBIOGEM Junio 2012
Frecuencias Génicas
09/07/2012 6 CIBIOGEM Junio 2012
09/07/2012 7 CIBIOGEM Junio 2012
09/07/2012 8 CIBIOGEM Junio 2012
09/07/2012 9 CIBIOGEM Junio 2012
La probabilidad de un Falso Positivo
• Denotemos por “+” el evento de obtener una prueba (por ejemplo de PCR) positiva.
• Definamos algunas probabilidades condicionales:
• P*“+”|T_] = Probabilidad de obtener una prueba positiva dado que se aplicó a una muestra transgénica.
• P*“-”|tt] = Probabilidad de obtener un resultado negativo dado que se aplica a una muestra no transgénica.
• P[ tt ] = (1-p)2 = Q
• P[ tt | “+”+ = Probabilidad de falso positivo 09/07/2012 10 CIBIOGEM Junio 2012
La probabilidad de un Falso Positivo
• Usando el teorema de Bayes tenemos:
• P[ tt | “+” + = (P* “+”| tt ] P[ tt +) / P*“+”+
• Y podemos calcular:
• P*“+”+ = P*“+”| T_+P[T_+ + P*“+”| tt ]P[ tt ]
• Calculemos con:
• P*“+”| T_+ = 0.99, P*“+”| tt ] = 0.01,
• P[T_] = 0.01 y P[ tt ] = 0.99
• P*“+”+ = (0.99*0.01)+(0.01*0.99) = 0.0198 y
• P[ tt | “+” + = (0.99*0.01)/0.0198 = 0.5 !!!
09/07/2012 11 CIBIOGEM Junio 2012
La probabilidad de un Falso Positivo
• Para simplificar un poco supongamos:
• a = P*“+”| T_+ = P* “-” | tt ]
(Esta es la probabilidad de “acierto” de la prueba y deberá ser alta).
• Obtenemos:
• P[ tt | “+” + = *(1-a)Q] / [a(1-Q) + (1-a)Q]
• Veamos una gráfica de esta función para valores relativamente altos de Q (proporción de individuos no-transgénicos)
09/07/2012 12 CIBIOGEM Junio 2012
09/07/2012 13 CIBIOGEM Junio 2012
09/07/2012 14 CIBIOGEM Junio 2012
09/07/2012 15 CIBIOGEM Junio 2012
Conclusiones sobre falsos positivos
• Aún con pruebas MUY confiables (a ≤ 1/1,000,000) es necesario ser precavidos o tener un esquema de confirmación independiente, pues la probabilidad de falsos positivos es (relativamente) alta cuando tenemos “pocos” transgénicos (Q muy cerca de 1)
09/07/2012 16 CIBIOGEM Junio 2012
Objetivos del muestreo
• Determinar la presencia / ausencia de transgénicos (Detección)
• Si existe, estimar la frecuencia (alélica) de los transgénicos (Cuantificación)
Costo / Beneficio; Costo:
• Total = Colecta + Extracción + PCR
• Usualmente los costos son: Colecta (fijo); Extracción < PCR
(La reacción de PCR es entre 2 y 4 veces más cara que la extracción de DNA; para poner un número específico consideremos 3 veces más cara la PCR que la extracción)
09/07/2012 17 CIBIOGEM Junio 2012
Optimizar
• Con una cantidad fija de recursos maximizar la cantidad de información obtenida
• Esta es función de:
– Q (frecuencia de no-transgénicos; p frecuencia de T_)
– a (probabilidad de “acierto” de la prueba ≈1)
– Costos: Colecta, Extracción, PCR.
• Podemos maximizar la información con un esquema de muestreo por lotes
09/07/2012 18 CIBIOGEM Junio 2012
Teoría del muestreo por lotes • Definamos un lote como un conjunto de k plantas
individuales tomadas al azar de la población.
• Definamos como N el número total de muestras individuales (plantas) que se analizarán y como L el número de lotes de manera que: N = Lk.
• Consideremos tres esquemas de muestreo:
– Individual (se colectan N muestras, se extraen y analizan individualmente)
– Por lotes: Se colectan N muestras en L lotes de k individuos
• A) Se extraen individualmente y se hace PCR del lote (LotA).
• B) Se extraen por lote y se hace PCR del lote (LotB)
09/07/2012 19 CIBIOGEM Junio 2012
Teoría del muestreo por lotes • Costos por N individuos monitoreados
considerando N = Lk y tomando como unidad el costo de extracción de una muestra: C(Ind) = N (Extracción + PCR) = N(1 + 3) = 4N
C(Lot_A) = N (Extracción) + L (PCR) = N + 3L
C(Lot_B) = L (Extracción + PCR) = 4L
• Para fines de detección exclusivamente lo más económico es hacer un solo lote de N individuos!
• Sin embargo, un límite superior SEGURO para el tamaño de los lotes es k=10 individuos (20 gametos); entonces L = N/10
09/07/2012 20 CIBIOGEM Junio 2012
Teoría del muestreo por lotes • Costos por N individuos monitoreados
considerando N = kL = 10L y tomando como unidad el costo de extracción de una muestra: C(Ind) = 4N; C(Lot_A) = 13N/10; C(Lot_B) = 4N/10
• Consideremos un presupuesto total T entonces con cada esquema podremos muestrear:
• NInd = T/4; NLotA = 10T/13; NLotB = 10T/4
• Ahora podemos comparar estos esquemas de muestreo en términos de probabilidad de detección y ganancia de información para distintos valores de Q (p)
09/07/2012 21 CIBIOGEM Junio 2012
Teoría del muestreo por lotes
• NOTA: Diferencia entre LotA y LotB (Se colectan N muestras en L lotes de k individuos)
LotA - Se extraen individualmente y se hace PCR del lote.
LotB - Se extraen por lote y se hace PCR del lote
• La única diferencia entre estos esquemas es que LotA garantiza la equimolaridad (misma concentración de ADN) de cada muestra. Si esas muestras (extraídas individualmente) se guardan, se puede regresar a ellas para confirmar un potencial positivo)
09/07/2012 22 CIBIOGEM Junio 2012
Teoría del muestreo por lotes • Detección: Diremos que se detectaron
transgénicos si al menos una de las muestras es positiva. Denotaremos esto como D=1 y si no hay detección escribimos D=0.
• Es razonable suponer que el número de pruebas positivas sigue una distribución Binomial con probabilidad de “éxito” igual a la frecuencia de individuos transgénicos en la población = π = 1-Q.
• El número de pruebas individuales que se realizan depende del esquema de muestreo y para fines de comparación utilizaremos el presupuesto total T.
09/07/2012 23 CIBIOGEM Junio 2012
Teoría del muestreo por lotes
• En general tenemos:
P[D=1|π] = 1 – (1-π)N
• en donde π es la proporción de individuos transgénicos y N es el número de individuos muestreados.
• Con T fija (para comparación) obtenemos:
• P[D=1 | π, Ind] = 1 – (1-π)T/4
• P[D=1 | π, LotA] = 1 – (1-π)10T/13
• P[D=1 | π, LotB] = 1 – (1-π)10T/4
• Veamos… 09/07/2012 24 CIBIOGEM Junio 2012
Probabilidad de Detección con π=1/100
0.99
09/07/2012 25 CIBIOGEM Junio 2012
Probabilidad de Detección con π=1/1000
0.99
09/07/2012 26 CIBIOGEM Junio 2012
Probabilidad de Detección con π=1/10,000
0.99
09/07/2012 27 CIBIOGEM Junio 2012
Costos de Detección
09/07/2012 28 CIBIOGEM Junio 2012
Teoría del muestreo por lotes Nota al margen (probabilidad de falso positivo en
toda la prueba) • Si Q = 1; π=0 (no transgénicos) entonces la
probabilidad de falso positivo en TODO el muestreo es
P[D=1|Q=1] = 1 – (error)N • En donde • error = P*“+”| tt ] = 1 - P*“+”| T_+ = 1 – a (como antes, “a” es la probabilidad de acierto de la
prueba) • Notemos que P[D=1|Q=1+ tiende “lentamente” a
1 cuando N tiende a infinito. Por ejemplo con error=1/1e6 y N=1000 tenemos
P[D=1|Q=1] ≈ 0.01 09/07/2012 29 CIBIOGEM Junio 2012
Conclusiones sobre detección
• En todas las situaciones los muestreos por lotes tienen un menor costo que los muestreos de plantas individuales
• Desafortunadamente la verdadera proporción de transgénicos (π) es desconocida, sin embargo es fácil calcular la probabilidad de falso negativo:
P[π>0 | D=0]
(para cada esquema de muestreo y cada valor de π) 09/07/2012 30 CIBIOGEM Junio 2012
Estimación de π (Cuantificación) • Al muestrear por lotes (LotA o LotB) perdemos
cierta cantidad de información sobre la verdadera proporción de transgénicos en la población.
• Asumamos el caso en donde solo una “muestra” (planta individual o lote) es positiva, entonces nuestro estimador de π es:
• Est(π|Ind) = 1 / N (estima p2 + 2p(1-p))
• Est(π|LotA) = Est(π|LotB) = [1/N, k/N] = [1/N, 10/N]
• Es decir, al muestrear por lotes obtenemos un intervalo que es “menos preciso” que el estimador en el muestreo individual.
09/07/2012 31 CIBIOGEM Junio 2012
Estimación de π (Cuantificación) • Llamemos X al número de muestras positivas;
XInd = Número de plantas, XLot = Número de lotes. En ambos casos X tiene una distribución binomial, β, con distintos parámetros:
• XInd ~ β(π, N) ; XLot ~ β( f(π), N/k )
• f(π) = P[ Un lote sea positivo]
= P[ Al menos una planta positiva en el lote]
= 1 – P[ No plantas positivas en el lote]
= 1 – (1-π)k
09/07/2012 32 CIBIOGEM Junio 2012
Estimación de π (Cuantificación) • En el primer caso (XInd), XInd/N es un estimador
de máxima verosimilitud para π.
• En el segundo caso (XLot), Y = Xlot/L proporciona un estimador de máxima verosimilitud para
1-(1-π)k
• Despejando el valor de π de la ecuación anterior obtenemos
Est(π)Lot = 1 – exp[ log(1-Y) / k ] (Note que si ponemos k=1 éste estimador es idéntico al
primero)
– ¿cuánto perdemos de información?
09/07/2012 33 CIBIOGEM Junio 2012
09/07/2012 34 CIBIOGEM Junio 2012
Conclusiones de cuantificación
• Al utilizar lotes perdemos una cierta cantidad de información (precisión) sobre el verdadero valor de la frecuencia de transgénicos (π)
• Sin embargo, si el DNA individual de las plantas se guarda (esquema LotA), es posible regresar a esas muestras (solo para los lotes positivos) y “rescatar” la información precisa sobre π.
• Esto mismo es posible si se guardan las muestras (tejido) de las plantas individuales (esquema LotB).
• En cualquiera de los casos, el esquema por lotes resulta más económico que el individual.
09/07/2012 35 CIBIOGEM Junio 2012
Nota
• Esta presentación se elaboró con fines demostrativos. Se preparará, si se considera relevante, un paquete de programas en R (software estadístico gratuito) que implemente los cálculos de una manera sistemática y bien documentada.
09/07/2012 36 CIBIOGEM Junio 2012
Agradecimientos • Estos esquemas se han desarrollado como parte
del proyecto de genotipificación de maíz mexicano, con financiamiento de CIBIOGEM.
• El proyecto es liderado por la Dra. June Simpson (Cinvestav Irapuato) y participan entre otros investigadores el Dr. Humberto Reyes-Valdés (UAAAN) y la Dra. Corina Hayano (Cinvestav Irapuato).
• La determinación del tamaño de lote (k=10) para optimizar muestreos de microsatélites fue desarrollada, principalmente, por el Dr. Humberto Reyes-Valdés (manuscrito en preparación).
09/07/2012 37 CIBIOGEM Junio 2012
(algunas) Referencias
09/07/2012 38 CIBIOGEM Junio 2012
09/07/2012 CIBIOGEM Junio 2012 39