Post on 11-Apr-2015
Diseño de experimentos
Diseño de experimentos
Tema 4
Diseño de experimentos
Antecedentes Bibliográficos
Diseño de experimentos
Obtención datos, calibrados, etc.
Exploración de datos
Análisis : tests estadísticos, ajuste de curvas , ….
Etapas de una investigación
Diseño de experimentos
Diseño de experimentos = Un asunto de equilibrio
Maximizar la posibilidad de distinguir bien un efecto
Evitar la interferencia de variables de confusión (hacer réplicas, elegir muestras al azar)
Cuantificar la precisión y exactitud del efecto (intervalos de confianza, calibrados)
Minimizar costos
Nº de muestras suficientes pero no innecesarias (Tamaño de muestra y potencia del test estadístico a utilizar)
Diseño de experimentos
Primero definir bien el tipo de estudio y la técnica estadística que se va a utilizar
• Determinar la Km y Vmax de una enzima usando ajuste de curvas por regresión no lineal.
Estudio experimental
(habrá que diseñar el nº de puntos experimentales, espaciado entre puntos, nº de réplicas, etc.)
• Diferencia en la respuesta a dos tratamientos médicos usando comparación de 2 medias por test “t de student”.
Estudio observacional
(habrá que diseñar el tamaño de muestra y potencia del test estadístico a utilizar, el tipo de muestreo, etc.)
Diseño de experimentos
Diseño de investigaciones experimentales de laboratorio
Diseño de experimentos
Diseño en estudios experimentales ( ajuste curvas)Diseño en estudios experimentales ( ajuste curvas)
Espaciado lineal (0.01-1 mM) Espaciado logarítmico(0.01-1 mM)
• Margen de la variable controlada (por ej. [S])
Normalmente el más amplio posible
• Nº de puntos experimentales y espaciado.
Normalmente Espaciado lineal o logarítmico
Diseño de experimentos
Expresiones para el cálculo de los espaciadosExpresiones para el cálculo de los espaciados
Espaciado linealXsuperior
Xinferior
n puntos1
infsup
n
XXx xiXxi )1(inf
Espaciado logarítmico
Xsuperior
Xinferior
n puntos
inf1 Xx supXxn 1
loglog infsup
n
XXd
inf1 log Xd
ddd ii 1
idix 10
y para los puntos de i=2 a i=n se sigue esta expresión:
Para todos los puntos:
Para el punto 1:
Diseño de experimentos
Necesidad de hacer réplicasNecesidad de hacer réplicas
Fuentes de variabilidad
1) De muestreo (preparación muestra):
Se repite toma de muestra y tratamiento de la muestra
100Xs
CV (%) ¡CV(%) grande!
Enzima
Sustrato
+
2) De técnica analítica:
Se repite la medida de absorbancia, fluorescencia….
¡CV(%) pequeño!100Xs
CV (%)
Diseño de experimentos
Se suelen hacer réplicas de muestreoSe suelen hacer réplicas de muestreo
Enzima
Sustrato 1
+
Réplicas de muestreo (3-5 réplicas a cada sustrato)Se toma una alícuota de cada muestraMedida Medida
AbsorbanciaAbsorbancia
No suele ser necesario hacer réplicas de técnica (basta 1 medida a cada muestra)
Diseño de experimentos
¿Cuántas réplicas se deben hacer?¿Cuántas réplicas se deben hacer?
1) Cuando se desea estimar la media: X
nº réplicas
CV(%)
1 2 3 4 5
3º réplicasden(La media se estabiliza a partir de 3)
2) Cuando se desea estimar la desviación estándar: s
nº réplicas
CV(%)
1 2 3 4 5
5º réplicasden(La desviación estándar se estabiliza a partir de 5)
Diseño de experimentos
Simulaciones por ordenador (SIMFIT)Simulaciones por ordenador (SIMFIT)
a) Diseño de estudios experimentales
• Simular datos exactos, por ejemplo:
ologarítmicespaciado
alesexperimentpuntos10
101.0:][margen
1.0
10
][][
max
max
S
K
V
SKSV
v
m
m
[S] necesaria
[S]
v
Diseño de experimentos
• Se pueden perturbar datos exactos para simular algún tipo de error experimental :
Simulaciones por ordenador (SIMFIT)Simulaciones por ordenador (SIMFIT)
• Error relativo constante del 7.5 %.
•5 réplicas por punto.
a) Diseño de estudios experimentales
[S]
v
Diseño de experimentos
• Gráfica de datos perturbados en forma de media y barras de error (95 %) :
Simulaciones por ordenador (SIMFIT)Simulaciones por ordenador (SIMFIT)
(Las Barras de error representan límites de confianza al 95% calculados con la t de student)
a) Diseño de estudios experimentales
v
[S]
Diseño de experimentos
Diseño de investigaciones observacionales
Diseño de experimentos
PoblaciónConjunto todos los individuos
Inferencia estadística
Media ()
Desviación Estándar ()
Media
Desviación Estándar (s)
x
Diseño de estudios observacionalesDiseño de estudios observacionales
MuestraSubconjunto individuos
Diseño de experimentos
Pasos en tests de contraste de hipótesis
2) Decidir el test a usar:Paramétrico (test “t” Student)
No Paramétrico (test U de Mann Whitney)
4) Aplicar el test y “aceptar” el resultado
3) Fijar un nivel de probabilidad de equivocarse:
Riesgo de equivocarse del 5 ó 1 % 01.005.0 óriesgo
)( 12 H1= Las 2 medias son diferentes
(test bilateral o de 2 colas)
1) Decidir hipótesis nula y alternativa a comparar, por ej. con 2 medias:
)( 21 H0= Las 2 medias poblacionales son iguales
(test unilateral ó 1 cola superior))( 12 H1= La media 2 es mayor que la 1
)( 12 H1= La media 2 es menor que la 1
(test unilateral ó 1 cola inferior)
b) Diseño en estudios observacionales
Diseño de experimentos
Tests paramétricos y no paramétricos
b) Diseño de estudios observacionales
Requisitos de los tests paramétricos: La muestra pertenece a una población cuya distribución de probabilidad es conocida (por ej. distribución normal).
Se comparan los grupos a través de un “parámetro” de la distribución (por ej: la media en el caso de la distribución normal)(De ahí “paramétricos”)
Se utilizan con muestras no excesivamente pequeñas en las que sea posible comprobar la distribución que siguen los datos.
Tests no paramétricos: No se presupone que los datos sigan una distribución determinada.
Se realizan con procedimientos de ordenación (rangos) y recuento.
Se usan con muestras pequeñas (n < 10) en las que se desconoce la distribución que siguen los datos, también para corroborar los resultados obtenidos a partir de los tests paramétricos.
Diseño de experimentos
Tests paramétricos: La Tests paramétricos: La distribución normal (Gaussiana)distribución normal (Gaussiana)
2
22
21
)(
x
exf
Normal:
2
2
21
)(z
ezf
Normal estandarizada:
)( i
i
xz
:adosestandariz valores
b) Diseño de estudios observacionales
(Basado en Domenech 1982, “Bioestadística”, Ed. Herder)
Diseño de experimentos
Otras distribuciones de interésOtras distribuciones de interés
b) Diseño de estudios observacionales
Distribución t de Student: 1n
)(
:
x
zvariablela eas
)( s quecomprueba se
Otras distribuciones: Poisson, Ji-cuadrado, binomial.
Distribución F de Snedecor :
11 2211
22
22
21
21
nn
s
sF" F" variable
;
:
11 2211 nn 22
21 onc spoblacione 2Si
ns
xt" t" valores
n
nn
/:
1
1n
Diseño de experimentos
Ejemplo: comparación de 2 medias por el test Ejemplo: comparación de 2 medias por el test paramétrico “t de Student”paramétrico “t de Student”
Distribuciones normales Misma varianza
15.2, 16.3, 17.2, 16.1,...........15.7
14.1, 13.3, 14.2, 13.1,...........12.7
•Se quiere determinar si la presión sistólica en hombres y mujeres de Salamanca es la misma
Hombres Mujeres
Test “t-Student” de datos independientes bilateral (2 colas)
21 21
222
211
nnnn1)s-(n1)s-(n
XXT
112
21
tT 2colas-)-0.05,(c
Si... Si...
(p<0.05)
(Las medias en las poblaciones de hombres y mujeres son iguales)
tT 2colas-)-0.05,(c
(Las medias en las poblaciones de hombres y mujeres no son iguales)
b) Diseño de estudios observacionales
Requisitos:
H0 = No hay diferencia H1 = Si hay diferencia
Estadístico T
Diseño de experimentos
Test bilateral (2 colas) o unilateral (1 cola)
Test t-student bilateral con riesgo = 0.05
tT colas-) 2-0.05,(c
Curva distribución “t” )( 21
21 21
222
211
nnnn1)s-(n1)s-(n
XXT
112
21
Test unilateral cola inferior con = 0.05
- tc
tT 1cola-)-0.05,(c
Test unilateral cola superior con = 0.05
tc
tT cola-) 1-0.05,(c
)( 21
tc- tc
)( 21
b) Diseño de estudios observacionales
221 nn
221 nn 221 nn
0
0 0
Diseño de experimentos
Clasicamente: tablas de valores “tc” para 2 colas y 1 cola
Actualmente: ordenadores dan p-valor exacto
b) Diseño de estudios observacionales
2 colas
1 cola superior
1.73
2.10
Degrees of freedom = n1 +n2-2 = 10 +10 - 2 =18
TT
T
0.05: 2 colas
0.05: 1 cola
El doble
Diseño de experimentos
Los dos riesgos asociados a un test de hipótesis: Error tipo I (riesgo ) y tipo II (riesgo )
Acierto
Acierto
Potencia del test = 1-
Simil: declarar culpable a un inocente () y viceversa ().
Re
alid
ad
Decisión test
b) Diseño de estudios observacionales
Imaginemos 2 poblaciones y un test unilateral donde el estadístico fuera el valor de la media:
010 :H
011 :H0 1
Región de aceptación H0 Región de rechazo H0
Región de rechazo H1 Región de aceptación H1
Línea de decisión (riesgo):
1Potenciax
Realidad:
01
Diseño de experimentos
¿Cómo estimar el Tamaño de muestra y potencia de ¿Cómo estimar el Tamaño de muestra y potencia de la prueba para diferentes tests estadísticos (SIMFIT)?la prueba para diferentes tests estadísticos (SIMFIT)?
Se elige el test deseado y se fijan los correspondientes riesgos y valores:
b) Diseño de estudios observacionales
Diseño de experimentos
Ejemplo: tamaño de muestra y potencia del test para Ejemplo: tamaño de muestra y potencia del test para comparación de 2 medias por test “t de student” bilateralcomparación de 2 medias por test “t de student” bilateral
21
Curva del % de potencia
Tamaño de muestra
% d
e po
tenc
ia d
el te
stTest bilateral (2 colas) = 0.05= 0.20 ; (1-) = 0.80 (80 %)Varianza (S2) = 1.0 Diferencia entre medias (d) = 1.0
Fijamos:
Tamaño muestra: n = 21 (n1 = 21 y n2 = 21)
22
22222 2s
d
ttn nn
),(),(
b) Diseño de estudios observacionales
Diseño de experimentos
Estimado ya el tamaño de muestra (cuántos) Estimado ya el tamaño de muestra (cuántos) ¿Cómo elegir los sujetos (quiénes)?¿Cómo elegir los sujetos (quiénes)?
Tipos de asignación o muestreo :
ProbabilísticosAsignación aleatoria simple
No ProbabilísticosCasos consecutivos Con voluntarios
Asignación aleatoria balanceada
Tipos de Grupos:Datos independientes
Datos apareados
Muchas veces una investigación consiste en observar una variable en dos grupos, uno de tratamiento (A) y otro de control (B).
b) Diseño de estudios observacionales
Diseño de experimentos
Procedimientos de aleatorización (¿A o B?)Procedimientos de aleatorización (¿A o B?)
Asignación aleatoria simple• Tirar una moneda al aire (cara asignarles “A” y a cruz asignarles “B”)
• Generar números aleatorios y a los pares asignarles “A” y a los impares “B” (practicar con SIMFIT).
El problema es que por azar los dos grupos pueden estar desequilibrados (con 10 sujetos podrían salir 3 caras (A) y 7 cruces (B)
Asignación aleatoria balanceada
• Se suele hacer en base a generar permutaciones aleatorias:
Por ejemplo si hay que asignar 10 sujetos a 2 grupos (A y B) se genera una permutación al azar de los números del 1 al 10 y luego se asignan alternativamente a “A” o “B”.
Consiste en asignar aleatoriamente los sujetos pero garantizando que los dos grupos tengan el mismo número.
Asignación aleatoria estratificada y balanceadaPor ejemplo, si el habito de fumar puede influir en los resultados, los grupos deberían estar balanceados respecto a esa variable (tener mismo número)• La asignación hay que realizarla como en el caso anterior para cada uno de los estratos: 10 Fumadores (A y B) y 10 No-fumadores (A y B)
Diseño de experimentos
Procedimientos de aleatorización en SIMFIT
Generar Permutaciones Aleatorias:
Permutación aleatoria de la serie entera 1-10: 9, 3, 4, 2, 6,10,1, 7, 5, 8
A, B, A, B, A, B, A, B, A, BLuego asignamos:
b) Diseño de estudios observacionales
Diseño de experimentos
Enmascaramiento
1. Etiqueta abierta
2. Ciego
3. Doble ciego
Diseño de experimentos
Comparando “n” medias (ANOVA de 1 factor) (1/5)Comparando “n” medias (ANOVA de 1 factor) (1/5)
Dieta [colesterol total]
Carbohidratos 115, 130, 20,………..
Grasas 180, 194, 199,……….
Proteinas 125, 136, 134, ………
H0= Las 3 medias son iguales
H1= Al menos 2 medias son distintas
Planteamiento
Luego el cociente entre y sb2 y sw
2 debería ser
aproximadamente 1:
12
2
w
b
ss
F
Dieta 121s
1x
n
22sDieta 2
2xn
3x
23sDieta 3
n
x
2xsmezclados
1x 2x3x
N=3n
RazonamientoH0=Las 3 dietas producen el mismo colesterol, los datos proceden misma población con 2
Si H0 fuese verdad, entonces la varianza sb2
estimada a partir de las medias (“entre” (bentween) las dietas) habría de ser aproximadamente igual a la varianza promedio sw
2 estimada a partir de cada una de las dietas (“dentro” (within) de las dietas), ya que ambas estiman el mismo 2 de una misma población
Diseño de experimentos
Cálculos y tabla final de un ANOVA de 1 factor (2/5)Cálculos y tabla final de un ANOVA de 1 factor (2/5)
Fuente de variación SSQ NDOF MSQ F pEntre Grupos (b) 3.898E+04 2 1.949E+04 1.278E+02 0.0000Dentro grupos(w) 3.203E+03 21 1.525E+02 Total 4.219E+04 23
Este estadístico “ F ” se compara con la distribución “F” de Snedecor y se determina su “p” valor.
La costumbre es mostrar estos cálculos con la siguiente tabla que es equivalente:
2
2
w
b
ss
F
(Cuanto más se separe F de 1 (mayor sea F), más probabilidad tiene la hipótesis alternativa)
23
22
21
2
31
ssssw
2222xbbx nssnss
Las varianzas “entre” (b) y “dentro” (w) se calculan así:
k
j
n
iji jxxwSSQ
1 1
2)()( kNwNDOF )(kNwSSQ
swMSQ w )(
)( 2
k
j
xj xxnbSSQ 2)()( 1)( kbNDOF1
)()( 2
kbSSQ
sbMSQ b
)()(
wMSQbMSQ
F
(Suma cuadrados) (Nº grados libertad) (Cuadrado medio)
Diseño de experimentos
H0= Las 3 medias son iguales
H1= Al menos 2 medias son distintas
Ejemplo de ANOVA de 1 factor Ejemplo de ANOVA de 1 factor (3/5)(3/5)
Dieta [colesterol total]
Carbohidratos 115, 130, 20,………..
Grasas 180, 194, 199,……….
Proteinas 125, 136, 134, ………
Datos ficticios con fines de ejemplo
Fuente de variación SSQ NDOF MSQ F p Entre Grupos 3.898E+04 2 1.949E+04 1.278E+02 0.0000 Dentro grupos 3.203E+03 21 1.525E+02 Total 4.219E+04 23
Luego rechazamos H0 con riesgo p=0.0000 de equivocarnos (las 3 medias no son iguales, hay diferencia significativa entre ellas).
Diseño de experimentos
Representación de las medias del ejemplo anterior Representación de las medias del ejemplo anterior (4/5)(4/5)
Diseño de experimentos
Ejemplo: test de Tukey en Ejemplo: test de Tukey en ANOVA de 1 factorANOVA de 1 factor
Test de Tukey para comparaciones 2 a 2 a posteriori
Varianza dentro de grupos (MSQ dentro)
Y la p del estadístico Q se obtiene de la distribución q de rango studientizado
Diseño de experimentos
Ejemplo: test de Tukey en Ejemplo: test de Tukey en ANOVA de 1 factorANOVA de 1 factor
Test de Tukey para comparaciones 2 a 2 a posteriori
Test Q de Tukey para 3 medias y 3 comparaciones
Columnas Q p 5% 1% 2 1 2.015E+01 0.0001 * * 2 3 1.895E+01 0.0001 * * 3 1 1.202E+00 0.6768 NS NS
Hay diferencias significativas (p<0.01) entre las medias 2 y 1 y 2 y 3, pero no entre las medias 3 y 1.
Diseño de experimentos
¿Cómo estimar el Tamaño de muestra para un ¿Cómo estimar el Tamaño de muestra para un ANOVA con SIMFIT?ANOVA con SIMFIT?
Se elige la opción ANOVA y se fijan los respectivos riesgos y valores:
b) Diseño de estudios observacionales
Diseño de experimentos
¿Cómo estimar el Tamaño de muestra para un ¿Cómo estimar el Tamaño de muestra para un ANOVA con SIMFIT?ANOVA con SIMFIT?
b) Diseño de estudios observacionales
Test bilateral (2 colas) = 0.05= 0.20 ; (1-) = 0.80 (80 %)Varianza (S2) = 1.0 Diferencia entre medias (d) = 1.0K = 4 (nº de grupos)n = 20 (tamaño aproximado por grupo)
Fijamos:
Diseño de experimentos
•Variar sucesivamente cada factor en un rango, manteniendo
constantes los factores restantes en el nivel de su línea base.
•Este enfoque desestima el efecto de la interacción entre los
factores, que podría existir y ser importante.
• Normalmente es más interesante estudiar 2 ó 3 factores
simultáneamente, con el fin de investigar el efecto de los factores
individuales (efectos principales) así como también el efecto debido a
las interacciones entre los factores (efecto de interacción).
Ing. Felipe Llaugel
Enfoque de un factor a la vez
Diseño de experimentos Ing. Felipe Llaugel
Comparando medias con más de un factor Comparando medias con más de un factor (ANOVA de 2 factores)(ANOVA de 2 factores)
Imaginemos un tratamiento para disminuir el colesterol, donde la variable respuesta que se mide es la concentración de colesterol total en plasma, pero ahora se quieren estudiar 2 factores: “Dieta” con 2 niveles(carbohidratos, grasas) y “Ejercicio” con 2 niveles (poco, mucho).
Factor “dieta”
Carbohidratos
Carbohidratos
Carbohidratos
Carbohidratos
Grasas
Grasas
Grasas
Grasas
Factor “ejercicio”
220
190
145
192
188
143
124
210
[Colesterol]
Poco
Poco
Mucho
Poco
Poco
Mucho
Mucho
Poco
Paciente
1
2
3
4
5
6
7
8Datos ficticios con fines de ejemplo……etc
Diseño de experimentos Ing. Felipe Llaugel
Comparando medias con más de un factor Comparando medias con más de un factor (ANOVA de 2 factores)(ANOVA de 2 factores)
Dieta x ejercicioEjercicio
Dieta
En SIMFIT es la opción: “Factorial, 2 factores”