Post on 25-Jun-2015
Bioestadística Aplicada I
NMRCD – Programa GEISUPCH – FASPA
ABE Perú
Bioestadística Aplicada
Sexta clase:
Métodos paramétricos y no paramétricos
Medias, varianza y correlación
Pruebas para variables continuas
Bioestadística Aplicada
Porqué usamos pruebas no paramétricas?:
Distribución normal Tamaño de muestra “grande” Varianzas iguales (?)
Porque no siempre se cumplen todos los supuestos requeridos por las pruebas de hipótesis tradicionales (paramétricas):
Si la distribucion de la poblacion es sesgada (Por lo que la media no es buen indicador de tendencia central)
Bioestadística Aplicada
Cómo se aplican estas pruebas: Aplicar una transformación a los datos originales,
convertiéndolos en rangos, valores positivo o negativo, etc.
Con los datos transformados, calcular un estadístico en base a los datos (a veces también se calcula su promedio y error estándar)
Con el estadístico y los parámetros calculados, realizar una prueba de hipótesis de acuerdo a una cierta distribución paramétrica (Normal, Ji-cuadrado, Binomial, etc.)
Bioestadística Aplicada
Transformaciones de datos
Si los datos tienen una distribución sesgada, en ocasiones pueden transformarse para eliminar los sesgos
En algunos casos se puede emplear un test paramétrico después de la transformación
Bioestadística Aplicada
Ejemplo:Si trabajamos con parasitemia, con frecuencia tendremos que aplicar una transformación
Log
Bioestadística Aplicada
Comando ‘gladder’:
Bioestadística Aplicada
Análisis con variables numéricas:
Análisis Paramétrico No paramétrico
Describir un grupo , 2 Mediana, rango intercuartil
Comparar un grupo a un valor
T Student de una muestra
Prueba Wilcoxon
Comparar medias en 2 grupos
T Student de dos muestras
Mann-Whitney
Comparar medias en 2 grupos apareados
T Student apareada
Prueba Wilcoxon
Comparar medias en 3 o mas grupos
ANOVA Kruskal-Wallis
Correlación entre dos variables
Pearson (lineal) Spearman (monotónica)
Bioestadística Aplicada
Comparación de una muestra contra una constante Se piensa que la edad de inicio del consumo
de cigarrillos es la adolescencia
Puntualmente se plantea que el consumo se inicia a los 15 años
Si la distribución es sesgada o la muestra es pequeña, una prueba paramétrica sobre la media puede ser poco relevante
Bioestadística Aplicada
0.0
5.1
.15
.2F
ract
ion
0 20 40 60¿qué edad tenía ud. cuando fumó cigarrillos por primera vez?
histogram p59, fraction
Bioestadística Aplicada
Prueba T Student de una muestra
Bioestadística Aplicada
Aunque no es necesario, hagamos la prueba no paramétrica:
Bioestadística Aplicada
Prueba signrank (Wilcoxon):
Ho: Mediana de la diferencia = 0 p59 – 15 = 0 ó p59 = 0
Asume una distribución uniforme alrededor de cero
Compara puntajes esperados con observados
Bioestadística Aplicada
Comparación entre dos muestras independientes
Se piensa que la edad de inicio del consumo de cigarrillos varía entre varones y mujeres
Si la distribución es sesgada, una prueba paramétrica sobre la media puede ser poco relevante
Si los tamaños de muestra son pequeños (n < 30), el TLC no se cumplirá y la prueba T podría llevar a conclusiones erróneas
Bioestadística Aplicada
Prueba T Student (paramétrica):Ho: varones = mujeres Ha: varones mujeres
Bioestadística Aplicada
Igualdad de varianzas:
La prueba T de Student de grupos independientes difiere si las varianzas difieren entre los grupos, debiendo agregarse la opción “unequal”
Para evaluar si las varianzas son comparables o no se utiliza el comando sdtest
Bioestadística Aplicada
Prueba de Varianzas (sdtest)
Ho: 2varones = 2
mujeresHa: 2varones 2
mujeres
Bioestadística Aplicada
T Student con varianzas diferentes:
Bioestadística Aplicada
Prueba de Mann-Whitney:
Equivalente no paramétrico a una prueba de hipótesis de promedios para dos muestras
Determina si una variable tiene valores mas altos en una población que en otra. NO COMPARA LOS PROMEDIOS!!!
Util si el tamaño de muestra es pequeño o la distribución es demasiado sesgada
Bioestadística Aplicada
Qué son los puntajes correlativos?
020
4060
¿qu
é ed
ad te
nía
ud. c
uand
o fu
mó
ciga
rrill
os p
or p
rimer
a ve
z?
.5 1 1.5 2 2.5inf_sexoVarones Mujeres
Bioestadística Aplicada
Prueba de Mann-Whitney:Ho: Fumarvarones = Fumarmujeres Ha: Fumarvarones Fumarmujeres
Bioestadística Aplicada
Interpretación
Se están comparando “valores” o la “distribución”, no los promedios
Si en un grupo los puntajes observados son mayores a los esperados, ese grupo tiene mayores “valores”
Bioestadística Aplicada
Comparación de dos grupos apareados Es una sola muestra, en verdad, en la que se
han medido dos valores
Se puede calcular la diferencia entre los valores y sería una prueba de una sola muestra
Qué comienza primero, alcohol o tabaco?
Prueba no paramétrica útil si es muestra pequeña o distribución muy sesgada
Bioestadística Aplicada
Prueba T Student apareada:Ho: μfumar = μtomar Ha: μfumar μtomar
Bioestadística Aplicada
Prueba signrank (Wilcoxon):
Bioestadística Aplicada
Análisis de Varianza:
Distribución normal en todas las poblaciones (no es necesario si el tamaño de muestra es “grande”)
Varianzas comparables entre poblaciones
Observaciones (muestras) independientes
Prueba paramétrica para determinar si hay diferencias en el promedio de una variable cuantitativa (inicio fumar) entre tres o más poblaciones (estratos sociales). Supuestos:
Bioestadística Aplicada
Comparación de Varianzas:
Se usa en el ANOVA para determinar si hay diferencias entre promedios de varias muestras
También se usa ANOVA en el análisis de regresión, siendo un caso particular del ANOVA
Utiliza la prueba estadística F
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula, Ho:
X-inicioAlto = X-inicioMedio = X-inicioBajo
Hipótesis alternativa, Ha:
Existen diferencias en la edad de inicio de fumar promedios de al menos dos estratos sociales
Bioestadística Aplicada
Bioestadística Aplicada
Prueba de Kruskal-Wallis:
Extensión de la prueba de Mann-Whitney a mas de dos poblaciones
Equivalente no paramétrico del análisis de varianza
TAMPOCO COMPARA PROMEDIOS: determina si una población tiene valores diferentes (mas altos o mas bajos) que las otras poblaciones
Bioestadística Aplicada
Los puntajes correlativos:0
20
40
60
¿qué e
dad tenía
ud. cuando fum
ó c
igarr
illos p
or
prim
era
vez?
.5 1 1.5 2 2.5 3 3.5estrato social
Bioestadística Aplicada
En Stata:
Bioestadística Aplicada
Determinando pares diferentes:
Bioestadística Aplicada
Correlación r de Pearson
Mide el grado de asociación lineal entre dos variables numéricas
-1 <= r <= 1, r = 0 indica independencia
Se calcula en stata con el comando “pwcorr”
Requiere muestras “grandes”, distribuciones cruzadas no sesgadas
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula (Ho):
rfumar - tomar = 0
Hipótesis alternativa (Ha):
rfumar - tomar 0
Bioestadística Aplicada
scatter p59 p89
020
4060
p59b
0 10 20 30 40 50p89b
Bioestadística Aplicada
Resultados:
Bioestadística Aplicada
Correlación de puntajes (Spearman): Equivalente no paramétrico a la prueba de
correlación lineal de Pearson. Se aplica cuando la correlación no es lineal, la muestra es pequeña o existen valores muy extremos
Determina si dos variables cuantitativa u cualitativa-ordinal están correlacionadas positiva (una crece y la otra también) o negativamente (una crece y la otra disminuye)
Al igual que las pruebas de Mann-Whitney y Kruskal-Wallis, también utiliza datos por rangos
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula, Ho:
ρ-puntajesfumar - tomar = 0
Hipótesis alternativa, Ha:
ρ- puntajesfumar - tomar 0
Bioestadística Aplicada
Resultados:
Bioestadística Aplicada
Que debemos llevar a casa hoy:
Alternativas disponibles cuando no se cumplen las condiciones para usar pruebas parámetricas
Como aplicar e interpretar las pruebas de Wilcoxon, Mann-Whitney, Kruskal-Wallis y Spearman
Limitaciones de las pruebas no paramétricas