Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador...

24
Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. www.fernandotuya.org

Transcript of Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador...

Page 1: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

Técnicas estadísticas paramétricas univariantes: ANOVA y su familia

Fernando Tuya, Investigador I3Universidad de Las Palmas de G.C.

www.fernandotuya.org

Page 2: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

2

ANOVAConocer el efecto de un factor categórico sobre una variable continua ¿diferencias entre los niveles de distintas variables categóricas causan diferencias sign. sobre la variable respuesta/dependiente?

Ej. 1 factor con 4 niveles y medimos respuesta Y en n réplicas para cada nivel del factor; ¿Son las medias diferentes entre los 4 tratamientos?

Y

X (categorías/grupos/tratamientos)

µ1

µ2

µ3µ4

Page 3: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

3

ANOVA: comparamos medias entre categorías /grupos/tratamientos

Ho: µ1 = µ2 = µiH1: µ1 = µ2 ≠ µi (al menos una diferencia entre grupos)

Ej: Hay diferencias en el rendimiento (variable continua, dependiente) entre 4 grupos sometidos a

distintos niveles de entrenamiento (factor o variable categórica)

T-student (caso más sencillo): comparamos medias entre 2 categorías /grupos

Ho: µ1 = µ2H1: µ1 ≠ µ2

Page 4: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

4

IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total = toda la variabilidad debida a los factores que contrastamos y un término residual (“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”)

Var total = Var entre grupos + Var dentro de grupos (residual)

Idea conceptual: comparar ambas fuentes de variabilidad Si Var entre grupos > Var residual – diferencias entre grupos son importantes; evidencia para rechazar Ho; es decir, mi factore(s) son importantes

Si Var entre grupos < Var residual – diferencias entre grupos NO son importantes; evidencia para no rechazar Ho, mi factore(s) NO son importantes

Page 5: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

5

Var entre grupos/Var residual

0-1 si Var entre grupos < Var residual

> 1 si Var entre grupos > Var residual

Idea para construir el estadístico¡¡¡ (F-ratios = cociente: variabilidad entre grupos/variabilidad dentro de grupos)

Page 6: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

6

Lenguaje del ANOVA: Funcionamiento del ANOVA-I

Como hemos visto: ANOVA estima 2 fuentes de variabilidad y compara sus tamaños

Fuente de variación Suma de cuadrados

Grados libertad

Cuadrados medios

F-ratio P-valor

Entre grupos = niveles SS g a-1 SS g/df

Dentro de grupos (Residual)

SS res n-1 SS res/df

Total SS tot an -1

F-ratio = Var entre grupos/Var dentro grupos

Page 7: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

CMa

F = -----------CMw

Fuentes de variación Suma de cuadrados (SS)

Entre muestras(entre grupos)

Dentro muestras(dentro grupos)

Total

å å (Xij- Xi)2

å å ( Xi-X)2

å å (Xij- X)2

g.l. (d.f.)

k-1

k (n -1)

(k n ) -1

Cuadrados medios (MS)

SCa / k-1

SCw / k (n-1)

SCt /( kn)-1

El nombre de ANOVA procede de la utilización de la comparación de las varianzas para determinar si aceptamos la hipótesis de igualdad de medias: medias = supone = varianzas y si las medias son ≠, la varianza entre los tratamientos es > que el error (dentro de muestras).

Lenguaje del ANOVA: Funcionamiento del ANOVA-I

Page 8: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

8

Vamos a complicar la cosa….más de un factor

Precisamente, es lo q hace de ANOVA una técnica muy empleada

Page 9: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

9

Efectos principales (efecto independiente y aditivo de cada factor; promediando el efecto del otro u otros factores)

Interacción (efecto interactivo entre factores; es decir, si las diferencias que A causa sobre Y varían en función de los niveles de B)

Precisamos de un estadístico para cada término para testar (contrastar) su significancia

ANOVA-2: modelo lineal de fuentes de variación

Yijk = µ + Ai + Bj + ABij + Residual k(ij)

Page 10: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

10

Variación total

ANOVA-2 parte la variabilidad

Variación debida al factor A

Variación residualVariación debida a la interacción A x B

• SSE

• SSFA +

SSAB +

SST =

Variación debida al factor B

SSFB +

Page 11: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

11

Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk + Residual l(kij)

ANOVA-3 y así sucesivamente…

En teoría no hay limitación, en la práctica la cosa se complica: recomiendo análisis fáciles al principio, ya tendrás tiempo de complicarlo¡

Page 12: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

12

La significancia de todo término F ratio =MS numerador/MS denominador; si F está cercano a 0-1 = no hay efecto significativo del factor; si F=↑ hay efecto.

df SS MS F-ratio P

A a-1 Ssa Ssa/dfa MS A/MS denominador

B b-1 SSb Ssb/dfb MS B/MS denominador

A x B (a-1)(b-1) Ssab Ssab/dfab MS AB/MS denominador

Residual ab(n-1) Ssred Ssres/dfresTotal abn-1

ANOVA-2: “su lenguaje”

Page 13: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

13

La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las interacciones en diseños multifactoriales (incluyen muchos factores); además de los efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del otro¡…¿Por qué son tan importantes las interacciones?

Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones cuantifican si los tratamientos actúan aditivamente, sinergísticamente o antagonísticamente.

…se lo muestro con un ej.

¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?

¿Y todo este rollo de las interacciones?

Page 14: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

14

Tests a posteriori

Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su librillo” (nosotros ya veremos los nuestros en las prácticas)

¿Pq? - ANOVA te dice q hay diferencias pero no entre quién (e.g. entre qué niveles)

Student-Newman-Keuls (SNK)extensión secuencial del t-test

Page 15: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

Incrementar la probabilidad de cometer error de Tipo I

Ho: µ1 = µ2 = µ3

Ho: µ1 = µ2µ1 = µ3µ2 = µ3

a = 0.05

a = 0.05

a = 0.05

a = 0.05

a total = 0.15

Tests a posteriori: “problemilla”

“Inflamos” error Tipo I

Solución: aunque podemos aplicar ajuste (corrección de Bonferroni), una decisión salomónica es reducir α de 0.05 a 0.01

Page 16: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

16

Asunciones del ANOVA: test paramétricos

Homogeneidad de varianzas (entre niveles/tratamientos). Hay batería de Tests: Cochran’s, Levene’s . Si no hay: ↑ error tipo I

Peligro¡¡

Page 17: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

17

Asunciones del ANOVA

Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema. Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es robusta a desviaciones de la normalidad

· Independencia Si no hay independencia: muestras son muy similares; error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento del experimento está la solución: problema biológico no estadístico

Page 18: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

18

¿Qué hago si se violan las asunciones del ANOVA

(2) Trasforma datos: raíz, log, doble raíz, arc-sen

(3) Si la trasformación no funciona, pero diseño es balanceado y n> 30 – corre ANOVA y aumenta el nivel de confianza. Juega con el nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra confianza de un 95 a un 99% y así reduzco la P(error tipo I)

(4) Si la trasformación no funciona, pero el diseño es pequeño – alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.

(1) “outliers” como causa de la violación de las asunciones; si datos siguen distribución bimodal puedes dividir los datos en 2 niveles

Page 19: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

Transformación de datos

Raíz cuadrada

•Poblaciones que siguen una distribución de Poisson: medias y varianzas son iguales

Ö X + 1

Page 20: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

Logarítmo

•Muestreos con valores muy altos: medias mayores y varianza mucho mayores (distribución log-normal)

•Medidas de tasas, concentraciones, relaciones,...

•Independiente del tipo de logaritmo usado

•Sumar una constante (1) para aplicar logaritmos por los valores que son 0

log (X+1)Transformación de datos

Page 21: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

Arcoseno

•Porcentajes y proporciones (distribución binomial)

•Ej. Porcentaje de cobertura algal

sen-1 Ö X

Transformación de datos

Page 22: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

22

Corolario

Procura diseños con n alto y distribución balanceada de muestras

Toma extra muestras

Fuerza siempre que puedas ANOVA frente técnicas no paramétricas: al usar rangos pierdo información. En tal caso, reporta tus conclusiones con la precaución que requiere el análisis

Page 23: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

23

ANCOVA

Conceptualmente, mismo fundamentos q ANOVA, pero nos permite incluir una o + covariables, cuyo efecto quiero eliminar para determinar exclusivamente el efecto de ciertos factores sobre dicha variable respuesta.

Forma de eliminar “ruido”, pq eliminamos la varianza debido a las covariables; es decir, a la varianza total le quitamos la varianza debida a la covariable(s); esto nos permite aumentar el poder del análisis

Covariables: variables continuas que influyen en la variable respuesta, pero cuyo efecto no es de interés

Page 24: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. .

24

Ejemplo de ANCOVA

¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs? ANOVA-2

Pero queremos quitar el posible efecto del peso de los individuos. Establezco el peso como covariable en el análisis.