Tema 10. Análisis de varianza (29-04-2015) y (30-04-2015)

11
1 GRUPO 13 29 y 30 de abril. TEMA 10: ANOVA, análisis de varianza INTRODUCCIÓN: ANOVA o análisis de varianza: método para analizar la igualdad o diferencia entre los parámetros media y varianza de una variable cuantitativa en más de dos poblaciones. Hasta ahora hemos estudiado cómo hacer contrastes de hipótesis sobre dos poblaciones independientes. A continuación, estudiaremos cómo hacer un contraste de hipótesis cuando tenemos una variable respuesta CUANTITATIVA en más de dos poblaciones. Para ello usaremos el análisis de varianza o ANOVA. Imaginemos que queremos estudiar la variable edad (X) en tres poblaciones independientes (K=3). Lo que nos interesa saber es cómo de diferentes son las tres poblaciones en cuanto a dicha variable (Ej: edad a la que se diagnostica cáncer de mama en tres poblaciones con genotipos diferentes). Las diferencias entre las tres poblaciones se pueden deber a diferencias entre sus medias o varianzas. En medicina este análisis es muy útil cuando interesa estudiar el efecto de 3 tratamientos diferentes para una misma patología (si esta puede medirse de forma cuantitativa) y así determinar cuál es el más correcto. Insistimos en que en principio, estas poblaciones pueden ser diferentes porque sean diferentes sus medias o sus varianzas. El análisis de varianza o ANOVA es la herramienta que vamos a utilizar para realizar este estudio y se basa en una serie de suposiciones: 1. Normalidad: La variable respuesta X sigue distribuciones aproximadamente normales en todas las poblaciones. Esta suposición no tiene que cumplirse siempre, ya que si la variable no sigue una distribución normal, se puede aproximar a ella. Además, en general decimos que el análisis de varianza es robusto en cuanto a la separación de la normalidad de la distribución de la variable respuesta, es decir, puede ser utilizado aunque haya desviaciones en las suposiciones. 2. Homocedasticidad: La variable respuesta tiene varianzas iguales en todas las poblaciones (también lo serán las desviaciones estándar). Esta condición se pone porque si todas las varianzas son iguales, la única diferencia posible entre las poblaciones se debe obligatoriamente a que exista diferencia entre las medias. Sin embargo, debido a que el ANOVA es un análisis robusto, puede ocurrir que estas varianzas no sean iguales (hay heterodasticidad) y el análisis se realizará de forma distinta.

description

Comi

Transcript of Tema 10. Análisis de varianza (29-04-2015) y (30-04-2015)

  • 1

    GRUPO 13 29 y 30 de abril. TEMA 10: ANOVA, anlisis de varianza

    INTRODUCCIN: ANOVA o anlisis de varianza: mtodo para analizar la igualdad o diferencia entre los parmetros media y varianza de una variable cuantitativa en ms de dos poblaciones.

    Hasta ahora hemos estudiado cmo hacer contrastes de hiptesis sobre dos

    poblaciones independientes. A continuacin, estudiaremos cmo hacer un contraste de hiptesis cuando tenemos una variable respuesta CUANTITATIVA en ms de dos poblaciones. Para ello usaremos el anlisis de varianza o ANOVA.

    Imaginemos que queremos estudiar la variable edad (X) en tres poblaciones independientes (K=3). Lo que nos interesa saber es cmo de diferentes son las tres poblaciones en cuanto a dicha variable (Ej: edad a la que se diagnostica cncer de mama en tres poblaciones con genotipos diferentes). Las diferencias entre las tres poblaciones se pueden deber a diferencias entre sus medias o varianzas.

    En medicina este anlisis es muy til cuando interesa estudiar el efecto de 3 tratamientos diferentes para una misma patologa (si esta puede medirse de forma cuantitativa) y as determinar cul es el ms correcto.

    Insistimos en que en principio, estas poblaciones pueden ser diferentes porque sean diferentes sus medias o sus varianzas.

    El anlisis de varianza o ANOVA es la herramienta que vamos a utilizar para realizar este estudio y se basa en una serie de suposiciones:

    1. Normalidad:

    La variable respuesta X sigue distribuciones aproximadamente normales en todas las poblaciones.

    Esta suposicin no tiene que cumplirse siempre, ya que si la variable no sigue

    una distribucin normal, se puede aproximar a ella. Adems, en general decimos que el anlisis de varianza es robusto en cuanto a la separacin de la normalidad de la distribucin de la variable respuesta, es decir, puede ser utilizado aunque haya desviaciones en las suposiciones.

    2. Homocedasticidad:

    La variable respuesta tiene varianzas iguales en todas las poblaciones (tambin

    lo sern las desviaciones estndar). Esta condicin se pone porque si todas las varianzas son iguales, la nica

    diferencia posible entre las poblaciones se debe obligatoriamente a que exista diferencia entre las medias. Sin embargo, debido a que el ANOVA es un anlisis robusto, puede ocurrir que estas varianzas no sean iguales (hay heterodasticidad) y el anlisis se realizar de forma distinta.

  • 2

    a) HOMOCEDASTICIDAD: el ANOVA analiza la igualdad de medias entre dichas poblaciones.

    b) HETERODASTICIDAD: el ANOVA contrasta la igualdad de medias y varianzas; la homogeneidad (igualdad) de las poblaciones en cuanto a estos dos parmetros.

    3. Contraste: si hay homocedasticidad contrasta la igualdad de medias.

    La alternativa al ANOVA son los tests no paramtricos de Kruskal-Wallis, Wilcoxson o Mann-Whitney que no hemos estudiado. HIPTESIS NULA Y ALTERNATIVA PARA EL ANLISIS ANOVA El anlisis de ANOVA se plantea como el contraste de igualdad de medias entre tres o ms poblaciones independientes.

    H0: todas las medias son iguales. H1: al menos hay un par de estas medias que son diferentes.

    Suponiendo que las varianzas son iguales, el ANOVA contrasta H0. Si las varianzas no

    son iguales el ANOVA contrasta la homogeneidad en cuanto a medias y varianzas de las poblaciones. EJEMPLO STATA: Vamos a estudiar cmo hacer un anlisis de varianza mediante un ejemplo en STATA. (Usamos la base de datos que se encuentra en la carpeta Tema 10. Anlisis de varianza ANOVA en egela: Polimorfismo.dta. Presenta el resultado de un estudio real).

    VARIABLES: 1. Cualitativa: genotype. Poblaciones con diferentes alelos para el gen asociado al

    cncer de mama.

    - POBLACIN 1: mujeres homocigotas para el alelo 1.6 (1.6/1.6) - POBLACIN 2: mujeres heterocigotas (1.6/0.7) - POBLACIN 3: mujeres homocigotas para el alelo 0.7 (0.7/0.7)

    2. Cuantitativa: age. Edad diagnstico de cncer de mama.

    Queremos estudiar la edad al diagnostico del cncer de mama en funcin al genotipo

    de cada poblacin. Para ello vamos a representar la variable genotype en una tabla (Comando: tab genotype).

  • 3

    Total 59 100.00

    0.7/0.7 16 27.12 100.00

    1.6/0.7 29 49.15 72.88

    1.6/1.6 14 23.73 23.73

    Genotipo Freq. Percent Cum.

    . tab genotype

    En esta tabla se expresa el nmero de mujeres con cada genotipo (frecuencia absoluta), el porcentaje y el porcentaje acumulado. El tamao de la muestra es de 59 mujeres.

    A continuacin hacemos un diagrama de cajas (STATA: Graphics, box plot) horizontal

    con la edad como variable, en el que haya un diagrama para cada variable categrica (genotipos). Para ello, en la ventana de diseo de grfico, marcamos en Orientation: Horizontal, en Variables elegimos age, y en la pestaa Categories tras marcar group 1, elegimos genotype como Grouping variable (OK).

    El grfico resultante representa la edad de diagnstico en el eje x, y el genotipo en el

    eje y. Tras su interpretacin observamos que las mujeres con un genotipo homocigoto para el alelo 0.7 son diagnosticadas a edades mucho ms tempranas que las otras dos.

    Vamos a comparar las medias de edad de los tres grupos. Para ello, suponiendo que las

    varianzas son iguales establecemos la hiptesis nula y la alternativa:

    H0: todas las medias son iguales. H1: al menos una de las medias es diferente.

    Para analizar si la hiptesis nula es vlida o no, realizamos un anlisis de varianza. Para ello, en STATA accedemos a:

    Statistics, lineal models and ralated, ANOVA/MANOVA, one way ANOVA.

    20 40 60 80 100Edad al diagnostico

    0.7/0.7

    1.6/0.7

    1.6/1.6

  • 4

    Elegimos One way ANOVA porque compara una variable continua con una o ms categricas. Si tuvisemos ms variables continuas usaramos Analysis of variance and covariance.

    En la ventana de edicin de tabla introduciremos los siguientes datos:

    Response variable (la variable continua): age Factor variable (variable cualitativa): genotype. Multiple-comparison tests: Bonferroni. Output: Produce summary table

    Obtenemos estas tres tablas con el propsito del anlisis de la varianza. En este estudio, tomar especial importancia la segunda tabla, Analysis of variance.

    1. La primera es el resumen de la edad al diagnstico en funcin al genotipo y se expresan las medias, varianzas y frecuencias absolutas en funcin del genotipo de la mujer.

    Total 60.644068 13.494268 59

    0.7/0.7 50.375 10.638766 16

    1.6/0.7 64.37931 13.259535 29

    1.6/1.6 64.642857 11.181077 14

    Genotipo Mean Std. Dev. Freq.

    Summary of Edad al diagnostico

    . oneway age genotype, bonferroni tabulate

    2. En la segunda se expresa el anlisis de varianza:

    SS: sumatorio de cuadrados.

    df: grados de libertad.

    MS: varianza (SS/df).

    F: F de Snedecor (MS within groups/MS between groups)

    Pob>F: nivel de significacin de los datos (p).

  • 5

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    3. La tercera tabla es el test de comparacin mltiple de Bonferroni. En l se realiza el grado de igualdad de las diferentes categoras y se deduce cul es la variable diferente a las otras que explica la existencia de diferencia entre las medias o varianzas de las poblaciones. Se emplea una vez que sabemos que existe diferencia significativa entre las medias de edad de las poblaciones que estudiamos con el propsito de detectar cul de estas medias difiere del resto.

    0.007 0.001

    0.7/0.7 -14.2679 -14.0043

    1.000

    1.6/0.7 -.263547

    Col Mean 1.6/1.6 1.6/0.7

    Row Mean-

    (Bonferroni)

    Comparison of Edad al diagnostico by Genotipo

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    Total 60.644068 13.494268 59

    0.7/0.7 50.375 10.638766 16

    1.6/0.7 64.37931 13.259535 29

    1.6/1.6 64.642857 11.181077 14

    Genotipo Mean Std. Dev. Freq.

    Summary of Edad al diagnostico

    . oneway age genotype, bonferroni tabulate

    COMANDO: oneway age genotype, bonferroni tabulate INTERPRETACIN DE LOS DATOS:

    1. PRIMERA TABLA - Source: genotipos - Summary of Edad al diagnstico

    Obtenemos las medias (Mean), varianzas (Std. Dev.) y frecuencias absolutas (Freq.) de cada genotipo. As sabemos que hay 14 mujeres con un genotipo 1.6/1.6 a las que de media se les diagnostic con 64.64 aos, 29 mujeres de genotipo heterocigoto 1.6/0.7 con una edad diagnstico de media de 64.34 aos y 16 con genotipo 0.7/0.7 a las que se les diagnostic con 50.37 aos de media. Conclusin: parece ser que este genotipo hace que el diagnstico sea ms precoz.

    En la fila TOTAL obtenemos los mismos datos estadsticos pero sin tener en cuenta el

    genotipo de las mujeres, es decir, la media, varianza y tamao de la muestra de todas las mujeres a las que se les diagnostic cncer de mama, obteniendo una media de edad de 60.64 aos.

    Total 60.644068 13.494268 59

    0.7/0.7 50.375 10.638766 16

    1.6/0.7 64.37931 13.259535 29

    1.6/1.6 64.642857 11.181077 14

    Genotipo Mean Std. Dev. Freq.

    Summary of Edad al diagnostico

    . oneway age genotype, bonferroni tabulate

  • 6

    2. SEGUNDA TABLA:

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    - Source: Fuentes de variabilidad. 1. Within groups: dentro de los grupos, explica la diferencia de las medias. 2. Between groups: entre grupos, no explica la diferencia de las medias.

    - Analysis of Variance: SS, df, MS, F, Prob>F.

    Vamos a comprobar mediante STATA cmo calcular estos datos: 1. SS: sumatorio de cuadrados

    a) SS TOTAL: vamos a crear la variable SS total mediante el Comando

    gen SS_total= (age-media total)^2 (Siendo la media total 60.644068).

    Para visualizar los datos de la nueva variable vamos a la ventana de edicin de datos

    Para que se sumen todos los cuadrados de SS obtenidos, hacemos una nueva variable que sea:

    gen sumSS_total=sum(SS_total) Volvemos a la ventana de edicin de datos. En la columna de sumSS_total, aparecen

    los valores de SS que se van sumando. El valor de la suma de todos los SS totales, es el de la ltima mujer (id 59): 10561.53. Vemos que este valor coincide con el de la segunda tabla (columna SS, fila TOTAL).

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

  • 7

    b) SS within groups: hay que realizar lo mismo que antes pero teniendo en cuenta que existen tres poblaciones. En vez de usar la media total, usamos primero la media de la poblacin 1 calculando

    SS1. Hacemos lo mismo con las poblaciones 2 y 3.

    gen SS_wg=(media total-media de la poblacin 1)^2/(n1-1) A continuacin lo sumamos todo para calcular SS1, SS2 y SS3:

    gen sum_SS_wg=sum(SS_wg)

    Vamos a la ventana de edicin de datos, y vemos que el ltimo valor es 8245.792. Este valor indica la varianza entre poblaciones, que en la segunda tabla aparece en la interseccin entre la columna SS y la fila within groups. Esta es la parte de la variabilidad total que explica que las tres medias sean diferentes.

    c) SS between groups: resta de la SS total menos la SS entre grupos: 10561.5254 - 8245.79187 = 2315.73355. 2. GRADOS DE LIBERTAD, df

    Como sabemos, para calcular la varianza debemos de conocer el valor de SS y el grado

    de libertad. El grado de libertad total es 59-1, y es igual a la suma de los grados de libertad de las

    fuentes de variabilidad (between groups y within groups). Por lo tanto, como en la fila within groups tenemos en cuenta 3 medias tendremos 59-3 grados de libertad (56). Y en la ltima, los que quedan: 2 (56+2=58). Estos datos los obtendremos de la tabla en la columna df.

    3. VARIANZA: MS

    Resultado de la divisin entre SS y los grados de libertad correspondientes. Obtenemos

    la varianza dentro de poblaciones= 147.246283 (SS within groups/56), varianza entre poblaciones (SS between groups/2)=1157.86678 y varianza total (SS total/58)= 182.095266. Sabemos que cualquier varianza sigue una distribucin chi-cuadrado con n-1 grados de libertad

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

  • 8

    4. F DE SNEDECOR

    Desde el punto de vista terico, el contraste lo hacemos sabiendo que la varianza de

    una muestra sigue una distribucin Chi-cuadrado con n-1 grados de libertad y que la F de Snedecor compara el MS entre grupos con el MS del error (dentro de los grupos) bajo la hiptesis nula (H0). Los valores de ambos MS deberan ser muy similares ya que estiman el mismo parmetro.

    Se utiliza el cociente entre ambos estadsticos, la razn (F), como medida de comparacin de modo que:

    F=

    Esta razn (F de Snedecor) es la que en la tabla tiene como resultado 7.86, lo que

    quiere decir que la MS entre grupos es 7.86 veces mayor que la MS dentro de los grupos, lo que nos resultara un valor muy raro si todas las medias fuesen iguales (no es el caso).

    Este es el resultado de la razn entre dos distribuciones chi-cuadrado con dos grados

    de libertad en el numerador y n-k= 56 grados de libertad en el denominador. Por tanto, este valor 7.86 pertenece a una distribucin F de Snedecor con dos grados de libertad en el numerador y 56 grados de libertad en el denominador

    5. PROB>F

    Por ltimo nos interesa conocer el valor de Prob>F es el valor p (nivel de significacin

    de los datos) que expresa la probabilidad de que la distribucin F de Snedecor tome valores mayores de 7,86 condicionado a que H0 es cierta.

    Para calcular el valor que toma el nivel de significacin de los datos, en lugar de utilizar

    STATA, tambin puedo hacer uso de las tablas de la F de Snedecor.

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

  • 9

    Tabla para = 0.05. En la primera columna tenemos los grados de libertad del denominador y en la

    primera fila los grados de libertad del numerador. En nuestro ejemplo, tenemos 2 grados de libertad en el denominador y 56 en el denominador.

    Como observamos el valor 56 no aparece en la tabla, por lo que nos aproximamos al

    valor ms cercano, el 60. De este modo, acudo a la interseccin entre 2 y 60 y obtenemos el valor 3.15. Esta cifra nos indica el valor de la distribucin F de Snedecor con grados de libertad 2 para el numerador y 56 para el denominador, aunque en realidad de acuerdo a las tablas es 2 y 60.

    Si 3.15 deja por encima =0.05, 7.86 ha cado todava ms hacia la derecha en la grfica, por lo que p es menor que .

    Distribucin F de Snedecor con grados de libertad 2 y 60 y F = 3.15. Esto quiere decir que a partir del punto F = 3.15 toda la probabilidad que queda en la

    cola de la distribucin (en azul) es igual a = 0.05. Que esta probabilidad sea de = 0.05 queda indicado en la tabla de F de Snedecor.

    Sabemos que para un = 0.05, F es igual a 3.15, que la razn de es

    7.86, y que el nivel de significacin P, es decir, la probabilidad de que la distribucin F de Snedecor tome valores mayores de 7.86, condicionado a que H0 es cierto, toma el valor 0.0010.

    Por tanto, P= 0.0010 es menor que a = 0.05 y concluimos que el valor 7.86 est

    recogido en la zona de rechazo de H0, ya que est ms all de F = 3.15. Esto quiere decir que no todas las medias de edad al diagnstico de las mujeres con distinto fenotipo son iguales.

    Por tanto, P= 0.0010 es menor que = 0.05, por lo que rechazamos H0. Tambin

    concluimos que el valor 7.86 est recogido en la zona de rechazo de H0, ya que est ms all de F = 3.15. Para buscarlo en STATA: di 1-F(2,56, 7.86). Da la funcin de distribucin acumulada. Tambin podemos utilizar di Ftail(2,56,7.86) Da la funcin de supervivencia.

  • 10

    CONCLUSIN:

    Como p = 0.0010

  • 11

    3. TERCERA TABLA

    0.007 0.001

    0.7/0.7 -14.2679 -14.0043

    1.000

    1.6/0.7 -.263547

    Col Mean 1.6/1.6 1.6/0.7

    Row Mean-

    (Bonferroni)

    Comparison of Edad al diagnostico by Genotipo

    Bartlett's test for equal variances: chi2(2) = 1.0798 Prob>chi2 = 0.583

    Total 10561.5254 58 182.095266

    Within groups 8245.79187 56 147.246283

    Between groups 2315.73355 2 1157.86678 7.86 0.0010

    Source SS df MS F Prob > F

    Analysis of Variance

    Total 60.644068 13.494268 59

    0.7/0.7 50.375 10.638766 16

    1.6/0.7 64.37931 13.259535 29

    1.6/1.6 64.642857 11.181077 14

    Genotipo Mean Std. Dev. Freq.

    Summary of Edad al diagnostico

    . oneway age genotype, bonferroni tabulate

    Una vez que sabemos que existe diferencia significativa entre las medias de edad de las tres poblaciones (los 3 genotipos). Para detectar dnde se encuentra la diferencia acudimos a la tercera tabla del comando oneway age genotype, bonferroni tabulate que se corresponde con las comparaciones de Bonferroni dos a dos.

    Vemos que la diferencia est cuando comparamos la media del grupo homocigoto 0.7/0.7 con las medias de edad del homocigoto 1.6/1.6 y las del heterocigoto. De modo que hay una diferencia estadsticamente significativa entre la edad al diagnstico de las mujeres con genotipo homocigoto 0.7/0.7 respecto a los otros dos genotipos

    *Vamos a hacer una prctica de ordenador para aprender a usar el anlisis ANOVA