Tema 11. Asociación Entre Variables Cualitativas (27!04!2015)

5
GRUPO 13 27/04/2015 Tema 11: Análisis de la asociación entre variables Vamos a continuar estudiando los tests de hipótesis, atacando uno de los problemas que aún no habíamos abordado, la asociación entre variables CUALITATIVAS. En la primera parte de este tema, estudiamos la asociación entre variables CUANTITATIVAS numéricas a través de: - Diagrama de dispersión - Covarianza - Coeficiente de correlación (covarianza dividida entre el producto de las desviaciones). Método más eficiente que la covarianza. - Modelo de regresión lineal: y=a+bx a: constante u ordenada en el origen. El término independiente. b: coeficiente de regresión o pendiente. - Coeficiente de determinación Asociación entre variables cualitativas: test de Chi cuadrado EJEMPLO: E: padecer infarto de miocardio. Ê: no padecer infarto de miocardio. T: padecer obesidad ^T: no padecer obesidad. Ω1: se trata del espacio muestral (el de tener o no infarto de miocardio). {E,Ê} Ω2: otro espacio muestral (tener o no tener obesidad). {T,^T} P(E,T) es la probabilidad de intersección de dos sucesos. P(E,T)=P(E)XP(T) Para que esta expresión sea cierta, los sucesos tienen que ser independientes. Si no hay independencia, decimos que hay asociación de variables y no podremos utilizar esta relación, por lo que no será posible calcular la probabilidad de intersección entre las variables E y T. En medicina, nos interesa conocer el grado de asociación o independencia entre dos sucesos por ejemplo con el fin de averiguar si existen factores de riesgo. En este caso, queremos analizar si hay asociación entre la obesidad e infarto de miocardio para saber si la obesidad es un factor de riesgo para tener un infarto de miocardio. Si existe asociación entre las variables, diremos que la obesidad sí es un factor de riesgo para padecer el infarto y si no la hay, no será factor de riesgo.

description

Comi

Transcript of Tema 11. Asociación Entre Variables Cualitativas (27!04!2015)

  • GRUPO 13 27/04/2015

    Tema 11: Anlisis de la asociacin entre variables

    Vamos a continuar estudiando los tests de hiptesis, atacando uno de los problemas que

    an no habamos abordado, la asociacin entre variables CUALITATIVAS. En la primera parte de este tema, estudiamos la asociacin entre variables CUANTITATIVAS numricas a travs de:

    - Diagrama de dispersin - Covarianza - Coeficiente de correlacin (covarianza dividida entre el producto de las desviaciones).

    Mtodo ms eficiente que la covarianza. - Modelo de regresin lineal: y=a+bx

    a: constante u ordenada en el origen. El trmino independiente.

    b: coeficiente de regresin o pendiente. - Coeficiente de determinacin

    Asociacin entre variables cualitativas: test de Chi cuadrado EJEMPLO: E: padecer infarto de miocardio. : no padecer infarto de miocardio. T: padecer obesidad ^T: no padecer obesidad. 1: se trata del espacio muestral (el de tener o no infarto de miocardio). {E,} 2: otro espacio muestral (tener o no tener obesidad). {T,^T}

    P(E,T) es la probabilidad de interseccin de dos sucesos.

    P(E,T)=P(E)XP(T)

    Para que esta expresin sea cierta, los sucesos tienen que ser independientes. Si no hay independencia, decimos que hay asociacin de variables y no podremos utilizar esta relacin, por lo que no ser posible calcular la probabilidad de interseccin entre las variables E y T.

    En medicina, nos interesa conocer el grado de asociacin o independencia entre dos

    sucesos por ejemplo con el fin de averiguar si existen factores de riesgo. En este caso, queremos analizar si hay asociacin entre la obesidad e infarto de miocardio para saber si la obesidad es un factor de riesgo para tener un infarto de miocardio. Si existe asociacin entre las variables, diremos que la obesidad s es un factor de riesgo para padecer el infarto y si no la hay, no ser factor de riesgo.

  • VALORES CALCULADOS BAJO HIPTESIS DE INDEPENDENCIA:

    2/1 E

    T 20 45 65 ^T 10 25 35

    30 70 100

    DATOS DE LA MUESTRA:

    - N=100 - 65 de los individuos tenan obesidad - 35 no tenan obesidad - 30 sufrieron infarto de miocardio - 70 no sufrieron infarto

    Estos valores son las distribuciones marginales, los dos primeros se corresponden con la distribucin marginal de la variable fila y los dos ltimos con la variable columna.

    Los valores sealados en rojo constituyen la distribucin conjunta bajo la hiptesis de independencia (suponemos que son situaciones independientes). Para calcular estos valores hemos aplicado: P(E,T)=P(E)xP(T)

    P(E,T)=0.3x0.65=0.1950.2 P(,^T)=0.7x0.35=0.2450.25 A continuacin, pasamos estos valores a la tabla (sealados en negrita) y deducimos el

    valor de los otros valores de la distribucin conjunta, dado que conocemos las distribuciones marginales. Se debe de cumplir que la suma de las distribuciones conjuntas por fila y columna sea igual al valor de la distribucin marginal por fila y columna respectivamente (20+45=65). Estos cuatro valores calculados de la distribucin conjunta son los valores esperados bajo la hiptesis de independencia.

    H0: INDEPENDENCIA (hiptesis nula) H1: ASOCIACIN (hiptesis alternativa)

    Vamos a analizar la distancia entre los valores obtenidos en la muestra y los calculados

    bajo la hiptesis de independencia. Lo medimos mediante un estadstico: test de asociacin de la Chi cuadrado. Frmula:

    Donde x2=valor del estadstico del Chi cuadrado=c oi: el valor observado en cada casilla (29, 6, 1 ) E1: valores esperados (20).

    El sentido de elevar la resta al cuadrado es para quitar los resultados negativos y evitar que el sumatorio sea 0. Obtenemos un valor que en este caso es 15,123: valor de Chi

  • cuadrado. Se le denomina as porque sigue una distribucin chi cuadrado que depende de unos grados de libertad. El grado de libertad se calcula de la siguiente forma:

    GRADO DE LIBERTAD= (N de filas-1)x(N de columnas-1)

    En este caso, tomar valor 1 (2-1)x(2-1)=1

    Que tenga grado de libertad 1 implica que solo podemos coger una de las casillas y darle un valor aleatorio, de modo que el resto tienen que tomar valores fijos para conservar las distribuciones marginales. En este caso hemos fijado el valor 1 (sealado en rojo).

    En una tabla de 4 columnas y 3 filas tendra un grado de libertad 6. Tendra 12 casillas,

    por lo que podramos fijar 6 casillas a nuestro aire, y el resto quedaran fijadas.

    VALORES OBTENIDOS DE LA MUESTRA:

    E

    T 1 64 65 ^T 29 6 35

    30 70 100

    Nuestra tabla sigue una distribucin Chi cuadrado con 1 grado de libertad. Esta distribucin se caracteriza por tener una asntota horizontal.

    En nuestro caso el estadstico Chi era 15,123 (C=15,123). Cuanto mayor sea C, mayor es la distancia de lo observado y la hiptesis nula (s hay independencia). Cuanto ms se separe, menos independencia hay entre las variables. Razonamiento para rechazar la hiptesis nula (de independencia): Primero debemos de fijar que indica el lmite a partir del cual rechazamos la hiptesis nula, Error tipo 1. En este caso =0.05 ya que queremos realizar un intervalo de confianza al 95% (1-0.95=0.05). A continuacin, consultamos en la tabla de distribucin de Chi cuadrado dos

  • valores: grado de libertad y valor de . En la primera columna encontraremos los grados de libertad (cogemos el valor 1) y buscamos su interseccin con =0.05 y obtenemos el valor 3.841. Esto significa que por encima del valor de 3.841 cometemos un error de tipo 1. Rechazamos la hiptesis. A partir de 3.841 esta probabilidad que queda por debajo de la chi cuadrado hasta ms infinito es del 0.05. Esta es la probabilidad de cometer un error de tipo 1.

    En nuestro caso, que C es 15.123, p (nivel de significacin de los datos) es la probabilidad de que el estadstico c fuera mayor o igual a 15,123 condicionado a que existe independencia. Esto se calcula con la probabilidad de que Chi cuadrado con un grado de libertad, tome valores mayores o iguales a 15.123 condicionado a independencia.

    Buscamos p en la tabla de la Chi cuadrado. El 15,123 no aparece en esta tabla porque el valor ms grande es 10.83 con una probabilidad de p=0.001, luego la p de 15.123 sera menor que 0.001. Por lo tanto es un valor muy raro ya que tendra una p

  • Row: genero Colum: bajo peso En su lugar, tambin podemos hacer uso del comando: tabulate genero bajo_peso/ tab genero bajo_peso. De este modo, aparece una tabla sin ninguna medida de asociacin. Para obtener medidas de asociacin acudimos de nuevo a Statistics Summaries, tables, and tests Tables Two-way tables with measures of association. En este caso, marcaremos las casillas Pearsons chi-squared (en Tests Statistics) y Expected frequences (en Cells Contents). Pinchar en submit. En la nueva tabla, en las casillas salen dos valores. El valor de arriba es el observado. El valor de abajo es el esperado si hubiese INDEPENDENCIA. Ahora debemos de calcular el valor de la chi cuadrado. 117.6 es el valor de nias que esperara observar si existiera condicin de independencia entre las variables gnero y bajo peso.

    Comando: di (((valor observado-valor esperado)^2)/valor esperado)+ ... Esta operacin debera repetirse para todas las casillas de nuestra tabla. El resultado de la operacin es c = 1.1808. El valor p es la probabilidad de observar un valor de 1,1928 o ms extremos. Miramos en la tabla de la chi y dice que le corresponde una probabilidad de 0.30 (nivel de significacin de los datos:p). Debems de fijar un alfa. Si fijamos un alfa de 0.05, p>q (alfa), luego no podemos rechazar la independencia. Hay independencia entre gnero y peso de los neonatos.