Descomposición de La Varianza (11!05!2015)

5
Grupo 19 11-05-2015 Descomposición de la varianza (o de la variabilidad) Vamos a usar un ejemplo que ya propusimos en su día cuando hablábamos de la regresión lineal (tema 11. Asociación entre variables). Trataremos de desarrollar un modelo por el cual el peso (x), nos sirva para predecir la variable perímetro torácico (y). La nube de puntos tras recoger los datos de nuestra muestra nos dio de la siguiente manera: Sobre este diagrama dibujamos el centro de gravedad de la nube de puntos (señalado con la flecha). Este punto es el punto de corte entre la media del peso y la media del perímetro torácico en mi muestra. Una vez recordado esto podemos centrarnos en la descomposición de la varianza. Nos llega un paciente de la misma población a la cual pertenecían nuestros individuos de la muestra que nos permitieron desarrollar el modelo de regresión lineal. Nosotros no sabemos ni su pero ni su perímetro torácico, pero por ser de la misma población de primeras pensaremos que su peso está en torno a la media (68.58), al igual que el perímetro.

description

Comi

Transcript of Descomposición de La Varianza (11!05!2015)

  • Grupo 19 11-05-2015

    Descomposicin de la varianza (o de la variabilidad)

    Vamos a usar un ejemplo que ya propusimos en su da cuando hablbamos de la regresin lineal

    (tema 11. Asociacin entre variables). Trataremos de desarrollar un modelo por el cual el peso

    (x), nos sirva para predecir la variable permetro torcico (y). La nube de puntos tras recoger los

    datos de nuestra muestra nos dio de la siguiente manera:

    Sobre este diagrama dibujamos el centro de gravedad de la nube de puntos (sealado con la

    flecha). Este punto es el punto de corte entre la media del peso y la media del permetro torcico

    en mi muestra.

    Una vez recordado esto podemos centrarnos en la descomposicin de la varianza.

    Nos llega un paciente de la misma poblacin a la cual pertenecan nuestros individuos de la

    muestra que nos permitieron desarrollar el modelo de regresin lineal. Nosotros no sabemos ni

    su pero ni su permetro torcico, pero por ser de la misma poblacin de primeras pensaremos

    que su peso est en torno a la media (68.58), al igual que el permetro.

  • Para ver como descomponemos la varianza vamos a coger como ejemplo al individuo 11 (punto

    encuadrado). Su peso es ms o menos 72, y su permetro torcico 98.

    Vemos en cuanto nos hemos equivocado a la hora de predecir el permetro torcico con nuestro

    modelo del centro de gravedad:

    98-89.5 (media)=8.5 cm

    Esto en una expresin genrica, elevado al cuadrado quedara de la siguiente manera:

    ( )2

    Est expresin ya la conocemos, es la varianza. La raz cuadrada de esta expresin sera la

    desviacin tpica, es decir, cuanto se separa mi valor de la media.

    Sin embargo, lo que nos interesa es la descomposicin de la varianza, porque en este caso

    concreto lo que nosotros conocemos es el peso (x), no el permetro torcico (y), que es lo que

    queremos predecir. Por esto usamos el modelo lineal. La recta de regresin, recordamos que es

    una recta que debe pasar por el centro de gravedad de la nube de puntos:

    La ecuacin de esta recta, de forma genrica, ser: ( sera con acento circunflejo,^, pero no lo

    hemos encontrado. Esto significa valor estimado)

    = a + bx

    ( )2

    Variabilidad

    total (para un

    individuo)

  • Este modelo no lo establecemos porque s. Creamos este modelo a fin de comprobar si el error

    de prediccin del permetro torcico se reduce (es menor de 8.5).

    Nos llega un paciente con el mismo peso que el del paciente once (72 kg), e intentamos predecir

    su permetro torcico gracias a nuestro modelo. Cunto se separa el permetro de un individuo

    de 72 kg de peso de la media segn nuestro modelo? La frmula genrica sera la siguiente:

    (corresponde a la lnea verde)

    (i - )2

    Esta es la parte de la variabilidad que explica mi modelo, pero hay una parte que queda sin

    explicar, que se conoce como la variabilidad de error o de residuo. (lnea verde) La forma

    genrica es la siguiente:

    (yi - i)2

    De estas dos frmulas, que vemos que entre las dos abarcan lo mismo que la variabilidad total,

    sacamos la descomposicin de la varianza para un individuo:

    ( )2= (i - )2 + (yi - i)2

    Si a esto le aadimos los sumatorios, obtenemos la descomposicin de la varianza de todos los

    individuos:

    ( )2= (i - )2 + (yi - i)2

    LA VENTAJA DE USAR EL MODELO LINEAL ES QUE SE REDUCE EL ERROR.

    El coeficiente de regresin nos indica la proporcin de la variabilidad total (denominador) que

    explica mi modelo (numerador): (nos dice como de bueno es nuestro modelo)

    2 = (i )2

    ( )2

    Esta descomposicin de la varianza tiene que ver con el anlisis de esta (ANOVA). Cuando

    realizamos un Anova recordamos que comparamos una variable cuantitativa en base a otra que

    nos categoriza esta variable, con la hiptesis nula de que todas las medias son iguales y la

    hiptesis alternativa de que al menos una es diferente. En el ejemplo que usamos para explicar

    este anlisis de hiptesis. Tenamos tres grupos genotpicos, cada uno con su media, y luego

    tenamos la media general.

    Coordenadas de los puntos:

    ( , )

    (i , xi)

    (yi, xi)

  • Qu ser mejor, para evitar el error a la hora de hacer el diagnstico? Un modelo solo con la

    media general o uno con las tres medias? Para eso utilizamos el sumatorio de cuadrados SS.

    La frmula anterior podemos reescribirla as, donde i es el grupo al que pertenece nuestro

    paciente (genotipo), j el individuo, y x la edad.

    Si elevamos cada termino al cuadrado y hacemos el sumatorio para cada valor de i y de j,

    obtenemos lo que se conoce como SS:

    Para estimar la varianza dividimos cada axioma de esta operacin entre los grados de libertad

    que correspondan:

    - El primer elemento entre la muestra menos 1 (grados de libertad de toda la muestra)

    nos da la varianza total

    - El segundo elemento (sumatorio entre grupos) entre numero de grupos menos 1

    (grados de libertad entre grupos) , y nos da la varianza entre grupos:

    - El tercer elemento entre la muestra menos los grupos (grados de libertad en los grupos)

    y nos da la varianza del error o residuo:

    Todas las varianzas siguen una distribucin de chi cuadrado.

    Media general

    (mi modelo)

    Media de cada uno de los genotipos

    Edad del individuo j en el grupo i

    Entre grupos

    Todos los grupos Todos los individuos Tamao de cada grupo

    Dentro de los grupos (no queda

    explicado por el modelo)

  • Esto lo usamos para plantear el test de la F de Snedecor (parecido al cociente de regresin pero

    para este modelo, nos dice como de bueno es). Este test compara MS entre grupos (lo que

    predice mi modelo) y MS en los grupos (lo que no predice, el error aleatorio), estos valores

    deberan ser muy similares puesto que estiman un mismo parmetro. Usamos el cociente entre

    ambos estadsticos.

    Cuanto ms se aleje del valor 1 (que sera cuando son iguales), menos probable es que la

    hipotesis nula (igualdad de medias) sea cierta.

    Es mejor un modelo basado en las 3 medias.