Actividad4 Sanchez Campoy CM

download Actividad4 Sanchez Campoy CM

of 28

Transcript of Actividad4 Sanchez Campoy CM

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    1/28

    AAccttiivviiddaadd44TTeemmaa44

    TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY

    PROFESORES: RAMN GUTIRREZ SNCHEZMARIA DOLORES RUIZ MEDINA

    CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.APLICACIONES EN BIOCIENCIAS E INGENIERA

    - MASTER ESTADSTICA APLICADA -

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    2/28

    A1. CUESTIONES TERICAS

    Resolver tres actividades tericas.

    1.- Verificar, en el modelo de regresin lineal mltiple, que la forma matricial delas ecuaciones normales es idntica a la forma escalar.

    Para el modelo de regresin lineal mltiple:

    La forma matricial de las ecuaciones normales viene dada por:

    Y X=

    Siendo:

    1

    n

    y

    Y

    y

    =

    ;

    111 1

    11

    1 ( ) ( )

    1 ( ) ( )

    kk

    kn kn

    x x x x

    X

    x x x x

    =

    ;

    '

    0

    1

    k

    =

    Y la forma escalar de las ecuaciones normales es:

    '

    0

    1

    n

    j

    j

    n y=

    =

    1

    k

    l il iy

    l

    S S=

    = 1,...i k=

    Siendo:

    1

    ( )( )

    n

    r srs rj sj

    j

    S x x x x=

    =

    1

    ( )n

    iiy j ij

    j

    S y x x=

    =

    Para verificar que son idnticas basta multiplicar por la traspuesta de X a ambos lados

    de la ecuacin en forma matricial, desarrollar y hacer los productos hasta obtener una

    igualdad de matrices de tamao (k+1)x1 donde encontramos las k+1 ecuaciones vistas

    en la forma escalar:

    - Multiplicamos por la traspuesta de X:

    ' 'X Y X X=

    '

    011 11 1

    1 1 1 111 1 11 1 1

    11

    1 1

    1 1 1 11 ( ) ( )

    ( ) ( ) ( ) ( )

    1 ( ) ( )( ) ( ) ( ) ( )

    kk

    n n

    kn n knk k k k k kn k kn

    k

    y x x x xx x x x x x x x

    y x x x xx x x x x x x x

    =

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    3/28

    - Realizamos los productos matriciales:

    11

    1 1 1

    21 1 1 11 1 1 1

    1 1 1 1

    211

    1 1 1 1

    ( ) ( )

    ( ) ( ) ( ) ( )( )

    ( ) ( ) ( )( ) ( )

    n n n

    kj j kj

    j j j

    n n n n

    kj j j j j kj

    j j j j

    n n n n

    k k k k j kj kj j kj kj

    j j j j

    y n x x x x

    y x x x x x x x x x x

    y x x x x x x x x x x

    = = =

    = = = =

    = = = =

    =

    '

    0

    1

    k

    Puesto que,1

    ( ) 0n

    iij

    j

    x x=

    = y las definiciones dadas de rsS y de iyS , la igualdad

    anterior queda de la forma:

    '

    01

    11 1 11

    1

    0 0

    0

    0

    n

    j

    j

    k

    y

    k kkkky

    y n

    S SS

    S SS

    =

    =

    Es decir:

    '

    0

    11

    11

    1

    n

    kjj

    l l

    ly

    k

    ky l kl

    l

    n

    y S

    S

    S S

    =

    =

    =

    =

    Por la propiedad de igualdad de dos matrices, se cumple la igualdad trmino a trmino,

    con lo cual se tendra la forma escalar de las ecuaciones normales:

    '

    0

    1

    n

    j

    jn y

    =

    =

    1

    k

    l il iy

    l

    S S=

    = 1,...i k=

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    4/28

    2.- Deducir, en el modelo de regresin lineal mltiple, a partir de la expresinderivada del estimador mnimo-cuadrtico del vector de parmetros, el vectormedia y matriz de covarianza de dicho estimador.

    Sabemos que la expresin derivada del estimador mnimo-cuadrtico del vector deparmetros es:

    1( ') 'XX X y =

    Haciendo operaciones en dicha expresin:

    [ ]1 1 1 1( ') ' ( ') ' ( ') ' ( ') 'XX X X XX X X XX X XX X = + = + = +

    El vector media y la matriz de covarianza de dicho estimador, se calculan como sigue:

    VECTOR MEDIA:

    . Tomando esperanza y teniendo en cuenta que [ ] 0E = , se tiene que:

    [ ]1( ') 'E XX X E = + = E =

    MATRIZ DE COVARIANZAS:

    La matriz de covarianza se obtiene de la forma siguiente:

    ( ) ( ) ( ) ( )' '

    Cov E E E E = = =

    ( )( ) ( ) ( )' '

    1 1 1 1( ') ' ( ') ' ( ') ' ( ') 'E XX X XX X E XX X XX X = + + = =

    [ ]1 1 1 1( ') ' ' ( ' ) ( ') ' ' ( ' )E XX X X X X XX X E X X X = = =

    1 2 1 2 1 1 2 1( ') ' ( ' ) ( ') ' ( ' ) ( ')XX X X X X XX X X X X XX = = =

    Luego:

    2 1( ')Cov XX =

    3.- Derivar las identidades dadas sobre la suma de cuadrados de la regresin yla suma de cuadrados del error para el clculo del estadstico F.

    Sabemos que la suma total de los cuadrados yyS , se descompone en la suma de

    cuadrados de regresin y la suma de cuadrados del error:

    yy R ES SS SS = +

    Haciendo operaciones en la frmula de ESS y teniendo en cuenta la igualdad anterior

    podemos llegar a las expresiones buscadas:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    5/28

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    6/28

    1.- CONTRASTE DE HIPTESIS UTILIZANDO EL ESTADSTICO t

    CONTRASTES DE UN SOLO PARMETRO

    El contraste individualmente de cada variable explicativa contribuye significativamente

    al ajuste del modelo de regresin. Dentro de ste mbito se puede abordar tambin el

    problema de inclusin de nuevas variables explicativas que, en caso de ser necesarias,

    aumentarn la suma de cuadrados de la regresin y disminuirn las suma de

    cuadrados del error.

    Consideremos la hiptesis:

    0: 0iH =

    Puesto que i mide el efecto parcial de ix sobre y, despus de controlar para todas

    las otras variables independientes, 0H significa que, una vez que 1 1 1,..., , ,...,i i kx x x x +

    han sido tenidos en cuenta, ix no tiene efectos sobre y. Por tal, esta hiptesis nula

    pertenece a los denominados contrastes de significatividad.

    - El estadstico pivotepara este contraste es:

    0

    i

    E ii

    tMS C

    = donde:

    1

    1

    k

    iyy iy

    iE

    S S

    MSn k

    =

    =

    siendo iiC el elemento i de la diagonal de la matriz1

    ( ' )X X

    con

    111 1

    11

    1 ( ) ( )

    1 ( ) ( )

    kk

    kn kn

    x x x x

    X

    x x x x

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-k-1

    grados de libertad.

    Con respecto a la hiptesis alternativa hay tres posibilidades:

    Unilateral de una cola derecha:

    0

    1

    : 0 ( 0)

    : 0

    i i

    i

    H

    H

    =

    >

    Es un contraste de significacin positiva, la regla de decisin es:

    La hiptesis nula se rechaza cuando: 0 , 1n kt t

    siendo , 1n kt el percentil 1 de la distribucin t-Student con n-k-1

    grados de libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor < Calculndose el p-valor en este caso de la forma siguiente:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    7/28

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    8/28

    La hiptesis nula se rechaza cuando 0 /2, 1n kt t

    siendo/2 , 1n k

    t el percentil 1 / 2 de la distribucin t-Student con n-k-1

    grados de libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    ( ) ( ){ 1 0 1 02* ,1n k n k p valor Max P t t P t t =

    Por lo tanto, rechazamos H0 en favor de H1 cuando 0 /2, 1n kt t como

    puede verse en la figura siguiente:

    Cuando no se especifica una hiptesis alternativa, por lo general, se considera que el

    contraste de hiptesis es de dos colas. Si se rechaza la H0a favor de H1 para un

    dado, se suele decir quei

    x es estadsticamente significativa para el nivel .

    Un caso general en el que el parmetro en la H0toma un valor especfico cualquiera:0

    0: iH =

    - El estadstico pivotepara este contraste es:

    0

    0

    i

    E ii

    tMS C

    = donde:

    1

    1

    k

    iyy iy

    iE

    S S

    MSn k

    =

    =

    siendo iiC el elemento i de la diagonal de la matriz1

    ( ' )X X

    Al igual que antes, 0t mide la cantidad de desviaciones estndar est

    i distanciadade 0 valor que toma el parmetro en la hiptesis nula, los contraste son los mismos

    que antes para el nuevo valor 0 con las mismas regiones de rechazo.

    2.- CONTRASTE DE RESTRICCIONES LINEALES MLTIPLES UTILIZANDO ELESTADSTICO F.

    Hasta ahora, slo hemos considerado hiptesis que implican una sola restriccin. Con

    frecuencia, deseamos contrastar hiptesis mltiples sobre los parmetros1,..., k

    En las restricciones lineales mltiples podemos distinguir tres tipos: las restricciones

    de exclusin, la significatividad del modelo y otras restricciones lineales.

    Restricciones de exclusin

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    9/28

    Para el modelo no restringido siguiente:

    1 1 k ky x x = + + +

    Supongamos que hay q restricciones de exclusin a contrastar. Entonces, H0postula

    que q variables tienen coeficientes cero. Si se asume que son las ltimas q variables,

    la H0se expresa como:

    0 1: 0k q kH = = =

    El modelo restringido se obtiene mediante la imposicin de q restricciones de la H0en

    el modelo no restringido:

    1 1 k q k qy x x

    = + + +

    La H1se expresa como:

    1 0: no es ciertaH H

    - El estadstico pivotepara este contraste es:

    0 ( ) // ( 1)

    R NR

    NR

    SSR SSR qFSSR n k

    =

    donde:

    SSRNR: suma de cuadrados de residuos en el modelo no restringido.

    SSRR : suma de cuadrados de residuos en el modelo restringido.

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de q y n-k-1

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 , , 1q n kF F >

    siendo , , 1q n kF el percentil 1- de la distribucin F-snedecor con q y n-k-1

    grados de libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( ), 1 0q n kP F F >

    Por lo tanto, rechazamos H0 en favor de H1 cuando 0 , , 1q n kF F > como

    puede verse en la figura siguiente:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    10/28

    Significacin global del modelo

    Contrastar la significacin del modelo, o significacin global del modelo, es un caso

    particular de los contrastes de restricciones de exclusin. Se podra pensar que este

    contraste la H0debera ser la siguiente:

    0 1: 0kH = = =

    La H1se expresa como:

    1 0: no es ciertaH H

    - El estadstico pivotepara este contraste es:

    0

    /

    / ( 1)

    R

    E

    SS kF

    SS n k =

    donde:

    1

    k

    iE yy iy

    i

    SS S S =

    =

    1

    k

    iR iy

    i

    SS S=

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de k y n-k-1

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 , , 1k n kF F >

    siendo , , 1k n kF el percentil 1- de la distribucin F-snedecor con k y n-k-1

    grados de libertad.Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( ), 1 0k n kP F F >

    Significacin global del modelo

    Podemos obtener el caso en el que un contraste con t y otro con F sean el mismo. El

    estadstico F puede utilizarse para contrastar una sola restriccin, en este caso,

    podemos elegir entre el estadstico F o el estadstico t para hacer un contraste de dos

    colas. Las conclusiones sern exactamente las mismas.

    La relacin entre una F con grados de libertad 1 y n-k-1 y una t es:2

    1, 1 1n k n k F t

    3.- APLICACIONESEN EL DISEO DE EXPERIMENTOS.

    Los modelos de diseo de experimentos son modelos estadsticos clsicos cuyo

    objetivo es averiguar si unos determinados factores influyen en una variable de inters

    y, si existe influencia de algn factor, cuantificar dicha influencia.

    Unos ejemplos donde habra que utilizar estos modelos son los siguientes:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    11/28

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    12/28

    ejercicio anterior vamos a ampliar el estudio mediante el contraste de la influencia de

    la actividad renal, as como un estudio de regresin mltiple con las dos variables

    independientes definidas.

    Presentamos el diagrama de dispersin entre las variables ACTVRENAL y NIVELTOX,

    y la representacin de la recta de regresin aproximada.Los diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de

    relacin existente entre dos variables, adems, tambin puede utilizarse como una

    forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con

    observar el grado en el que la nube de puntos se ajusta a una lnea recta.

    El grfico muestra una posible adecuacin del modelo lineal, no muy buena y la

    tendencia creciente del mismo.

    La recta de regresin mnima cuadrtica de NIVELTOX sobre ACTRENAL,

    representada en la nube de puntos

    0 1Y a a X = +

    La podemos estimar utilizando la opcin Analizar/Regresin/Lineales... que

    proporciona el SPSS, obtenemos los siguientes resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

    cuadrado indican que el modelo no se ajusta bien a los datos.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    13/28

    R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad

    de NIVELTOX, es explicada por la relacin lineal con ACTRENAL.

    El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir

    es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las

    variables. La ltima columna nos muestra el Error tpico de la estimacin (razcuadrada de la varianza residual) con un valor igual a 2,772.

    En cuadro siguiente se tiene la tabla ANOVA:

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en

    la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es

    decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no

    explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de

    esta descomposicin y proporciona el valor del estadstico Fque permite contrastar lahiptesis nula de que la pendiente de la recta de regresin es igual a cero contra la

    alternativa de que la pendiente es distinta de cero, es decir:

    0 1

    1 1

    : 0: 0

    H aH a

    =

    donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.

    La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se

    define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el

    Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la

    prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es

    cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a

    rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las

    variables del problema.

    "Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."

    La siguiente tabla muestra las estimaciones de los parmetros del modelo de

    regresin lineal simple:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    14/28

    El modelo presenta los siguientes parmetros: como ordenada en el origen, 0 6.7a = y

    la pendiente 1 15.04a = .

    Por tanto, la ecuacin de la recta estimada o ajustada es: 6.7 15.04y x= + . As mismo,

    en esta tabla se presentan los resultados de los dos contrastes individuales de la

    significacin de cada uno de estos parmetros:

    0 0

    1 0

    : 0

    : 0

    H a

    H a

    =

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    El primero de estos contrastes carece de inters en la mayora de los casos ya que

    raramente el punto de corte de la recta de regresin con el eje de ordenadas

    (ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de

    significado casi siempre.

    El segundo contraste, el contraste de la pendiente de la recta, es una alternativa

    equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

    estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valor

    asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05

    que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin

    lineal significativa entre Y y X.

    En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,

    al 95%. El intervalo para 0a es (3.51, 9.89), puesto que el cero no pertenece al

    intervalo, se rechaza la hiptesis nula.

    VALIDACIN Y DIAGNOSIS DEL MODELO

    En este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)

    estos supuestos resultan necesarios para validar la inferencia respecto a los

    parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a

    posteriori de dichas hiptesis del modelo.

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, Para obtener dicho grfico

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    15/28

    seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

    siguiente:

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de

    Kolmogorov-Smirnov:

    Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que

    los residuos surgieran de una distribucin normal y los valores observados. Se

    distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la

    mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    16/28

    p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad

    de los residuos.

    Homocedasticidad

    Comprobamos la hiptesis de homogeneidad de las varianzas grficamente

    representando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de la

    hiptesis de homocedasticidad, si observamos que el grfico muestra forma de

    embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no

    podemos rechazar la hiptesis de igualdad de varianzas.

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Independencia de los residuos

    La hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    17/28

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

    valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.

    REGRESIN LINEAL MLTIPLEEl anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en el

    plano, sino un hiperplano en un espacio multidimensional, si realizamos el diagrama

    de dispersin se obtiene:

    Para obtener el plano de regresin mnima cuadrtica de Z sobre X e Y, representada

    en la nube de puntos,

    0 1 2Z a a X a Y= + +

    Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

    obtenemos los siguientes resultados:

    Podemos observar que en el estudio de Regresin en el SPSS se ha excluido la

    variable ACTRENAL, considerando slo para el modelo la variable DOSIS como

    variable independiente, tal y como muestran los cuadros siguientes:

    El cuadro de coeficientes queda de la forma:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    18/28

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    19/28

    REGRESIN LINEAL MLTIPLE

    En el anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en

    el plano, sino un hiperplano en un espacio multidimensional.

    Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)sobre X1, X2, X3, X4, X5(variables independientes)

    0 1 1 2 2 3 3 4 4 5 5Y a a X a X a X a X a X = + + + + + +

    Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

    obtenemos los siguientes resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

    cuadrado indican que el modelo no se ajusta bien a los datos.

    R cuadrado toma un valor de 0.832 que nos indica que las cinco variables

    independientes incluidas en el anlisis explican un 83.2% de la varianza de la variable

    dependiente. Adems, el error tpico de los residuos es 0.05674

    El valor R (0.8912) representa el valor absoluto del Coeficiente de Correlacin, es

    decir es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre lasvariables.

    En cuadro siguiente se tiene la tabla ANOVA:

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (0.345) en

    la Variabilidad debida a la Regresin (0.287) y la Variabilidad Residual (0.058), es

    decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no

    explicada.

    El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,

    por tanto, nos permite decidir si existe relacin lineal significativa entre la variable de-

    pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel

    crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,

    por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen

    ajuste a la nube de puntos.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    20/28

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    21/28

    Los Coeficientes de regresin estandarizados (Beta) estn basados en las

    puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la

    cantidad de cambio, en puntuaciones tpicas, que se producir en la variable

    dependiente por cada cambio de una unidad en la correspondiente variable inde-

    pendiente (manteniendo constantes el resto de variables independientes).

    Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de

    cada variable independiente en la ecuacin de regresin. En general, una variable

    tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor

    absoluto) es su coeficiente de regresin estandarizado.

    Observando los coeficientes Beta vemos que la variable X2, es la ms importante,

    seguida de X3. Las pruebas t y sus niveles crticos recogidos en el cuadro de

    coeficientes, t y Sig., sirven para contrastar la hiptesis nula de que un coeficiente de

    regresin vale cero en la poblacin. Niveles crticos (Sig.) muy pequeos

    (generalmente menores que 0,05) indican que debemos rechazar esa hiptesis nula.

    VALIDACIN Y DIAGNOSIS DEL MODELO

    En este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,

    independencia y no co-linealidad) estos supuestos resultan necesarios para validar la

    inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para

    realizar los contrastes a posteriori de dichas hiptesis del modelo.

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

    siguiente:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    22/28

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

    estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste deKolmogorov-Smirnov:

    Al salir un p-valor 0.963, mayor de 0.05, podemos aceptar la hiptesis de normalidad

    de los residuos.

    Homocedasticidad

    Comprobamos la hiptesis de homogeneidad de las varianzas grficamenterepresentando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de la

    hiptesis de homocedasticidad, si observamos que el grfico muestra forma de

    embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no

    podemos rechazar la hiptesis de igualdad de varianzas.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    23/28

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Independencia de los residuosLa hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

    valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 2.288 prximo a 2 lo que indica la incorrelacin de los residuos.

    REGRESIN LINEAL MLTIPLE

    Los datos de este ejercicio vienen recogidos en el archivo ejercicio5.sav del fichero zip

    enviado.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    24/28

    En el anlisis de regresin mltiple, la ecuacin de regresin define un hiperplano en

    un espacio multidimensional.

    Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)

    sobre X1, X2, X3, X4, X5, X6, X7(variables independientes)

    0 1 1 2 2 3 3 4 4 5 5 6 6 7 7Y a a X a X a X a X a X a X a X = + + + + + + +

    Una vez cargados los datos en el SPSS, para obtener el modelo lineal deseado,

    utilizamos la opcin Analizar/Regresin/Lineales..., consiguiendo los siguientes

    resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

    cuadrado indican que el modelo no se ajusta bien a los datos.

    R cuadrado toma un valor de 0.775 que nos indica que las siete variables

    independientes incluidas en el anlisis explican un 77.5% de la varianza de la variable

    dependiente.

    El valor R (0.88) representa el valor absoluto del Coeficiente de Correlacin, es decir

    es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre lasvariables.

    En cuadro siguiente se tiene la tabla ANOVA:

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (7999) en

    la Variabilidad debida a la Regresin (6198,766) y la Variabilidad Residual (1800.234),

    es decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no

    explicada.

    El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,

    por tanto, nos permite decidir si existe relacin lineal significativa entre la variable de-

    pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel

    crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,

    por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen

    ajuste a la nube de puntos.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    25/28

    "Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal mltiple."

    La siguiente tabla muestra las estimaciones de los parmetros del modelo de

    regresin lineal mltiple:

    En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que

    nos proporcionan informacin de la significatividad de cada variable independiente,

    para p-valores mayores de 0.05 se consideraran variables no significativas para el

    modelo, existen varias variables a las que les sucede este caso, vamos a ir eliminando

    una a una (empezando por la de mayor p-valor) hasta quedarnos con un modelo con

    p-valores menores a 0.05, obtenemos as un modelo en que las variables

    independientes consideradas son X3, X5y X6:

    El modelo presenta los siguientes parmetros: 3 3.376a = , 5 7.621a = y 6 1.406a = .

    Por tanto, la ecuacin de la recta estimada o ajustada es:

    3 5 66.52 3.376 7.621 1.406y x x x= + + +

    La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X3,

    que vale 3.376, indica que, si el resto de variables se mantienen constantes, a un

    aumento de una unidad en X3, le corresponde, en promedio, un aumento de 3.376 en

    el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial.

    Los Coeficientes de regresin estandarizados (Beta) estn basados en las

    puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    26/28

    cantidad de cambio, en puntuaciones tpicas, que se producir en la variable

    dependiente por cada cambio de una unidad en la correspondiente variable inde-

    pendiente (manteniendo constantes el resto de variables independientes).

    Estos coeficientes proporcionan una pista muy til sobre la importancia relativa decada variable independiente en la ecuacin de regresin. En general, una variable

    tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor

    absoluto) es su coeficiente de regresin estandarizado.

    Observando los coeficientes Beta vemos que la variable X5, es la ms importante,

    seguida de X3.

    La tabla, tambin nos proporciona los intervalos de confianza al 95% de dichos

    coeficientes, es decir, sus valores extremos con una probabilidad de 0,95.

    VALIDACIN Y DIAGNOSIS DEL MODELOEn este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,

    independencia y no co-linealidad) estos supuestos resultan necesarios para validar la

    inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para

    realizar los contrastes a posteriori de dichas hiptesis del modelo.

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

    siguiente:

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    27/28

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

    estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste deKolmogorov-Smirnov:

    Al salir un p-valor 0.56, mayor de 0.05, podemos aceptar la hiptesis de normalidad de

    los residuos.

    Homocedasticidad

    Comprobamos la hiptesis de homogeneidad de las varianzas grficamenterepresentando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de la

    hiptesis de homocedasticidad, si observamos que el grfico muestra forma de

    embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no

    podemos rechazar la hiptesis de igualdad de varianzas.

  • 8/10/2019 Actividad4 Sanchez Campoy CM

    28/28

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Independencia de los residuosLa hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

    valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 1.897 prximo a 2 lo que indica la incorrelacin de los residuos.