Actividad3 Sanchez Campoy CM

download Actividad3 Sanchez Campoy CM

of 33

Transcript of Actividad3 Sanchez Campoy CM

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    1/33

    AAccttiivviiddaadd33TTeemmaa33

    TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY

    PROFESORES: RAMN GUTIRREZ SNCHEZMARIA DOLORES RUIZ MEDINA

    CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.APLICACIONES EN BIOCIENCIAS E INGENIERA

    - MASTER ESTADSTICA APLICADA -

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    2/33

    A1. CUESTIONES TERICAS

    Resolver tres actividades tericas.

    1.- Deducir la expresin de los estimadores mnimo-cuadrticos de losparmetros del modelo de regresin lineal simple.

    Definimos las siguientes variables:

    X: variable de regresin o explicativa, continua y controlable por elexperimentador. En el diseo del experimento se determinan sus valores.

    Y: variable respuesta, para la que se supone una relacin lineal entre Y y lavariable explicativa X.

    El modelo que define la observacin de la variable respuesta Y viene dado por:

    0 1Y a a X = + +

    representando , la componente de error aleatoria, se supone que es una variable

    aleatoria con media cero y varianza2

    y que el conjunto de componentes aleatoriasde error no estn correlacionadas.

    Tomando n pares de datos 1 1( , ),..., ( , )n nx y x y , presentamos la siguiente

    demostracin:

    El proceso para la obtencin por mnimos cuadrados de los estimadores 0a y 1a tienepor objetivo minimizar la suma de los cuadrados de los residuos, que denotamos por

    L . Partiendo de dicha funcin su expresin viene dada por:

    ( )22

    0 1

    1 1

    n n

    i i i

    i i

    L y a a x= =

    = =

    Para minimizar L , derivamos parcialmente respecto de 0 1ya a :

    ( )0 110

    2n

    i i

    i

    Ly a a x

    a =

    =

    ( )0 111

    2n

    i i i

    i

    Ly a a x x

    a =

    =

    Los estimadores mnimo-cuadrticos se obtienen igualando las anteriores derivadas a

    cero:

    ( )0 11

    2 0n

    i i

    i

    y a a x=

    =

    ( )0 11

    2 0n

    i i i

    i

    y a a x x=

    =

    Operando se tiene:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    3/33

    0 1

    1 1

    n n

    i i

    i i

    y na a x= =

    = +

    2

    0 11 1 1

    n n n

    i i i ii i iy x a x a x= = =

    = +

    Para resolver este sistema de ecuaciones, realizamos los siguientes pasos:

    Dividimos la primera ecuacin por n: 0 1Y a a X = +

    Despejando: 0 1a Y a X =

    Sustituyendo 0a en la segunda ecuacin:

    ( ) 21 11 1 1

    n n n

    i i i i

    i i i

    y x Y a X x a x

    = = =

    = +

    2

    1

    1 1 1 1

    n n n n

    i i i i i

    i i i i

    y x Y x a x X x= = = =

    =

    (*)

    Por otra parte:

    ( )1 1

    ( )( )n n

    i i i i i i

    i i

    y Y x X y x X y Y x Y X= =

    = + =

    1 1 1

    n n n

    i i i i

    i i i

    y x X y Y x nY X= = =

    = + =

    1 1 1 1

    n n n n

    i i i i i i

    i i i i

    y x n X Y Y x nY X y x Y x= = = =

    = + =

    ( )2 2

    2 2 2

    1 1 1 1

    ( ) 2 2n n n n

    i i i i i

    i i i i

    x X x X x X x X x n X= = = =

    = + = + =

    2 2

    1 1 1 1 1

    2n n n n n

    i i i i i

    i i i i i

    x X x X x x X x= = = = =

    = + =

    Teniendo en cuenta estas igualdades obtenidas y sustituyndolas en la ecuacin (*),tenemos que:

    2

    1

    1 1

    ( )( ) ( )n n

    i i i

    i i

    y Y x X a x X= =

    =

    De donde deducimos que el estimador de 1a viene dado por el cociente:

    11

    2

    1

    ( )( )

    ( )

    n

    i i

    i XY

    n

    XXi

    i

    y Y x XS

    aS

    x X

    =

    =

    = =

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    4/33

    Siendo:

    1 1

    ( )( )n n

    XY i i i i

    i i

    S y Y x X y x n X Y = =

    = =

    22 2

    1 1

    ( )n n

    XX i i

    i i

    S x X x n X = =

    = =

    Basta sustituir 1a en la expresin despejada de la primera ecuacin para obtener:

    0 1a Y a X =

    Luego, hemos deducido que los estimadores 0a y 1a son:

    1

    0 1

    XY

    XX

    S

    a S

    a Y a X

    =

    =

    2.- Deducir la expresin

    1E YY XYSS S a S =

    de la suma de cuadrados de los residuos.

    Tenemos las siguientes notaciones:

    0 1Y a a X = +

    ESS : Suma de cuadrados de los residuos:

    2

    1

    n

    E i

    i

    SS =

    =

    ( )2 2

    2

    1 1

    n n

    YY i i

    i i

    S y Y y nY = =

    = =

    ( )2 22

    1 1

    n n

    XX i i

    i i

    S x X x n X = =

    = =

    1 1

    ( )( )n n

    XY i i i i

    i i

    S y Y x X y x n X Y = =

    = =

    Para poder llegar a la expresin deseada, comenzamos con la siguiente igualdad:

    ii i

    y y = +

    Restamos Y a ambos lados: ii iy Y y Y = +

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    5/33

    Si elevamos al cuadrado ambos miembros se obtiene que:

    ( ) ( )22

    ii iy Y y Y = +

    Es decir: ( ) ( ) ( ) 22 2

    2i ii i iy Y y Y y Y = + +

    Sumando ambos miembros de la expresin de i =1 hasta n, se tiene

    ( ) ( ) ( ) 22 2

    1 1 1 1

    2n n n n

    i ii i i

    i i i i

    y Y y Y y Y = = = =

    = + +

    Ahora bien, el ltimo trmino de la expresin anterior es cero, hacemos la

    demostracin en el siguiente marco:

    Luego:

    ( )

    ( )

    22 2

    1 1 1

    n n n

    i

    i ii i i

    y Y y Y = = =

    = +

    ( ) 1 1 1

    n n n

    i i ii i

    i i i

    y Y y Y = = =

    = y sabemos que:

    La suma de los residuos mnimo-cuadrticos es igual a cero:

    0 1

    1 1 1 1 1 1

    ( ) ( )n n n n n n

    i i i i ii i

    i i i i i i

    y y y y y a a x= = = = = =

    = = = + =

    ( ) 0 1 1 11 1 1 1

    n n n n

    i i i i

    i i i i

    y na a x y n Y a X a x= = = =

    = = =

    1 11 1 1 1 0

    n n n n

    i i i ii i i i

    y y a x a x= = = =

    = = La suma de los productos cruzados entre los valores ajustados y los residuos es

    igual a 0:

    ( ) 0 1 0 11 1 1 1

    0n n n n

    i i i ii ii

    i i i i

    y a a x a a x = = = =

    = + = + =

    Puesto que:

    es una variable aleatoria con media cero luego:

    1

    0n

    i

    i

    n

    =

    = =

    ( )0 11 1

    0n n

    ii i i i

    i i

    x y a a x x= =

    = = por la segunda ecuacin del

    sistemas de ecuaciones obtenido en la estimacin por mnimos

    cuadrados.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    6/33

    Por tanto, hemos llegado a que:

    YY EY YS S SS = +

    Como

    0 1Y a a X = +

    , equivale a un cambio de escala y origen de la variable X, por laspropiedades de la varianza ante estos cambios, se tiene que:

    ( )

    ( )2 2

    21 1

    1

    n n

    ii

    i i

    y Y x X

    an n

    = =

    =

    ( ) ( )2 22

    1

    1 1

    n n

    ii

    i i

    y Y a x X= =

    =

    Luego:

    2

    1 1 1 1 1XY

    XX XX XX XYY YXX

    SS a S a a S a S a S

    S= = = =

    As llegamos a la igualdad deseada:

    1YY XY E S a S SS = +

    1E YY XYSS S a S =

    3.- Explicar brevemente la interpretacin de los valores del coeficiente dedeterminacin.

    El coeficiente de determinacin se define como la proporcin de la varianza total

    explicada por la regresin. Su expresin viene dada por:

    ( )

    ( )

    2

    2 1

    2

    1

    n

    i

    i R

    n

    YYi

    i

    y YSS

    RS

    y Y

    =

    =

    = =

    De forma equivalente, y en aplicacin de la igualdad:

    ( ) ( ) 22 2

    1 1 1

    n n n

    ii i

    i i i

    y Y y Y = = =

    = +

    obtenida en el apartado anterior de esta actividad, podemos expresar el coeficiente dedeterminacin como, como uno menos la proporcin no explicada por la regresin, es

    decir:

    ( )

    2

    2 1

    2

    1

    1 1

    n

    i

    i E

    n

    YYi

    i

    SSR

    Sy Y

    =

    =

    = =

    El criterio mnimo-cuadrtico equivale a maximizar2

    R .

    Dicho coeficiente toma valores en el intervalo (0 , 1) y se interpreta como la proporcinde variabilidad de los datos explicada por el modelo de regresin. Por este motivo, se

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    7/33

    suele utilizar, como un indicador de la adecuacin del modelo de regresin (medida

    relativa del grado de asociacin lineal entre X e Y), mide la correlacin entre el valor

    observado y el valor predicho o ajustado con la regresin.

    2

    0 1R

    Si2 1R = ( ) ( )

    22

    1 1

    n n

    i i

    i i

    y Y y Y= =

    = y 2

    1

    0n

    i

    i

    =

    =

    Lo que implica un ajuste perfecto, Y depende funcionalmente de X, la varianza

    de los residuos se hace cero y la varianza de los valores observados y la

    variable respuesta coincide.

    Si2 1R <

    ( )2

    1

    0n

    i

    i

    y Y=

    y 2

    1

    0n

    i

    i

    =

    Se tiene que:

    ( ) ( )

    ( )

    2 22

    1 1

    222

    1 1

    (1 )

    n n

    ii

    i i

    n n

    i i

    i i

    y Y R y Y

    R y Y

    = =

    = =

    =

    =

    Un valor de2

    R cercano a 0 implica baja capacidad explicativa de la recta, porotro lado, un valor prximo a 1, equivale a alta capacidad explicativa de la recta.

    Si2 0R = ( )

    22

    1 1

    n n

    i i

    i i

    y Y= =

    = y ( )2

    1

    0n

    i

    i

    y Y=

    =

    El modelo no explica nada de Y a partir de X.

    En resumen:

    El coeficiente de determinacin toma valores entre 0 y 1, tomando el valor 0

    cuando el modelo no explica nada de Y a partir de X, es decir el ajuste es el

    peor posible, y tomando el valor 1 cuando todos los residuos son nulos, es

    decir el ajuste es perfecto. Para valores intermedios, segn estn ms

    prximos a 0 o 1, nos indicarn un peor omejor ajuste respectivamente, por

    poner datos numricos algunos autores, consideran un buen ajuste para

    valores de2

    R mayores de 0.75, es decir cuando al menos el 75% de la

    varianza total quede explicada por la regresin.

    Para terminar damos otras frmulas para el coeficiente de determinacin:

    22 ' 2

    1 1R XY

    YY YY XX

    SS SR a a r

    S S S= = = =

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    8/33

    A2. TRABAJO

    Elaborar un resumen sobre los contrastes de ajuste en el modelo de regresinlineal. Indicando algunos casos particulares interesantes para el anlisis de la

    adecuacin del modelo

    Los estimadores 0a y 1a dependen de la muestra seleccionada, por lo tanto son

    variables aleatorias y presentarn una distribucin de probabilidad. Estas

    distribuciones de probabilidad de los estimadores pueden utilizarse para construir

    intervalos de confianza o contrastes sobre los parmetros del modelo de regresin.

    Suponiendo que los residuos se distribuyen normalmente, realizamos un resumen de

    los contrastes de ajuste sobre el modelo de regresin lineal simple:

    1.- Ajuste de la pendiente de la recta, contrastes para el parmetro a1:

    En trminos generales planteamos los siguientes contrastes para a1:

    Unilateral a la izquierda(contraste de una cola):

    0 1

    1 1

    :

    :

    H a a

    H a a

    =

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    9/33

    - El estadstico pivotepara este contraste es:

    1

    0

    E

    XX

    a at

    MSS

    = donde:

    1

    2

    YY XY E

    S a SMS

    n

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 1 , 2nt t >

    siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de

    libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( )2 0nP t t >

    Bilateral (contraste de dos colas):

    0 1

    1 1

    :

    :

    H a a

    H a a

    =

    - El estadstico pivotepara este contraste es:

    1

    0

    E

    XX

    a at

    MSS

    = donde:

    1

    2YY XY

    E

    S a SMS

    n

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 /2, 2nt t >

    siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados

    de libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( )2 02 nP t t >

    Caso especialSe puede considerar el contraste de ausencia de una relacin lineal entre X e Y; o bien,

    la ausencia de una relacin causal entre dichas variables, en trminos del primer

    contraste de ajuste sobre la pendiente. Es decir,

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    10/33

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    - El estadstico pivotepara este contraste es:

    1

    0

    E

    XX

    at

    MSS

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 /2, 2nt t >

    es decir, 0 /2, 2nt t >

    0 /2, 2nt t <

    siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados

    de libertad.

    Por lo tanto, si el estadstico de prueba cae en la regin crtica, se rechaza la hiptesis

    nula y se dice que el estadstico hallado es estadsticamente significativo con un nivel

    de confianza del 100(1-)%.

    Ajuste de la pendiente de la recta, contrastes para el parmetro a0:

    En trminos generales planteamos los siguientes contrastes para a0:

    Unilateral a la izquierda(contraste de una cola):

    0 0

    1 0

    :

    :

    H a a

    H a a

    =

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    11/33

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( )2 0nP t t <

    Unilateral a la derecha(contraste de una cola):

    0 0

    1 0

    :

    :

    H a a

    H a a

    =

    >

    - El estadstico pivotepara este contraste es:

    0

    02

    1E

    XX

    a at

    XMS

    n S

    =

    +

    donde:

    1

    2

    YY XY

    E

    S a SMS

    n

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 1 , 2nt t >

    siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de

    libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( )2 0nP t t >

    Bilateral (contraste de dos colas):

    0 0

    1 0

    :

    :

    H a a

    H a a

    =

    - El estadstico pivotepara este contraste es:

    0

    0 2

    1E

    XX

    a at

    XMS

    n S

    =

    +

    donde:

    1

    2

    YY XY

    E

    S a SMS

    n

    =

    Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

    grados de libertad.

    - La hiptesis nula se rechaza cuando:

    0 /2, 2nt t >

    siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados

    de libertad.

    Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    12/33

    Rechazamos Hosi : p-valor <

    Calculndose el p-valor en este caso de la forma siguiente:

    p-valor = ( )2 02 nP t t >

    A3. ANLISIS DE DATOS

    Para realizar los ejercicios voy a utilizar el software SPSS.

    Llamamos a las variables DOSIS (Variable Independiente) y NIVELTOX (Variable

    Dependiente) que vienen recogidas en archivo ejercicio1.sav de la carpeta de datos.

    Empezamos el problema mediante la presentacin del diagrama de dispersin entre

    ambas variables, y la representacin de la recta de regresin aproximada. Losdiagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de

    relacin existente entre dos variables, adems, tambin puede utilizarse como una

    forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con

    observar el grado en el que la nube de puntos se ajusta a una lnea recta.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    13/33

    El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente

    del mismo.

    Para obtener la recta de regresin mnima cuadrtica de NIVELTOX sobre DOSIS ,

    representada en la nube de puntos,

    0 1Y a a X = +

    Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

    obtenemos los siguientes resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

    cuadrado indican que el modelo no se ajusta bien a los datos.R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad

    de NIVELTOX, es explicada por la relacin lineal con DOSIS.

    El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir

    es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las

    variables. La ltima columna nos muestra el Error tpico de la estimacin (raz

    cuadrada de la varianza residual) con un valor igual a 2,772.

    En cuadro siguiente se tiene la tabla ANOVA:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    14/33

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en

    la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es

    decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no

    explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de

    esta descomposicin y proporciona el valor del estadstico Fque permite contrastar la

    hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra laalternativa de que la pendiente es distinta de cero, es decir:

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.

    La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se

    define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el

    Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la

    prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, escero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a

    rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las

    variables del problema.

    "Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."

    La siguiente tabla muestra las estimaciones de los parmetros del modelo de

    regresin lineal simple:

    El modelo presenta los siguientes parmetros: como ordenada en el

    origen, 0 0.82a = y la pendiente 1 0.752a = .

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    15/33

    Por tanto, la ecuacin de la recta estimada o ajustada es: 0.82 0.752y x= + . As

    mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de

    la significacin de cada uno de estos parmetros:

    0 0

    1 0

    : 0

    : 0

    H a

    H a

    =

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    El primero de estos contrastes carece de inters en la mayora de los casos ya que

    raramente el punto de corte de la recta de regresin con el eje de ordenadas

    (ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de

    significado casi siempre.

    El segundo contraste, el contraste de la pendiente de la recta, es una alternativa

    equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

    estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valorasociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05

    que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin

    lineal significativa entre Y y X.

    En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,

    al 95%. El intervalo para 0a es (-6.222, 4.582), puesto que el cero pertenece al

    intervalo, se aceptara la hiptesis nula y concluir que si la DOSIS es cero el

    NIVELTOX tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a

    podra considerarse igual a cero.

    VALIDACIN Y DIAGNOSIS DEL MODELO

    En este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)

    estos supuestos resultan necesarios para validar la inferencia respecto a los

    parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a

    posteriori de dichas hiptesis del modelo.

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

    siguiente:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    16/33

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de

    Kolmogorov-Smirnov:

    Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que

    los residuos surgieran de una distribucin normal y los valores observados. Sedistingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    17/33

    mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del

    p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad

    de los residuos.

    HomocedasticidadComprobamos la hiptesis de homogeneidad de las varianzas grficamente

    representando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de la

    hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los

    residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de

    la variable NIVELTOX , si observamos que el grfico muestra forma de embudo... Si

    por el contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar

    la hiptesis de igualdad de varianzas.

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del

    modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si

    observamos trayectorias de comportamiento no aleatorio esto es indicio de que el

    modelo propuesto no describe adecuadamente los datos.

    Independencia de los residuos

    La hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    18/33

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

    valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    19/33

    Empezamos el problema mediante la presentacin del diagrama de dispersin entre

    ambas variables, y la representacin de la recta de regresin aproximada. Los

    diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de

    relacin existente entre dos variables, adems, tambin puede utilizarse como una

    forma de cuantificar el grado de relacin lineal existente entre dos variables, basta conobservar el grado en el que la nube de puntos se ajusta a una lnea recta.

    El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente

    del mismo.

    Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en

    la nube de puntos,

    0 1Y a a X = +

    Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

    obtenemos los siguientes resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

    cuadrado indican que el modelo no se ajusta bien a los datos.

    R cuadrado toma un valor de 0.915 que nos indica que el 91.5% de la variabilidadde Y, es explicada por la relacin lineal con X.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    20/33

    El valor R (0.957) representa el valor absoluto del Coeficiente de Correlacin, es decir

    es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las

    variables. La penltima columna nos muestra el Error tpico de la estimacin (raz

    cuadrada de la varianza residual) con un valor igual a 3.254.

    En cuadro siguiente se tiene la tabla ANOVA:

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (3871.879)

    en la Variabilidad debida a la Regresin (3543.657) y la Variabilidad Residual

    (328.222), es decir, en Variabilidad explicada por el modelo de regresin y la

    Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se

    construye a partir de esta descomposicin y proporciona el valor del estadstico F que

    permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es

    igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.

    La Tabla ANOVA muestra el valor del estadstico de contraste, F = 334.693, que se

    define como el cociente entre el Cuadrado medio debido a la regresin (3543.657) y el

    Cuadrado medio residual (10.588), por tanto cuanto mayor sea su valor, mejor ser la

    prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es

    cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a

    rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las

    variables del problema.

    "Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."

    La siguiente tabla muestra las estimaciones de los parmetros del modelo de

    regresin lineal simple:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    21/33

    El modelo presenta los siguientes parmetros: como ordenada en el

    origen, 0 3.549a = y la pendiente 1 0.926a = .

    Por tanto, la ecuacin de la recta estimada o ajustada es: 3.549 0.926y x= + . As

    mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de

    la significacin de cada uno de estos parmetros:

    0 0

    1 0

    : 0

    : 0

    H a

    H a

    =

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    El primero de estos contrastes carece de inters en la mayora de los casos ya que

    raramente el punto de corte de la recta de regresin con el eje de ordenadas

    (ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de

    significado casi siempre.

    El segundo contraste, el contraste de la pendiente de la recta, es una alternativaequivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

    estadstico de contraste que aparece en la columna t vale 18.295 tiene un p-valor

    asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05

    que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin

    lineal significativa entre Y y X.

    En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,

    al 95%. El intervalo para 0a es (-0.078, 7.177), puesto que el cero pertenece al

    intervalo, se aceptara la hiptesis nula y concluir que si la variable X es cero la

    variable Y tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a

    podra considerarse igual a cero.

    VALIDACIN Y DIAGNOSIS DEL MODELO

    En este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)

    estos supuestos resultan necesarios para validar la inferencia respecto a los

    parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a

    posteriori de dichas hiptesis del modelo.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    22/33

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

    siguiente:

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

    estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de

    Kolmogorov-Smirnov:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    23/33

    Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que

    los residuos surgieran de una distribucin normal y los valores observados. Se

    distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la

    mayor diferencia negativa. Se muestra el valor del estadstico Z (0.706) y el valor del

    p-valor asociado (0.701). Por lo tanto no se puede rechazar la hiptesis de normalidadde los residuos.

    Homocedasticidad

    Comprobamos la hiptesis de homogeneidad de las varianzas grficamente

    representando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de la

    hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los

    residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de

    la variable Y, si observamos que el grfico muestra forma de embudo... Si por el

    contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la

    hiptesis de igualdad de varianzas.

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del

    modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si

    observamos trayectorias de comportamiento no aleatorio esto es indicio de que el

    modelo propuesto no describe adecuadamente los datos.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    24/33

    Independencia de los residuos

    La hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

    valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 2.395 prximo a 2 lo que indica la incorrelacin de los residuos.

    Estudiar posibles datos atpicos, afectan al ajuste realizado? Afectan a algunade las hiptesis del modelo?

    En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos o

    anmalos que puedan influir en el estudio regresin lineal, para nuestro caso

    observamos datos separados de la recta de regresin generada, aunque no seobserva datos con gran relevancia. Para hacer un estudio de si hay o no datos atpicos

    podemos analizar los residuos.

    Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos

    informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es elerror tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    25/33

    se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de

    las caractersticas de los casos con residuos grandes (grandes en valor absoluto)

    puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la

    ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos

    ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms

    interesante), un listado de los residuos que se alejan de cero (el valor esperado de los

    residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por

    tanto, identificar los casos que poseen residuos grandes.

    Hemos elegido el valor de 2, puesto que no hay residuos que se alejen ms de 3, que

    es el valor que viene por defecto. El resultado que proporciona el SPSS es de dos

    valores atpicos encontrados:

    Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las

    hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que

    merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos

    podemos:

    Eliminar los puntos si realmente no presentan ningn inters.

    Crear una variable ficticia que trate de medir el efecto del punto sobre el

    modelo y que lo caracterice como punto especial proveniente de otra poblacin.

    Es admisible que la variabilidad de los residuos aumente o disminuya con lapropia variable explicativa?

    Puesto que siempre se cumple la igualdad:

    E YY

    Y Y

    SS S S =

    y la variable Y depende de la variable X, es lgico que la variabilidad de los residuosaumente o disminuya con la propia variable explicativa.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    26/33

    Llamamos a las variables PRECIO (Variable Independiente) y DEMANDA (Variable

    Dependiente) que vienen recogidas en archivo ejercicio3.sav de la carpeta de datos.

    Empezamos el problema mediante la presentacin del diagrama de dispersin entre

    ambas variables, y la representacin de la recta de regresin aproximada. Los

    diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de

    relacin existente entre dos variables, adems, tambin puede utilizarse como una

    forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con

    observar el grado en el que la nube de puntos se ajusta a una lnea recta.

    El grfico muestra una posible adecuacin del modelo lineal y la tendencia decreciente

    del mismo.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    27/33

    Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en

    la nube de puntos,

    0 1Y a a X = +

    Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,obtenemos los siguientes resultados:

    En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

    regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

    ajuste de la recta de regresin a la nube de puntos, valores pequeos de Rcuadrado indican que el modelo no se ajusta bien a los datos.

    R cuadrado toma un valor de 0.758 que nos indica que el 75.8% de la variabilidad

    de DEMANDA, es explicada por la relacin lineal con PRECIO.

    El valor R (0.871) representa el valor absoluto del Coeficiente de Correlacin, es decir

    es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las

    variables. La penltima columna nos muestra el Error tpico de la estimacin (raz

    cuadrada de la varianza residual) con un valor igual a 47,528.

    En cuadro siguiente se tiene la tabla ANOVA:

    En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (84145.636)

    en la Variabilidad debida a la Regresin (63815.23) y la Variabilidad Residual(20330.406), es decir, en Variabilidad explicada por el modelo de regresin y la

    Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se

    construye a partir de esta descomposicin y proporciona el valor del estadstico F que

    permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es

    igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    28/33

    La Tabla ANOVA muestra el valor del estadstico de contraste, F = 28.25, que se

    define como el cociente entre el Cuadrado medio debido a la regresin (63815.23) y el

    Cuadrado medio residual (2258.934), por tanto cuanto mayor sea su valor, mejor ser

    la prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es

    cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce arechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las

    variables del problema.

    "Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."

    La siguiente tabla muestra las estimaciones de los parmetros del modelo de

    regresin lineal simple:

    El modelo presenta los siguientes parmetros: como ordenada en el

    origen, 0 497.156a = y la pendiente 1 24.419a = .

    Por tanto, la ecuacin de la recta estimada o ajustada es: 497.156 24.419y x= . As

    mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de

    la significacin de cada uno de estos parmetros:

    0 0

    1 0

    : 0

    : 0

    H a

    H a

    =

    0 1

    1 1

    : 0

    : 0

    H a

    H a

    =

    El primero de estos contrastes carece de inters en la mayora de los casos ya que

    raramente el punto de corte de la recta de regresin con el eje de ordenadas

    (ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece designificado casi siempre.

    El segundo contraste, el contraste de la pendiente de la recta, es una alternativa

    equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

    estadstico de contraste que aparece en la columna t vale 8.17 tiene un p-valor

    asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05

    que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin

    lineal significativa entre Y y X.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    29/33

    En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,

    al 95%. El intervalo para 0a es (359.499 , 634.813), puesto que el cero no pertenece al

    intervalo, se rechazara la hiptesis nula.

    VALIDACIN Y DIAGNOSIS DEL MODELO

    En este apartado vamos a comprobar que se verifican los supuestos del modelo de

    regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)

    estos supuestos resultan necesarios para validar la inferencia respecto a los

    parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a

    posteriori de dichas hiptesis del modelo.

    Normalidad

    Podemos comprobarla de forma grfica o analticamente, grficamente podemos

    estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q..., obtenemos lo

    siguiente:

    El Grfico representa las funciones de distribucin terica y emprica de los residuos

    tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

    alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

    estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

    hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de

    Kolmogorov-Smirnov:

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    30/33

    Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de quelos residuos surgieran de una distribucin normal y los valores observados. Se

    distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la

    mayor diferencia negativa. Se muestra el valor del estadstico Z (0.438) y el valor del

    p-valor asociado (0.991). Por lo tanto no se puede rechazar la hiptesis de normalidad

    de los residuos.

    Homocedasticidad

    Comprobamos la hiptesis de homogeneidad de las varianzas grficamente

    representando los residuos tipificados frente a los tiempos de incubacin estimados

    tipificados. El anlisis de este grfico puede revelar una posible violacin de lahiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los

    residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de

    la variable Y, si observamos que el grfico muestra forma de embudo... Si por el

    contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la

    hiptesis de igualdad de varianzas.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    31/33

    No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

    definida respecto de los valores predichos por el modelo por lo que no debemos

    rechazar la hiptesis de homocedasticidad.

    Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin delmodelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si

    observamos trayectorias de comportamiento no aleatorio esto es indicio de que el

    modelo propuesto no describe adecuadamente los datos.

    Independencia de los residuos

    La hiptesis de independencia de los residuos la realizaremos mediante el contraste

    de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

    SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

    valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

    Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

    cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

    estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si suvalor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

    valor 0.771 prximo a 0 lo que indica la correlacin de los residuos.

    Par solucionar la falta independencia al existir una correlacin entre los residuos,

    podemos plantear una transformacin de los valores o el aadir ms datos al problema.

    DATOS ATPICOS

    En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos quepuedan influir en el estudio regresin lineal, para nuestro caso observamos datos

    separados de la recta de regresin generada, que de entrada nos hace una idea de

    que puedan existir datos anmalos. Para hacer un estudio de si hay o no datos

    atpicos podemos analizar los residuos.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    32/33

    Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos

    informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el

    error tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor

    se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de

    las caractersticas de los casos con residuos grandes (grandes en valor absoluto)

    puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la

    ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos

    ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:

    Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms

    interesante), un listado de los residuos que se alejan de cero (el valor esperado de los

    residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por

    tanto, identificar los casos que poseen residuos grandes.

    Hemos elegido el valor de 1.5, puesto que no hay residuos que se alejen ms de 2. El

    resultado que proporciona el SPSS es de un valor atpico encontrado:

    Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las

    hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que

    merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos

    podemos:Eliminar los puntos si realmente no presentan ningn inters.

  • 8/12/2019 Actividad3 Sanchez Campoy CM

    33/33

    Crear una variable ficticia que trate de medir el efecto del punto sobre el

    modelo y que lo caracterice como punto especial proveniente de otra poblacin.

    EL RESTO DE EJERCICIOS SON DE REGRESIN LINEAL MLTIPLE YVIENEN REPETIDOS EN LA ACTIVIDAD 4 Y HE DECIDIDO HACERLOS ENESA ACTIVIDAD.