UNIDAD I.pdf

9

Click here to load reader

Transcript of UNIDAD I.pdf

  • 1

    1.2 Regresin lineal mltiple Muchas aplicaciones del anlisis de regresin involucran situaciones en donde se tiene ms de una variable de regresin. Un modelo de regresin que contiene ms de un regresor recibe el nombre de modelo de regresin mltiple. Como ejemplo, supngase que la vida eficaz de una herramienta de corte depende de la velocidad de corte y del ngulo de la herramienta. Un modelo de regresin mltiple que puede describir esta relacin es el siguiente

    22110 xxY 1-28

    donde Y representa la vida media de la herramienta; 1x , la velocidad de corte; 2x , el

    ngulo de la herramienta, y es un trmino de error aleatorio. Este es un modelo de regresin lineal mltiple con dos regresores se utiliza el trmino lineal porque la ecuacin

    1-28 es una funcin lineal de los parmetros desconocidos 0 , 1 y 2 .

    El modelo de regresin de la ecuacin describe un plano en el espacio tridimensional

    formado por Y, 1x y 2x . El parmetro 0 es la interseccin del plano. En ocasiones, los

    parmetros 1 y 2 se conocen como coeficientes de regresin parciales, ya que 1

    mide el cambio esperado en Y por unidad de cambio 1x cuando 2x se mantiene

    constante, y 2 mide el cambio esperado en Y por unidad de cambio en 2x cuando 1x se

    mantiene constante. En general, la variable dependiente o respuesta y puede estar relacionada con k variables independientes o regresores. El modelo

    kk xxxY 22110 1-29

    recibe el nombre de modelo de regresin lineal mltiple con k variables de regresin. Los parmetros j kj ,,1,0 , se conocen como coeficientes de regresin. Este modelo

    describe un hiperplano en el espacio de dimensin k formado por variables de regresin jx . El parmetro j representa el cambio esperado en la respuesta de Y por unidad de cambio en jx cuando todos los dems regresores jx )( ji se mantienen constantes.

    Frecuentemente los modelos de regresin lineal mltiple se emplean como funciones de aproximacin. Esto es, se desconoce la verdadera relacin funcional entre Y y

    kxxx ,,, 21 pero sobre ciertos rangos de las variables independientes el modelo de

    regresin lineal constituye una aproximacin adecuada. Estimacin de los parmetros por mnimos cuadrados El mtodo de mnimos cuadrados puede emplearse para estimar los coeficientes de regresin del modelo lineal mltiple de la ecuacin 1-29

  • 2

    Ecuaciones normales de mnimos cuadrados

    n

    i

    n

    i

    n

    i

    n

    i

    iikkii yxxxn1 1 1 1

    22110

    n

    i

    n

    i

    n

    i

    n

    i

    ii

    n

    i

    ikikiiii yxxxxxxx1 1 1 1

    1

    1

    1212

    2

    1110

    n

    i

    n

    i

    n

    i

    n

    i

    iik

    n

    i

    ikkiikiikik yxxxxxxx1 1 1 11

    2

    22110

    Ntese que existen 1 kp ecuaciones normales, una para cada coeficiente de

    regresin desconocido. La solucin de las ecuaciones normales son los estimadores de

    mnimos cuadrados de los coeficientes de regresin k ,,, 10 . La solucin de las

    ecuaciones normales pueden obtenerse con cualquier mtodo apropiado para la solucin de sistemas de ecuaciones lineales.

    Enfoque matricial para la regresin lineal mltiple Al ajustar el modelo de regresin mltiple es mucho ms conveniente expresar las operaciones matemticas en forma matricial. Supngase que existen k variables de

    regresin y n observaciones ),,,,( 21 iikii yxxx , ni ,,2,1 , y que el modelo que

    relaciona los regresores con la respuesta es

    nixxxy iikkiii ,,,2,1,22110

    Este modelo es un sistema de n ecuaciones que puede expresarse en notacin matricial como

    Xy 1-30

    donde

    ny

    y

    y

    2

    1

    y

    nknn

    k

    x

    xxx

    xxx

    xxx

    21

    22221

    11211

    1

    1

    1

    X

  • 3

    k

    1

    0

    y

    n

    2

    1

    En general, es un vector de observaciones de )1( n , es una matriz de )( pn de los

    niveles de las variables independientes, es un vector de )1( p formado por los

    coeficientes de regresin y es un vector de )1( n de errores aleatorios.

    Se desea encontrar el vector de estimadores de mnimos cuadrados, , que minimiza

    El estimador de mnimos cuadrados es la solucin para en las ecuaciones

    No se darn detalle sobre cmo realizar las derivadas anteriores; sin embargo. Las ecuaciones resultantes que es necesario resolver son

    yXXX

    1-31

    Las ecuaciones (1-31) son las ecuaciones normales de mnimos cuadrados en forma matricial, y son idnticas a la forma escalar que se vieron ya con anterioridad. Para resolver las ecuaciones normales se multiplican ambos miembros de las ecuaciones anteriores por la inversa XX . Por consiguiente, el estimador de mnimos cuadrados de

    es

    1-32

    Ntese que existen 1 kp ecuaciones normales y 1 kp incgnitas (los valores de

    ),,, 10 k .

    1.2.1 Pruebas de hiptesis en regresin lineal mltiple En problemas de regresin lineal mltiple, existen ciertas pruebas de hiptesis sobre los parmetros del modelo que son tiles para medir la adecuacin del mismo. En este tema se describirn varios procedimientos importantes en las pruebas de hiptesis. Al igual que en el caso de la regresin lineal simple, la prueba de hiptesis requiere que los trminos

  • 4

    de error i del modelo de regresin tenga distribuciones normales e independientes con

    media cero y varianza 2 . Tabla 1-3 Anlisis de la varianza para la prueba de significancia de la regresin mltiple

    Fuente de variacin

    Suma de cuadrados

    Grados de libertad

    Media de cuadrados

    Regresin

    Error

    Total

    Prueba sobre la significancia regresin La prueba para la significancia de la regresin es una prueba para determinar si existe una relacin lineal entre las variables de respuesta y y un subconjunto de variables de

    regresin kxxx ,,, 21 . Las hiptesis apropiadas son

    0: 210 kH

    0:1 jH al menos para una j

    El rechazo de 0: 210 kH implica que al menos una de las variables de

    regresin kxxx ,,, 21 tiene una distribucin efectiva en el modelo.

    La prueba de significancia de la regresin es una generalizacin del procedimiento

    utilizado en la regresin lineal simple. La suma de cuadrados yyS se divide en una suma de

    cuadrados debida a la regresin y una suma de cuadrados debida al error, digamos,

    ERyy SSSSS

    y si 0: 210 kH es verdadera, entonces 2/RSS es una variable aleatoria

    ji cuadrada con k grados de libertad. Ntese que el nmero de grados de libertad para esta variable aleatoria ji cuadrada es igual al nmero de variables de regresin del

    modelo. El estadstico de prueba para 0: 210 kH es

    1-33

    Debe rechazarse 0H si el valor del estadstico de prueba de la ecuacin anterior, 0f es

    mayor que pnkf ,, . En general, el procedimiento se resume en una tabla de anlisis de

    varianza, tal como la tabla1-3.

  • 5

    Definicin Las frmulas para el clculo de la suma de cuadrados para el anlisis de varianza, son

    1-34

    y

    1-35

    La suma de cuadrados del error se obtiene por sustraccin, y es 1-36

    Pruebas sobre los coeficientes individuales de regresin y sobre subconjuntos de coeficientes A menudo se tiene inters en hacer prueba de hiptesis sobre los coeficientes de regresin. Tales pruebas son tiles para determinar el valor potencial de cada una de las variables de regresin del modelo de regresin. Por ejemplo, el modelo puede ser ms eficaz con la inclusin de variables adicionales, o quiz con la eliminacin de uno o ms regresores presentes en el modelo. La adicin de una variable a un modelo de regresin siempre hace que la suma de los cuadrados de la regresin aumente y que la suma de los cuadrados del error disminuya. Por tanto, debe decidirse si el aumento en la suma de cuadrados de la regresin es suficientemente grande como para justificar el uso de una variable ms en el modelo. Por otra parte, la adicin de una variable sin importancia puede aumentar el error cuadrtico medio, lo que constituye un indicador de que tal variable disminuye la calidad con la que el modelo ajusta los datos. Las hiptesis para la prueba de la significancia de cualquier coeficiente de regresin individuales, por ejemplo j , son

    0:

    0:

    1

    0

    j

    j

    H

    H

    Si no se rechaza 0:0 jH , entonces esto indica que el regresor jx puede eliminarse

    del modelo. El estadstico de prueba para esta hiptesis es

    1-37

  • 6

    donde ijC es el elemento de la diagonal de -1

    X)X( que corresponde a j . Ntese que el

    denominador de la ecuacin anterior es el error estndar de coeficiente de regresin j .

    La hiptesis nula 0:0 jH se rechaza si pntt ,2/0 . Esto se conoce como prueba

    parcial o marginal, debido a que el coeficiente de regresin j depende de las dems

    variables jx )( ji que estn en el modelo.

    Cuando un modelo tiene variables de regresin la inversa de la matriz -1X)X( se

    define como:

    -1X)X(

    [

    ]

    1.2.2 Intervalos de confianza y prediccin en la regresin lineal mltiple Intervalos de confianza para los coeficientes de regresin En los modelos de regresin mltiple, a menudo es til construir estimaciones de intervalos de confianza para los coeficientes de regresin j . El desarrollo de un procedimiento para obtener estos intervalos de confianza requiere que los errores j estn distribuidos de manera normal e independiente, con media cero y varianza 2 . Esta es la misma suposicin que se requiere para la prueba de hiptesis. Por consiguiente, las observaciones jY estn distribuidas de manera normal e independiente con media

    k

    j

    ijj x1

    0 y varianza 2 . Puesto que el estimador de mnimos cuadrados tiene una

    distribucin normal con un vector promedio y matriz de covarianza 12 )( XX .

    Entonces, cada uno de los estadsticos

    1-38

    tiene una distribucin con pn grados de libertad, donde jjC es el jj simo

    elemento de la matriz 1)( XX , y 2 es la estimacin de la varianza del error. Lo anterior

    conduce a la definicin siguiente de un intervalo de confianza del )1(100 por ciento

    para los coeficientes de regresin

  • 7

    Definicin

    Un intervalo de confianza del por ciento para el coeficiente de regresin

    en el modelo de regresin lineal mltiple est dado por

    1-39

    Prediccin de nuevas observaciones Un modelo de regresin puede emplearse para predecir observaciones futuras de las variables de respuesta , correspondiente a valores particulares de las variables independientes, por ejemplo, { }, entonces una estimacin puntual de la observacin futura en el ponto es

    1-40

    Un intervalo de prediccin del para esta observacin futura es

    1-41

    Al predecir nuevas observaciones y estimar la respuesta promedio en un punto dado se debe tener cuidado al tratar de extrapolar ms all de la regin que contiene las observaciones originales. Existe una posibilidad alta de que un modelo que ajusta bien los datos originales dentro de una regin, ya no lo haga del mismo modo fuera de dicha regin. 1.3 Regresin no lineal Si las dos variables x y y se relacionan segn un modelo de lnea recta, se habla de regresin lineal simple

    1-42

    Cuando dos variables x y y se relacionan segn una lnea curva, se habla de regresin no lineal curvilnea. Aqu se puede distinguir una relacin parablica, exponencial, potencial etc. Supongamos que al hacer una representacin grfica correspondiente a la distribucin bidimensional Se observa una clara relacin entre dos variables, pero desde luego, no es una relacin lineal. Por tanto, debemos buscar la funcin que ha de describir la dependencia entre esas dos variables. Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la logartmica, la exponencial y la potencial.

  • 8

    Parbola de regresin En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es:

    1-43

    donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:

    Donde, siguiendo la notacin habitual, son los valores observados de la variable dependiente, los valores estimados segn el modelo; por tanto, podemos escribir D de la forma:

    Para encontrar los valores a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en la regresin lineal simple)

    Funcin exponencial, potencial y logartmica El problema de ajustar un modelo potencial, de la forma y uno exponencial se reduce al de la funcin lineal, con solo tomar logaritmos.

  • 9

    Modelo potencial Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

    Tambin se trata de la ecuacin de una recta , pero ahora ajustndola a y a x; de modo que, para obtener el parmetro de a del modelo exponencial, basta con hacer el antilogaritmo de a, y el parmetro b se obtiene tomando antilogaritmo de b.

    Modelo logartmico La curva logartmica es tambin una recta, pero en lugar de estar referida a las variables originales x y y, est referida a logx y a y.

    Hemos visto, como, a pesar de ser inicialmente modelos mucho ms complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar adecuadamente los datos de partida.