Análisis Regresion lineal-1
-
Upload
valeria-francisca-cortes-ramirez -
Category
Documents
-
view
345 -
download
0
Transcript of Análisis Regresion lineal-1
UNIVERSIDAD DE LA SERENA ANÁLISIS MULTIVARIADO
2012
AAnnáálliissiiss ddee RReeggrreessiióónn
LLiinneeaall
A N Á L I S I S D E R E G R E S I Ó N L I N E A L
IInntteeggrraanntteess:: JJaavviieerraa CCuueevvaass MMuuññoozz
VVaalleerriiaa CCoorrééss RRaammíírreezz
DDoocceennttee:: JJuuaann GGaarrrriiddoo ZZúúññiiggaa
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 22
INDICE
1.- Correlación lineal:
la covarianza y sus propiedades
el coeficiente de correlación lineal de pearson (propiedades)
inferencias sobre el coeficiente de correlación poblacional
2.- Regresión lineal simple:
el modelo de regresión simple en la población (parámetros)
los supuestos del modelo de regresión simple
significado del coeficiente de pendiente
estimación de los parámetros por mínimos cuadrados del error
el coeficiente de determinación r2 (significado)
inferencias sobre el coeficiente de pendiente
Test de hipótesis e intervalos de confianza
3.- Regresión lineal múltiple:
el modelo con n variables independientes
supuestos del modelo re regresión múltiple
formulación matricial del modelo múltiple
estimadores de los coeficientes de pendiente
estimación de la varianza del error
inferencias sobre los coeficientes de pendiente
Test de hipótesis e intervalos de confianza
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 33
¿Qué es una Correlación? La correlación apunta principalmente a medir la magnitud de la relación lineal de dos variables continuas.
Covarianza y sus propiedades
La Covarianza es un estadístico que mide la relación lineal entre dos variables cuantitativas. En este caso tenemos
como variables X e Y de las cuales según su dimensión depende la covarianza. Tiene diversas manera de
simbolizarse pero generalmente la mas utilizada es Sxy o bien Cov(x,y).Para obtener el grado de relación de las
variables ya nombradas damos lugar con la formula :
Sean X e Y dos variables aleatorias cuyas medias son E(X ) y E(Y ) y cuyas varianzas son V(X) y V(Y)
respectivamente. Se define la covarianza entre las variables aleatorias X e Y por la expresión:
Cov(X ,Y) = E [ ((X − E(X )) ((Y − E(Y))] = E[ X Y ] − E(X ) E (Y)
Donde es el operador esperanza. Para una muestra de n datos bivariantes: (x1, y1), . . . , (xn, yn) la formula
anterior se concreta en:
1 1
1 1( )( ) ( * )
n n
i i
Sxy Xi X Yi Y Xi Yi nXYn n
Donde X e Y son las medias respectivas de las variables.
Ojo: Cuando las variables aleatorias e son n-dimensionales, es decir, e
, su matriz de covarianzas es:
Propiedades de la covarianza:
Estas propiedades se deducen de manera casi directa de la definición de la covarianza:
Si X, Y, W, y V son variables aleatorias y a, b, c, d son "constante" significa no aleatorio, se cumple que:
1)
2) , la varianza de
3)
4)
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 44
5)
6)
7)Cov(x,ax)=av(x)
9)cov (az+by) =a cov (x,y)
Otra manera de definir las propiedades
1).- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les
sumamos una constante k’, la covarianza no varía.
2).- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la
variable y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las
constantes.
3).- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las
variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy.
Observaciones:
1) Si las dos variables son independientes cov(x,y)=0 pero si la cov (x,y) =0 no quiere decir x e Y sean
independientes
2)Siendo X, Y variables aleatorias tenemos que :
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
V(X+Y)=V(X)+V(Y)-2Cov(X,Y)
3)Si X e Y son variables aleatorias independientes, entonces E[XY]=E(X)E(Y)entonces la Cov(x,y)=0 lo que significa
que la asociación lineal es inexistente, es decir la recta no existe.
V(X+Y)=V(X)+(Y) y V(X-Y)=V(X)+V(Y)
4)Si cov(x,y)>0,entonces valores altos de X están asociados con valores altos de Y y valores bajos de x están
asociados con valores bajos de Y lo que concluye en una asociación lineal positiva es decir la recta existe y es
creciente
5)Si cov(x,y)<0 entonces valores altos de x están asociados con valores bajos de y y valores bajos de x están
asociadoscon valores altos de y lo que concluye en una asociación lineal negativa
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 55
Ejemplo: Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:
Accidentes xi 5 7 2 1 9
Vehículos yi 15 18 10 8 20
fi xi yi xi
2 yi2 xi · yi
1 5 15 25 225 75
1 7 18 49 324 126
1 2 10 4 100 20
1 1 8 1 64 8
1 9 20 81 400 180
∑ 5 24 71 160 1113 409
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 66
Comentario : Añadido a lo anterior mencionado cabe destacar que la covarianza no es útil para evaluar la fuerza
de la relación entre las variables aleatoria X e Y debido a que su valor depende de las unidades en las que estén
medidas X e Y. Afortunadamente es simple corregir la covarianza, dividiéndola por el producto de las desviaciones
estándar de X e Y. El resultado de ello se denomina coeficiente de Correlación lineal de Pearson.
Coeficiente de Correlación
Es una prueba estadística para analizar la relación entre dos o más variables cuantitativas medidas en un
nivel por intervalos o razón, es decir un índice que mide el grado de covariación entre distintas variables
relacionadas linealmente.
Coeficiente de correlación Poblacional
Para Población(n)
Sean X e Y dos variables numéricas: La variable X se llama variable independiente( explicativa, predictor),
la variable Y dependiente(respuesta) es decir Y depende linealmente de X
Ahora bien, sean las variables mencionadas anteriormente de forma aleatorias cuyas medias son E(x) E(X ) y E(Y )
y cuyas varianzas son V(X) y V(Y) respectivamente. Se define el coeficiente de correlación es :
2 2
( , ) [[ ( )][ ( )]]
( ) ( ) [( ( )) ] [( ( )) ]( , )
Cov X Y E X E X Y E Y
V x V Y E X E X E Y E YX Y
Observaciones:
1)−1≤⍴(x, y) ≤1
2)Si ⍴(x, y)=1 entonces X e Y tienen correlación positiva perfecta.
3)Si ⍴(x, y)=-1 entonces Xe Y tienen correlación negativa perfecta.
4)Si ⍴(x, y)=0 entonces X e Y son independientes, no existe asociación lineal entre X e Y
Para Muestra(n)
Pero este coeficiente de correlación ⍴(X,Y) es un parámetro poblacional desconocido por lo tanto debemos
estimarlo a partir de datos muestrales (X1,Y1),(X2,Y2),……,(Xn,Yn),obteniéndose entonces el coeficiente de
correlacion muestral r(X,Y) o bien llamado Coeficiente de Correlación de Pearson
2 22 2
( , )ii i i
i i i i
n x y x y
n x x n y y
r X Y
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 77
Es útil como medida descriptiva de la intensidad de la relación (lineal) en una muestra de n pares de
valores (Xi,Yi),con i=1,2,…,n
Este coeficiente se simboliza con la letra minúscula r, se calcula dividiendo la suma de los productos de las
desviaciones de cada variante de X e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por
el producto de las desviaciones estándar de ambas variables
Observacion:
Tendencia del agrupamiento con respecto a la línea de regresión.
R = 0
Correlación nula 0 < r << 1, Correlación baja positiva 1 – r << 1 Correlación alta positiva
0 < r << 1, < 0 Correlación baja negativa 1 + r << 1 Correlación alta negativa
1)−1≤r(x, y) ≤1
2)Si r(x, y)=1 entonces X e Y tienen correlación positiva perfecta.
3)Si r(x, y)=-1 entonces Xe Y tienen correlación negativa perfecta.
S4)i r(x, y)=0 entonces X e Y son independientes
X Y ó X Y
-1 0 1
X Y ó X Y
-0.7 -0.7
La correlación es
perfecta negativa
Variables independientes
No existe correlación
La correlación es
perfecta positiva
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 88
Ejemplo: Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:
Accidentes xi 5 7 2 1 9
Vehículos yi 15 18 10 8 20
fi xi yi xi2 yi
2 xi · yi
1 5 15 25 225 75
1 7 18 49 324 126
1 2 10 4 100 20
1 1 8 1 64 8
1 9 20 81 400 180
∑ 5 24 71 160 1113 409
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 99
Inferencias sobre el coeficiente de Correlación:
1)Contraste de Hipótesis (Test de independencia)
1) H0:rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuya correlación es cero ( ρ = 0 ).
2) H1 : rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuyo coeficiente de correlación
es distinto de cero ( 0 ρ ≠ ).
En consecuencia, dado un cierto coeficiente de correlación rxy obtenido en una determinada muestra se trata de
comprobar si este es posible que se encuentre dentro de la distribución muestral especificada por la Hipótesis
nula. Para resolver esta prueba de hipótesis esta dado un pivot que es un estadístico inferencial , ley de Student
con N-2 grados de libertad.
0 ( 2)2
( , )
1 ( , )
2
n
r X YT t
r X Y
n
Hay que tener en cuenta que X e Y tengan una distribución conjunta Normal.
Dado que esta prueba de independencia entre variables X e Y es bilateral se rechaza la hipótesis nula y se confirma
que X e Y están relacionadas si, y se compara el valor obtenido con el existente en las tablas para un cierto nivel
de significación α y N-2 grados de libertad - ( , 2)nt - que como se sabe, marca el límite (baja probabilidad de
ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente rxy a la distribución muestra de
correlaciones procedentes de una población con ρ =0 . De esta forma si:
0, 2
2n
T t
ó 0 1
, 22
nT t
1) t > t(α ,N−2 ) ⇒Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo
valor ρ xy =0 . Por tanto las variables están relacionadas.
2) t ≤ t(α ,N− 2) ⇒ Se acepta la Hipótesis nula. La correlación obtenida procede de una población cuyo valor ρ
xy =0 . Por tanto ambas variables no están relacionadas.
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1100
Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los estudiantes que se salen antes de completar el curso es (Y).
X 20 18 16 15 14 12 12 10 8 5 Y 12 16 10 14 12 10 9 8 7 2
Solución: Se recomienda para hacer el cálculo directo del coeficiente r de Pearson, realizar una
tabla como la siguiente:
X Y X
2 Y
2 XY
20 12 400 144 240
18 16 324 256 288
16 10 256 100 160
15 14 225 196 210
14 12 196 144 168
12 10 144 100 120
12 9 144 81 108
10 8 100 64 80
8 7 64 49 56
5 2 25 4 10
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1111
02 2
( , ) 0.83274.21
1 ( , ) 1 0.8327
2 10 2
r X YT
r X Y
n
De la tabla t-student calculamos t con 8 grados de libertad y 5% de significación.
T0,05;8=2,306
Comparamos el valor t obtenido con el de las tablas:
4.21 > 2.306
Rechazamos la Hipótesis nula con un riesgo (máximo) de equivocarnos de 0.05. La correlación obtenida no
procede de una población caracterizada por una correlación de cero. Concluimos, pues, que ambas variables
están relacionadas.
2)Contraste de Hipótesis:
⍴ > ⍴0
0 0: 0H v/s H1: ⍴ ˂ ⍴0
⍴ ≠ ⍴0
Usamos el hecho de que el estadístico
1 1 ( , )ln
2 1 ( , )
r x yW
r x y
se distribuye
Aproximadamente normal con una media y desviación estándar dadas por:
0
0
11ln
2 1w
;
1
3w
n
El estadístico del contraste de hipótesis es:
0 (0;1)w
w
wZ N
Del ejemplo anterior nos podría interesar contrastar
0: 0.8H v/s 1 : 0.8H
al 5% de significación tendríamos una prueba unilateral:
0
1 1 0.869180ln 1.3297
2 1 0.869180
1 1 0.8ln 1.0986
2 1 0.8
1 10.378
3 10 3
1.3297 1.09860.611
0.378
w
w
W
n
Z
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1122
0.95 1.65Z No se rechaza Ho
Podemos concluir que no hay evidencia significativa al 5% para concluir que la correlacion sea mayor que 0,8
Coeficiente de determinación. Coeficiente de correlación.
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue
o bien
Como scE < scG, se verifica que 0 <R2 < 1.
El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente (Y) respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.
Por otra parte, teniendo en cuenta que i - = 1 , se obtiene
Del ejemplo anterior como ya teníamos rxy calculamos R2=0,8692 R2=07561
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1133
Regresión Lineal Simple
Tiene como objetivo el estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en
el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal,
es decir, su representación gráfica es una línea recta.
Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, según lo establecido, se tendrá:
, donde α y β son los coeficientes de regresión
De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces
, donde , Ei es el error o desviación aleatoria de Yi
Estimación de los parámetros de la recta de regresión.
El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión, partiendo de una muestra de tamaño n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intención de extraer para cada xi un individuo de la población o variable Yi .
Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parámetros de la recta de regresión obtenidas con este procedimiento son:
Donde representan las medias muestrales
Por tanto la recta de regresión estimada será:
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1144
Ejemplo :
Venta de automóviles Se piensa que si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta. Estudio sobre 15 concesionarios similares X : Comisiones pagadas a vendedores de autos en un mes (%) Y : Ganancias netas por ventas, en el mismo mes (Millones de $) Tabla 1.- Datos x e y del problema
Obs x y 1 3.6 11.28
2 5.2 14.74
3 5.3 18.46
4 7.3 20.01
5 5.0 12.43 6 5.2 15.37
7 3.0 9.59
8 3.1 11.26
9 3.2 8.05
10 7.5 27.91 11 8.3 24.62
12 6.1 18.80
13 4.9 13.87
14 5.8 12.11
15 7.1 23.68 Representación de los datos en un gráfico de dispersión:
Figura 3.- Gráfico de dispersión X-Y
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1155
Se puede apreciar la relación lineal existente entre ambas variables observadas. Nuestro problema es estimar los parámetros a, b y σ2 para poder identificar el modelo. Para estimar a y b se utiliza el método de Mínimos cuadrados, que consiste en encontrar aquellos valores de a y de b que hagan mínima la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta que representa el modelo, en el sentido vertical.
Figura 4.- Utilizando métodos de mínimos cuadrados En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para determinar a y b. Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical. La solución está dada por las siguientes fórmulas:
Se calculan los promedios de ambas variables y se le restan a los valores.
Promedio de la X : 5.4
Promedio de la Y : 16.1
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1166
Tabla1.- Valores para resolver β
Obs X-5.4 Y-16-1 Cuadrados Prod.
1 -1.8 -4.9 3.1 23.7 8.6
2 -0.2 -1.4 0.0 2.0 0.2
3 -0.1 2.3 0.0 5.3 -0.2 4 1.9 3.9 3.7 14.9 7.4
5 -0.4 -3.7 0.1 13.8 1.4
6 -0.2 -0.8 0.0 0.6 0.1
7 -2.4 -6.6 5.6 42.9 15.6
8 -2.3 -4.9 5.2 23.8 11.1
9 -2.2 -8.1 4.7 65.6 17.6
10 2.1 11.8 4.5 138.5 25.0
11 2.9 8.5 8.6 71.8 24.8
12 0.7 2.7 0.5 7.0 1.9
13 -0.5 -2.3 0.2 5.2 1.1 14 0.4 -4.0 0.2 16.3 -1.7
15 1.7 7.5 3.0 56.8 13.0
Sxx Syy Sxy
Entonces utilizando las fórmulas descritas anteriormente los valores de los coeficientes son
a = - 0.96, y b = 3.18
El modelo, para estos datos, es
, para valores de i= 1,2,3……..15,
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisión X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos.
Por lo tanto un nuevo gráfico con la nueva información queda:
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1177
Figura 5.- Nuevo gráfico con la nueva información
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1188
Regresión lineal múltiple
La mayoría de los estudios conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.
La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes,
que mejor prediga el valor de la variable dependiente.
Nuestro interés, estará centrado en el valor esperado (variable dependiente), en este caso el valor estará
condicionado al valor que toman n variables independientes. Bajo el supuesto de la linealidad anterior tendremos
entonces:
E(Y/X1=x1, X2=x2,…, Xk=xk) = β0 +β1x1+ β2x2+…..+ βnxn
Para este caso particular tenemos (n+1) parámetros β0, β 1 , β2,..….., βk cuyo significado es similar al caso lineal
simple como lo veremos a continuación:
Supongamos que todas las variables explicativas XJ toman el valor 0.
E (Y/X1=0, X2=0, Xn=0) = β0 + β1*0+ β2*0+ β3* 0 = β0
Por lo tanto β0 es el valor esperado de la variable independiente Y cuando todas las variables Xj toman valor cero.
Si una de las variables independientes incrementa su valor en una unidad pasando del valor xj al valor (xj+1) y
mantenemos el resto de las variables independiente constantes, BJ es el cambio esperado de la variable respuesta Y
cuando la variable xj se incrementa en una unidad, mientras que las restantes variables independientes
permanecen constantes.
Existe un error εi y corresponde a la diferencia entre el valor observado Yi y su valor esperado
E(Y/X1=x1, X2=x2,…, Xk=xk) por lo que debemos modificar el modelo de regresión lineal multiple
Yi= β0 + β1x i1+ β2xi2+……+ βnxik+εiε
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1199
El modelo de regresión lineal múltiple posee supuestos análogos al modelo de regresión simple
1)El término de error tiene una distribución de probabilidad con media cero. E(εi)=0
2)La varianza es constante y conocida
VAR (ei)=σ2
3)La covarianza entre lo términos del error es 0
cov (εi,εj)=0
4)Los errores tienen una distribución normal
εi ~N (0, σ2)
Formulación matricial del modelo lineal con K variables
, i = 1,…….,N
Es equivalente al siguiente sistema de N ecuaciones
.
.
.
.
Definiendo los siguientes vectores y matrices
Y= , β= , u= , X=
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2200
Este sistema se puede representar en forma matricial de la siguiente forma:
ESTIMACION DE LA VARIANZA DEL TERMINO DE ERROR σ² ε:
Se debe estimar la varianza del error σ² ε. Lógicamente , en este caso un estimador de la varianza del error esta
dado por:
=
SIGNIFICANCIA DE LA REGRESION
Se usa la tabla ANOVA para medir la significancia o capacidad explicativa del modelo de regresión, basado en la
identidad:
²= ² + ²
Equivalente a: SCT=SCR=SCE
La tabla ANOVA para la regresión múltiple es la siguiente:
FUENTE Gdel SdeC VARIANZAS Fo
Regresión k SCreg= ´X´y - n ² s²REG= SCREG/k F0=s²REG/S²e
Error n-k-1 SCerror=yý - X ´y s²e= SCERR/ (n-k-1)
Total n-1 SCT= y´y - n ²
Podemos entonces evaluar la capacidad explicativa del modelo de regresión lineal multiple a un nivel de
significancia dado α.
Elementos de minimos cuadrados usando notación matricial
El modelo en notación matricial es
Se definen los siguientes vectores
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2211
Utilizando esta notación , la SRC puede escribirse:
El problema en notación matricial es
Obtención del vector de estimadores MC:
)’( )=
En donde el ultimo paso requiere notar que los términos de 2° y 3° orden son escalares e iguales. Derivando
repecto del vector se obtiene
si existe
¿Qué garantiza la existencia de la inversa de la matriz?
Supongamos que las columnas de la matriz X son todas linealmente e independientes (no
multicolinealidad perfecta)
Según un resultado de álgebra matricial )
Este resultado más el supuesto de no multicolinealidad implican que existe la inversa de X´X:
Entonces, cuando queda garantizada la existencia del vector de estimadores minimos cuadrados
que viene dado por:
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2222
Ejercicio Resuelto Regresion Multiple
Como parte de un estudio para investigar la relación entre la tensión nerviosa (estrés) y otras variables (tamaño
de la empresa, número de años en la posición actual, salario anual en miles de dólares, edad en años), se
reunieron los siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de una empresa.
La salida de análisis con SPPS es:
Tabla.- Estadisticos descriptivos
N Minimo Maximo Media Desviacion
Estrés 15 10 184 67.2 51.164
Tamaño
Empresa
15 127 812 415.73 187.513
Años en
posición
15 2 16 8.27 4.148
Salario
Anual
15 20 84 38.60 16.745
Edad 15 27 63 44.53 10.947
N Valido 15
Tabla.- Resuemn del modelo
Modelo R R cuadrado R cuadrado
Corregida
Error tip de la
estimación
1 0.918a 0.842 0.779 24.031
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2233
Tabla.- ANOVA
Modelo Sumad de
cuadrados
Gl Media
cuadrática
F S
1 Regresion Residual
Total
30873.468
5774.932
36648.400
4
10
14
7718.367
577.493
13.365 0.001a
a: Variables predictoras (Constante), Edad, Tamaño de Empresa, Salaria Anual, Años en posición.
b: variable dependiente: Estrés
Tabla.- Coeficientes
Coeficientes no
estandarizados
Coeficientes
estandarizados
Modelo B Error
Tip.
Beta
T Sigma
1 (constante)
Tamaño Empresa
Años en posición
Salario Anual
Edad
-126.505
0.176
-1.563
1.575
1.629
32.281
0.040
2.012
0.446
0.629
0.646
-0.127
0.515
0.349
-3.919
4.397
-0.777
3.533
2.591
0.003
0.001
0.455
0.005
0.27
a) Escriba la recta de regresión múltiple estimada a partir de estos datos. Interprete los coeficientes de regresión.
b) ¿Cuál es el valor del coeficiente de determinación que usaría para describir la bondad de ajuste del
modelo?
Interprételo en términos del problema de regresión
c) Examine los tests t de los coeficientes de regresión. ¿Le parece que es este un modelo adecuado para describir el
estrés o propone otro?
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2244
d) Qué supuestos se deben cumplir para la utilización de este modelo.
e) Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere esta medida de variabilidad?
Solución 1 (a)
La recta de regresión es:
Estrés= -126.505 + 0.176 Tamaño – 1.563 Años 1.575 Salario + 1.629 Edad
Interpretación de los coeficientes de regresión:
Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la edad fueran cero, es decir, si
todas las variables explicativas fueran cero, el puntaje de estrés del ejecutivo sería menos 126,505
Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del ejecutivo aumenta en
0,176 unidades.
Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563 puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos.
Solución 1 (b)
El coeficiente de determinación que se usa en regresión lineal múltiple es el R2 ajustado, que en este caso es de
0,779.
Este coeficiente nos indica que las variables usadas en el modelo explican en un 77,9% la variabilidad total del
estrés.
Solución 1 (c)
Los test t de los coeficientes de regresión sirven para docimar la hipótesis:
H0: β j=0
H1: βj ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).
Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi todas las pendientes
son significativas (distintas de cero), salvo la de la variable Años en posición actual, cuyo valor p es 0,455, por lo
tanto aceptamos la hipótesis nula, y concluimos que la pendiente es igual a cero.
IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo
UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa
A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2255
Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos, deberíamos ajustar otro
modelo sin la variable "Años en posición actual".
Solución 1 (d)
Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser lineal
2) No colinealidad: las variables explicativas no deben estar correlacionadas entre sí
3) Normalidad de los residuos
4) Varianza constante
Solución 1 (e)
El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática residual: raíz de
577,493= 24,03
Este es un estimador de la variabilidad del estrés considerando las variables explicativas del modelo, y lo podemos
contrastar con el estimador de la variabilidad del estrés de 51,164 que es la desviación estándar del estrés sin
tomar en cuenta estas variables