Análisis Regresion lineal-1

25
UNIVERSIDAD DE LA SERENA ANÁLISIS MULTIVARIADO 2012 A A n n á á l l i i s s i i s s d d e e R R e e g g r r e e s s i i ó ó n n L L i i n n e e a a l l A NÁLISIS DE R EGRESIÓN L INEAL Integrantes: Javiera Cuevas Muñoz Valeria Corés Ramírez Docente: Juan Garrido Zúñiga

Transcript of Análisis Regresion lineal-1

Page 1: Análisis Regresion lineal-1

UNIVERSIDAD DE LA SERENA ANÁLISIS MULTIVARIADO

2012

AAnnáálliissiiss ddee RReeggrreessiióónn

LLiinneeaall

A N Á L I S I S D E R E G R E S I Ó N L I N E A L

IInntteeggrraanntteess:: JJaavviieerraa CCuueevvaass MMuuññoozz

VVaalleerriiaa CCoorrééss RRaammíírreezz

DDoocceennttee:: JJuuaann GGaarrrriiddoo ZZúúññiiggaa

Page 2: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 22

INDICE

1.- Correlación lineal:

la covarianza y sus propiedades

el coeficiente de correlación lineal de pearson (propiedades)

inferencias sobre el coeficiente de correlación poblacional

2.- Regresión lineal simple:

el modelo de regresión simple en la población (parámetros)

los supuestos del modelo de regresión simple

significado del coeficiente de pendiente

estimación de los parámetros por mínimos cuadrados del error

el coeficiente de determinación r2 (significado)

inferencias sobre el coeficiente de pendiente

Test de hipótesis e intervalos de confianza

3.- Regresión lineal múltiple:

el modelo con n variables independientes

supuestos del modelo re regresión múltiple

formulación matricial del modelo múltiple

estimadores de los coeficientes de pendiente

estimación de la varianza del error

inferencias sobre los coeficientes de pendiente

Test de hipótesis e intervalos de confianza

Page 3: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 33

¿Qué es una Correlación? La correlación apunta principalmente a medir la magnitud de la relación lineal de dos variables continuas.

Covarianza y sus propiedades

La Covarianza es un estadístico que mide la relación lineal entre dos variables cuantitativas. En este caso tenemos

como variables X e Y de las cuales según su dimensión depende la covarianza. Tiene diversas manera de

simbolizarse pero generalmente la mas utilizada es Sxy o bien Cov(x,y).Para obtener el grado de relación de las

variables ya nombradas damos lugar con la formula :

Sean X e Y dos variables aleatorias cuyas medias son E(X ) y E(Y ) y cuyas varianzas son V(X) y V(Y)

respectivamente. Se define la covarianza entre las variables aleatorias X e Y por la expresión:

Cov(X ,Y) = E [ ((X − E(X )) ((Y − E(Y))] = E[ X Y ] − E(X ) E (Y)

Donde es el operador esperanza. Para una muestra de n datos bivariantes: (x1, y1), . . . , (xn, yn) la formula

anterior se concreta en:

1 1

1 1( )( ) ( * )

n n

i i

Sxy Xi X Yi Y Xi Yi nXYn n

Donde X e Y son las medias respectivas de las variables.

Ojo: Cuando las variables aleatorias e son n-dimensionales, es decir, e

, su matriz de covarianzas es:

Propiedades de la covarianza:

Estas propiedades se deducen de manera casi directa de la definición de la covarianza:

Si X, Y, W, y V son variables aleatorias y a, b, c, d son "constante" significa no aleatorio, se cumple que:

1)

2) , la varianza de

3)

4)

Page 4: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 44

5)

6)

7)Cov(x,ax)=av(x)

9)cov (az+by) =a cov (x,y)

Otra manera de definir las propiedades

1).- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les

sumamos una constante k’, la covarianza no varía.

2).- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la

variable y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las

constantes.

3).- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las

variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy.

Observaciones:

1) Si las dos variables son independientes cov(x,y)=0 pero si la cov (x,y) =0 no quiere decir x e Y sean

independientes

2)Siendo X, Y variables aleatorias tenemos que :

V(X+Y)=V(X)+V(Y)+2Cov(X,Y)

V(X+Y)=V(X)+V(Y)-2Cov(X,Y)

3)Si X e Y son variables aleatorias independientes, entonces E[XY]=E(X)E(Y)entonces la Cov(x,y)=0 lo que significa

que la asociación lineal es inexistente, es decir la recta no existe.

V(X+Y)=V(X)+(Y) y V(X-Y)=V(X)+V(Y)

4)Si cov(x,y)>0,entonces valores altos de X están asociados con valores altos de Y y valores bajos de x están

asociados con valores bajos de Y lo que concluye en una asociación lineal positiva es decir la recta existe y es

creciente

5)Si cov(x,y)<0 entonces valores altos de x están asociados con valores bajos de y y valores bajos de x están

asociadoscon valores altos de y lo que concluye en una asociación lineal negativa

Page 5: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 55

Ejemplo: Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

Accidentes xi 5 7 2 1 9

Vehículos yi 15 18 10 8 20

fi xi yi xi

2 yi2 xi · yi

1 5 15 25 225 75

1 7 18 49 324 126

1 2 10 4 100 20

1 1 8 1 64 8

1 9 20 81 400 180

∑ 5 24 71 160 1113 409

Page 6: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 66

Comentario : Añadido a lo anterior mencionado cabe destacar que la covarianza no es útil para evaluar la fuerza

de la relación entre las variables aleatoria X e Y debido a que su valor depende de las unidades en las que estén

medidas X e Y. Afortunadamente es simple corregir la covarianza, dividiéndola por el producto de las desviaciones

estándar de X e Y. El resultado de ello se denomina coeficiente de Correlación lineal de Pearson.

Coeficiente de Correlación

Es una prueba estadística para analizar la relación entre dos o más variables cuantitativas medidas en un

nivel por intervalos o razón, es decir un índice que mide el grado de covariación entre distintas variables

relacionadas linealmente.

Coeficiente de correlación Poblacional

Para Población(n)

Sean X e Y dos variables numéricas: La variable X se llama variable independiente( explicativa, predictor),

la variable Y dependiente(respuesta) es decir Y depende linealmente de X

Ahora bien, sean las variables mencionadas anteriormente de forma aleatorias cuyas medias son E(x) E(X ) y E(Y )

y cuyas varianzas son V(X) y V(Y) respectivamente. Se define el coeficiente de correlación es :

2 2

( , ) [[ ( )][ ( )]]

( ) ( ) [( ( )) ] [( ( )) ]( , )

Cov X Y E X E X Y E Y

V x V Y E X E X E Y E YX Y

Observaciones:

1)−1≤⍴(x, y) ≤1

2)Si ⍴(x, y)=1 entonces X e Y tienen correlación positiva perfecta.

3)Si ⍴(x, y)=-1 entonces Xe Y tienen correlación negativa perfecta.

4)Si ⍴(x, y)=0 entonces X e Y son independientes, no existe asociación lineal entre X e Y

Para Muestra(n)

Pero este coeficiente de correlación ⍴(X,Y) es un parámetro poblacional desconocido por lo tanto debemos

estimarlo a partir de datos muestrales (X1,Y1),(X2,Y2),……,(Xn,Yn),obteniéndose entonces el coeficiente de

correlacion muestral r(X,Y) o bien llamado Coeficiente de Correlación de Pearson

2 22 2

( , )ii i i

i i i i

n x y x y

n x x n y y

r X Y

Page 7: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 77

Es útil como medida descriptiva de la intensidad de la relación (lineal) en una muestra de n pares de

valores (Xi,Yi),con i=1,2,…,n

Este coeficiente se simboliza con la letra minúscula r, se calcula dividiendo la suma de los productos de las

desviaciones de cada variante de X e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por

el producto de las desviaciones estándar de ambas variables

Observacion:

Tendencia del agrupamiento con respecto a la línea de regresión.

R = 0

Correlación nula 0 < r << 1, Correlación baja positiva 1 – r << 1 Correlación alta positiva

0 < r << 1, < 0 Correlación baja negativa 1 + r << 1 Correlación alta negativa

1)−1≤r(x, y) ≤1

2)Si r(x, y)=1 entonces X e Y tienen correlación positiva perfecta.

3)Si r(x, y)=-1 entonces Xe Y tienen correlación negativa perfecta.

S4)i r(x, y)=0 entonces X e Y son independientes

X Y ó X Y

-1 0 1

X Y ó X Y

-0.7 -0.7

La correlación es

perfecta negativa

Variables independientes

No existe correlación

La correlación es

perfecta positiva

Page 8: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 88

Ejemplo: Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

Accidentes xi 5 7 2 1 9

Vehículos yi 15 18 10 8 20

fi xi yi xi2 yi

2 xi · yi

1 5 15 25 225 75

1 7 18 49 324 126

1 2 10 4 100 20

1 1 8 1 64 8

1 9 20 81 400 180

∑ 5 24 71 160 1113 409

Page 9: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 99

Inferencias sobre el coeficiente de Correlación:

1)Contraste de Hipótesis (Test de independencia)

1) H0:rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuya correlación es cero ( ρ = 0 ).

2) H1 : rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuyo coeficiente de correlación

es distinto de cero ( 0 ρ ≠ ).

En consecuencia, dado un cierto coeficiente de correlación rxy obtenido en una determinada muestra se trata de

comprobar si este es posible que se encuentre dentro de la distribución muestral especificada por la Hipótesis

nula. Para resolver esta prueba de hipótesis esta dado un pivot que es un estadístico inferencial , ley de Student

con N-2 grados de libertad.

0 ( 2)2

( , )

1 ( , )

2

n

r X YT t

r X Y

n

Hay que tener en cuenta que X e Y tengan una distribución conjunta Normal.

Dado que esta prueba de independencia entre variables X e Y es bilateral se rechaza la hipótesis nula y se confirma

que X e Y están relacionadas si, y se compara el valor obtenido con el existente en las tablas para un cierto nivel

de significación α y N-2 grados de libertad - ( , 2)nt - que como se sabe, marca el límite (baja probabilidad de

ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente rxy a la distribución muestra de

correlaciones procedentes de una población con ρ =0 . De esta forma si:

0, 2

2n

T t

ó 0 1

, 22

nT t

1) t > t(α ,N−2 ) ⇒Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo

valor ρ xy =0 . Por tanto las variables están relacionadas.

2) t ≤ t(α ,N− 2) ⇒ Se acepta la Hipótesis nula. La correlación obtenida procede de una población cuyo valor ρ

xy =0 . Por tanto ambas variables no están relacionadas.

Page 10: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1100

Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los estudiantes que se salen antes de completar el curso es (Y).

X 20 18 16 15 14 12 12 10 8 5 Y 12 16 10 14 12 10 9 8 7 2

Solución: Se recomienda para hacer el cálculo directo del coeficiente r de Pearson, realizar una

tabla como la siguiente:

X Y X

2 Y

2 XY

20 12 400 144 240

18 16 324 256 288

16 10 256 100 160

15 14 225 196 210

14 12 196 144 168

12 10 144 100 120

12 9 144 81 108

10 8 100 64 80

8 7 64 49 56

5 2 25 4 10

Page 11: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1111

02 2

( , ) 0.83274.21

1 ( , ) 1 0.8327

2 10 2

r X YT

r X Y

n

De la tabla t-student calculamos t con 8 grados de libertad y 5% de significación.

T0,05;8=2,306

Comparamos el valor t obtenido con el de las tablas:

4.21 > 2.306

Rechazamos la Hipótesis nula con un riesgo (máximo) de equivocarnos de 0.05. La correlación obtenida no

procede de una población caracterizada por una correlación de cero. Concluimos, pues, que ambas variables

están relacionadas.

2)Contraste de Hipótesis:

⍴ > ⍴0

0 0: 0H v/s H1: ⍴ ˂ ⍴0

⍴ ≠ ⍴0

Usamos el hecho de que el estadístico

1 1 ( , )ln

2 1 ( , )

r x yW

r x y

se distribuye

Aproximadamente normal con una media y desviación estándar dadas por:

0

0

11ln

2 1w

;

1

3w

n

El estadístico del contraste de hipótesis es:

0 (0;1)w

w

wZ N

Del ejemplo anterior nos podría interesar contrastar

0: 0.8H v/s 1 : 0.8H

al 5% de significación tendríamos una prueba unilateral:

0

1 1 0.869180ln 1.3297

2 1 0.869180

1 1 0.8ln 1.0986

2 1 0.8

1 10.378

3 10 3

1.3297 1.09860.611

0.378

w

w

W

n

Z

Page 12: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1122

0.95 1.65Z No se rechaza Ho

Podemos concluir que no hay evidencia significativa al 5% para concluir que la correlacion sea mayor que 0,8

Coeficiente de determinación. Coeficiente de correlación.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue

o bien

Como scE < scG, se verifica que 0 <R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente (Y) respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en cuenta que i - = 1 , se obtiene

Del ejemplo anterior como ya teníamos rxy calculamos R2=0,8692 R2=07561

Page 13: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1133

Regresión Lineal Simple

Tiene como objetivo el estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en

el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal,

es decir, su representación gráfica es una línea recta.

Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, según lo establecido, se tendrá:

, donde α y β son los coeficientes de regresión

De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces

, donde , Ei es el error o desviación aleatoria de Yi

Estimación de los parámetros de la recta de regresión.

El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión, partiendo de una muestra de tamaño n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intención de extraer para cada xi un individuo de la población o variable Yi .

Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parámetros de la recta de regresión obtenidas con este procedimiento son:

Donde representan las medias muestrales

Por tanto la recta de regresión estimada será:

Page 14: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1144

Ejemplo :

Venta de automóviles Se piensa que si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta. Estudio sobre 15 concesionarios similares X : Comisiones pagadas a vendedores de autos en un mes (%) Y : Ganancias netas por ventas, en el mismo mes (Millones de $) Tabla 1.- Datos x e y del problema

Obs x y 1 3.6 11.28

2 5.2 14.74

3 5.3 18.46

4 7.3 20.01

5 5.0 12.43 6 5.2 15.37

7 3.0 9.59

8 3.1 11.26

9 3.2 8.05

10 7.5 27.91 11 8.3 24.62

12 6.1 18.80

13 4.9 13.87

14 5.8 12.11

15 7.1 23.68 Representación de los datos en un gráfico de dispersión:

Figura 3.- Gráfico de dispersión X-Y

Page 15: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1155

Se puede apreciar la relación lineal existente entre ambas variables observadas. Nuestro problema es estimar los parámetros a, b y σ2 para poder identificar el modelo. Para estimar a y b se utiliza el método de Mínimos cuadrados, que consiste en encontrar aquellos valores de a y de b que hagan mínima la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta que representa el modelo, en el sentido vertical.

Figura 4.- Utilizando métodos de mínimos cuadrados En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para determinar a y b. Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical. La solución está dada por las siguientes fórmulas:

Se calculan los promedios de ambas variables y se le restan a los valores.

Promedio de la X : 5.4

Promedio de la Y : 16.1

Page 16: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1166

Tabla1.- Valores para resolver β

Obs X-5.4 Y-16-1 Cuadrados Prod.

1 -1.8 -4.9 3.1 23.7 8.6

2 -0.2 -1.4 0.0 2.0 0.2

3 -0.1 2.3 0.0 5.3 -0.2 4 1.9 3.9 3.7 14.9 7.4

5 -0.4 -3.7 0.1 13.8 1.4

6 -0.2 -0.8 0.0 0.6 0.1

7 -2.4 -6.6 5.6 42.9 15.6

8 -2.3 -4.9 5.2 23.8 11.1

9 -2.2 -8.1 4.7 65.6 17.6

10 2.1 11.8 4.5 138.5 25.0

11 2.9 8.5 8.6 71.8 24.8

12 0.7 2.7 0.5 7.0 1.9

13 -0.5 -2.3 0.2 5.2 1.1 14 0.4 -4.0 0.2 16.3 -1.7

15 1.7 7.5 3.0 56.8 13.0

Sxx Syy Sxy

Entonces utilizando las fórmulas descritas anteriormente los valores de los coeficientes son

a = - 0.96, y b = 3.18

El modelo, para estos datos, es

, para valores de i= 1,2,3……..15,

Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisión X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos.

Por lo tanto un nuevo gráfico con la nueva información queda:

Page 17: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1177

Figura 5.- Nuevo gráfico con la nueva información

Page 18: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1188

Regresión lineal múltiple

La mayoría de los estudios conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.

La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes,

que mejor prediga el valor de la variable dependiente.

Nuestro interés, estará centrado en el valor esperado (variable dependiente), en este caso el valor estará

condicionado al valor que toman n variables independientes. Bajo el supuesto de la linealidad anterior tendremos

entonces:

E(Y/X1=x1, X2=x2,…, Xk=xk) = β0 +β1x1+ β2x2+…..+ βnxn

Para este caso particular tenemos (n+1) parámetros β0, β 1 , β2,..….., βk cuyo significado es similar al caso lineal

simple como lo veremos a continuación:

Supongamos que todas las variables explicativas XJ toman el valor 0.

E (Y/X1=0, X2=0, Xn=0) = β0 + β1*0+ β2*0+ β3* 0 = β0

Por lo tanto β0 es el valor esperado de la variable independiente Y cuando todas las variables Xj toman valor cero.

Si una de las variables independientes incrementa su valor en una unidad pasando del valor xj al valor (xj+1) y

mantenemos el resto de las variables independiente constantes, BJ es el cambio esperado de la variable respuesta Y

cuando la variable xj se incrementa en una unidad, mientras que las restantes variables independientes

permanecen constantes.

Existe un error εi y corresponde a la diferencia entre el valor observado Yi y su valor esperado

E(Y/X1=x1, X2=x2,…, Xk=xk) por lo que debemos modificar el modelo de regresión lineal multiple

Yi= β0 + β1x i1+ β2xi2+……+ βnxik+εiε

Page 19: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 1199

El modelo de regresión lineal múltiple posee supuestos análogos al modelo de regresión simple

1)El término de error tiene una distribución de probabilidad con media cero. E(εi)=0

2)La varianza es constante y conocida

VAR (ei)=σ2

3)La covarianza entre lo términos del error es 0

cov (εi,εj)=0

4)Los errores tienen una distribución normal

εi ~N (0, σ2)

Formulación matricial del modelo lineal con K variables

, i = 1,…….,N

Es equivalente al siguiente sistema de N ecuaciones

.

.

.

.

Definiendo los siguientes vectores y matrices

Y= , β= , u= , X=

Page 20: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2200

Este sistema se puede representar en forma matricial de la siguiente forma:

ESTIMACION DE LA VARIANZA DEL TERMINO DE ERROR σ² ε:

Se debe estimar la varianza del error σ² ε. Lógicamente , en este caso un estimador de la varianza del error esta

dado por:

=

SIGNIFICANCIA DE LA REGRESION

Se usa la tabla ANOVA para medir la significancia o capacidad explicativa del modelo de regresión, basado en la

identidad:

²= ² + ²

Equivalente a: SCT=SCR=SCE

La tabla ANOVA para la regresión múltiple es la siguiente:

FUENTE Gdel SdeC VARIANZAS Fo

Regresión k SCreg= ´X´y - n ² s²REG= SCREG/k F0=s²REG/S²e

Error n-k-1 SCerror=yý - X ´y s²e= SCERR/ (n-k-1)

Total n-1 SCT= y´y - n ²

Podemos entonces evaluar la capacidad explicativa del modelo de regresión lineal multiple a un nivel de

significancia dado α.

Elementos de minimos cuadrados usando notación matricial

El modelo en notación matricial es

Se definen los siguientes vectores

Page 21: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2211

Utilizando esta notación , la SRC puede escribirse:

El problema en notación matricial es

Obtención del vector de estimadores MC:

)’( )=

En donde el ultimo paso requiere notar que los términos de 2° y 3° orden son escalares e iguales. Derivando

repecto del vector se obtiene

si existe

¿Qué garantiza la existencia de la inversa de la matriz?

Supongamos que las columnas de la matriz X son todas linealmente e independientes (no

multicolinealidad perfecta)

Según un resultado de álgebra matricial )

Este resultado más el supuesto de no multicolinealidad implican que existe la inversa de X´X:

Entonces, cuando queda garantizada la existencia del vector de estimadores minimos cuadrados

que viene dado por:

Page 22: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2222

Ejercicio Resuelto Regresion Multiple

Como parte de un estudio para investigar la relación entre la tensión nerviosa (estrés) y otras variables (tamaño

de la empresa, número de años en la posición actual, salario anual en miles de dólares, edad en años), se

reunieron los siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de una empresa.

La salida de análisis con SPPS es:

Tabla.- Estadisticos descriptivos

N Minimo Maximo Media Desviacion

Estrés 15 10 184 67.2 51.164

Tamaño

Empresa

15 127 812 415.73 187.513

Años en

posición

15 2 16 8.27 4.148

Salario

Anual

15 20 84 38.60 16.745

Edad 15 27 63 44.53 10.947

N Valido 15

Tabla.- Resuemn del modelo

Modelo R R cuadrado R cuadrado

Corregida

Error tip de la

estimación

1 0.918a 0.842 0.779 24.031

Page 23: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2233

Tabla.- ANOVA

Modelo Sumad de

cuadrados

Gl Media

cuadrática

F S

1 Regresion Residual

Total

30873.468

5774.932

36648.400

4

10

14

7718.367

577.493

13.365 0.001a

a: Variables predictoras (Constante), Edad, Tamaño de Empresa, Salaria Anual, Años en posición.

b: variable dependiente: Estrés

Tabla.- Coeficientes

Coeficientes no

estandarizados

Coeficientes

estandarizados

Modelo B Error

Tip.

Beta

T Sigma

1 (constante)

Tamaño Empresa

Años en posición

Salario Anual

Edad

-126.505

0.176

-1.563

1.575

1.629

32.281

0.040

2.012

0.446

0.629

0.646

-0.127

0.515

0.349

-3.919

4.397

-0.777

3.533

2.591

0.003

0.001

0.455

0.005

0.27

a) Escriba la recta de regresión múltiple estimada a partir de estos datos. Interprete los coeficientes de regresión.

b) ¿Cuál es el valor del coeficiente de determinación que usaría para describir la bondad de ajuste del

modelo?

Interprételo en términos del problema de regresión

c) Examine los tests t de los coeficientes de regresión. ¿Le parece que es este un modelo adecuado para describir el

estrés o propone otro?

Page 24: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2244

d) Qué supuestos se deben cumplir para la utilización de este modelo.

e) Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere esta medida de variabilidad?

Solución 1 (a)

La recta de regresión es:

Estrés= -126.505 + 0.176 Tamaño – 1.563 Años 1.575 Salario + 1.629 Edad

Interpretación de los coeficientes de regresión:

Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la edad fueran cero, es decir, si

todas las variables explicativas fueran cero, el puntaje de estrés del ejecutivo sería menos 126,505

Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del ejecutivo aumenta en

0,176 unidades.

Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563 puntos.

Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo aumenta en 1,575 puntos.

Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos.

Solución 1 (b)

El coeficiente de determinación que se usa en regresión lineal múltiple es el R2 ajustado, que en este caso es de

0,779.

Este coeficiente nos indica que las variables usadas en el modelo explican en un 77,9% la variabilidad total del

estrés.

Solución 1 (c)

Los test t de los coeficientes de regresión sirven para docimar la hipótesis:

H0: β j=0

H1: βj ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).

Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi todas las pendientes

son significativas (distintas de cero), salvo la de la variable Años en posición actual, cuyo valor p es 0,455, por lo

tanto aceptamos la hipótesis nula, y concluimos que la pendiente es igual a cero.

Page 25: Análisis Regresion lineal-1

IInnggeenniieerrííaa CCiivviill IInndduussttrriiaall,, AAnnáálliissiiss MMuullttiivvaarriiaaddoo

UUnniivveerrssiiddaadd ddee LLaa SSeerreennaa

A n á l i s i s d e R e g r e s i ó n L i n e a l PPáággiinnaa 2255

Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos, deberíamos ajustar otro

modelo sin la variable "Años en posición actual".

Solución 1 (d)

Los supuestos que debe cumplir el modelo son:

1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser lineal

2) No colinealidad: las variables explicativas no deben estar correlacionadas entre sí

3) Normalidad de los residuos

4) Varianza constante

Solución 1 (e)

El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática residual: raíz de

577,493= 24,03

Este es un estimador de la variabilidad del estrés considerando las variables explicativas del modelo, y lo podemos

contrastar con el estimador de la variabilidad del estrés de 51,164 que es la desviación estándar del estrés sin

tomar en cuenta estas variables