Regresion lineal simple

56
Tema 1- Regresión lineal simple. 1.1. Introducción 1.2. Especificación del modelo de regresión lineal simple en la población. 1.2.1. Estructura de los modelos de regresión 1.2.2. Hipótesis básicas 1.3. Estimación de los parámetros del modelo de regresión lineal simple 1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresión en puntuaciones diferenciales 1.3.3. La recta de regresión en puntuaciones típicas 1.3.4. Relación entre la pendiente de la recta y el coeficiente de correlación 1.3.5. Interpretación de los coeficientes de la recta de regresión 1.4. El contraste de la regresión 1.4.1.Componentes de variabilidad y bondad de ajuste 1.4.2. Validación del modelo 1.4.3. Significación de parámetros 1.5. Diagnosis del modelo: Análisis de residuos 1.6. Predicción

Transcript of Regresion lineal simple

Page 1: Regresion lineal simple

Tema 1- Regresión lineal simple. 1.1. Introducción1.2. Especificación del modelo de regresión lineal simple en la población.

1.2.1. Estructura de los modelos de regresión1.2.2. Hipótesis básicas

1.3. Estimación de los parámetros del modelo de regresión lineal simple1.3.1. La recta de regresión de mínimos cuadrados en

puntuaciones directas y principales propiedades1.3.2. La recta de regresión en puntuaciones diferenciales1.3.3. La recta de regresión en puntuaciones típicas1.3.4. Relación entre la pendiente de la recta y el coeficiente de

correlación1.3.5. Interpretación de los coeficientes de la recta de regresión

1.4. El contraste de la regresión1.4.1.Componentes de variabilidad y bondad de ajuste1.4.2. Validación del modelo1.4.3. Significación de parámetros

1.5. Diagnosis del modelo: Análisis de residuos1.6. Predicción

Page 2: Regresion lineal simple

Tema 1- Regresión lineal simple. 1.1. Introducción1.1.1. Ejemplos de investigaciones en las que puede ser

adecuado utilizar el modelo de regresión simple.1.1.2. El concepto de relación entre variables: naturaleza y

tipos de relación.1.1.3. Herramientas para evaluar la relación entre dos

variables1.1.3.1. El diagrama de dispersión1.1.3.2. La covarianza1.1.3.3. El coeficiente de correlación de Pearson

Page 3: Regresion lineal simple

1.1. Introducción

1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple.

Se pretende estudiar si la competencia escolar de niños, medida en una escala entre 1 y 4, depende del t iempo en meses que l levan viviendo con un progenitor

Variable dependiente o cri terio (endógena): competencia escolarVariable independiente o predictora (exógena): meses de

monoparental idad

Se pretende estudiar si el ajuste emocional de niños, medido por un test de ajuste que proporciona puntuaciones en una escala entre 0 y 10, depende del ámbito rural o urbano en el que vive la famil ia

Variable dependiente o cri terio : ajuste emocionalVariable independiente o predictora: ámbito geográfico

Page 4: Regresion lineal simple

1.1. Introducción

1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple.

Se pretende estudiar la relación entre estrés laboral y la variable trabajo a turno

Variable dependiente o cri terio : estrés laboralVariable independiente o predictora: t ipo de turno: fi jo o variable

Se pretende estudiar si las notas en Análisis de Datos II dependen de Análisis de Datos I

Variable dependiente o cri terio : Análisis de Datos IIVariable independiente o predictora: Análisis de datos I

Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valoresde las variables incluidas en la relación. Genéricamente, la información de un sujeto cualquiera de la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datosde la investigación y para los ejemplos propuestos tendrá el siguiente formato.

Page 5: Regresion lineal simple

Tabla o matriz de datosAnálisis de datos I Análisis de datos II

1 22 13 34 45 20 37 58 69 8

10 9

Meses comp escolar2 4

18 4108 3.6624 2.83

132 260 3.516 2.169 2.66

84 2.5

comp escolar ámbito4 14 1

3.66 12.83 1

2 13.5 0

2.16 02.66 02.5 0

1.83 0

Turno estrés0 650 760 500 890 571 451 341 561 551 61

N=10

N=9

N=10 N=10

Observar que las variable ámbito y turno aunque no son métricas las hemos codificado como numéricas. Hemos elegido el 0 y el 1 para diferenciar entre las categorías de las variables. Este tipo de codificación, muy frecuente en estadística, se conoce como codificación “dummy” o ficticia

Page 6: Regresion lineal simple

1.1.2. El concepto de relación entre variables. Naturaleza y tipos de relación: el gráfico de dispersión

0

5

10

15

20

25

0 2 4 6 8 10 12 -20

-15

-10

-5

0

5

0 2 4 6 8 10 12

0

1

2

3

4

0 2 4 6 8 10 12

Page 7: Regresion lineal simple

1.1.2. El concepto de relación entre variables: naturaleza y tipos de relación.

0

20

40

60

80

100

0 1 -15

-10

-5

0

5

10

0

5

10

15

20

25

30

05

101520

2530

3540

0 5 10 15 20

0

50

100

150

200

250

300

0 5 10 15 20

Page 8: Regresion lineal simple

1.1.2. El concepto de relación entre variables: naturaleza y tipos de relación.

19

21

23

25

27

29

31

0 2 4 6 8 10 12

0

5

10

15

20

25

30

35

0 2 4 6 8 10 12

Page 9: Regresion lineal simple

1.1.3.2. La covarianza

( )( )S

X X Y Y

NS P CNx y

ii

N

i

=− −

−=

−=

∑1

1 1

La covarianza puede tomar valores entre (-∞,+∞) de manera que si:Sxy= 0 independencia lineal

Sxy> 0 relación lineal directa o positiva

Sxy< 0 relación lineal inversa o negativa

Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones De orden anteriores están relacionadas con el tipo de relación lineal.

Page 10: Regresion lineal simple

Sxy> 0 relación lineal directa o positiva

X

Y

X X-

Y Y-

Sxy< 0 relación lineal inversa o negativa

X X-

Y Y-

X

Y

Sxy= 0 independencia lineal

X X-

Y Y-

X

Y

Page 11: Regresion lineal simple

Análisis de datos I Análisis de datos II1 2 -3.9 -2.3 8.972 1 -2.9 -3.3 9.573 3 -1.9 -1.3 2.474 4 -0.9 -0.3 0.275 2 0.1 -2.3 -0.230 3 -4.9 -1.3 6.377 5 2.1 0.7 1.478 6 3.1 1.7 5.279 8 4.1 3.7 15.17

10 9 5.1 4.7 23.97Sumas 49 43 0 0 73.3Medias 4.9 4.3 8.14444444

X X- Y Y- ( )( )X X Y Y- -

S x y

Page 12: Regresion lineal simple

1.1.3.2. La covarianza: dependencia de escalas

Page 13: Regresion lineal simple

1.1.3.3. El coeficiente de correlación de Pearson

( )( )

( ) ( )r

S

S S

X X Y Y

X X Y Yx y

x y

x y

ii

N

i

ii

N

ii

N= =

− −

− −

=

= =

∑ ∑1

2

1

2

1

− ≤ ≤ +1 1r x y

0

5

10

15

20

25

0 2 4 6 8 10 12

rxy = 1

-20

-15

-10

-5

0

5

0 2 4 6 8 10 12

rxy = -1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10

rxy = 0.88

rxy = -0.88

0

2

4

6

8

10

12

0 2 4 6 8 10 12

rxy = 0

rxy = 0

Page 14: Regresion lineal simple

1.2. Especificación del modelo de regresión lineal simple en la población.

Xi i

Expresión matemática del modelo en la población

( )Y f X X Y

Y X

Y Y

i i i i i i i

i i

i i i

= + = + + = +

= +

= −

ε β β ε ε

β β

ε

0 1

0 1

predictora criterioindependiente dependienteexógena endógenaexplicativa explicada

En el modelo hay dos variables observadas: X e Y y dos parámetrosla ordenada en el origen de la recta de regresión y la pendienteInterpretación de los parámetros:

0 1

1.2.1. Estructura de los modelos de regresión

Puntuación predicha por la recta de regresión verdadera

Residuo o error de predicción

Yi

Page 15: Regresion lineal simple

Interpretación de los parámetros:

XXY 3,070ˆ10 +=+= ββ

i

Esperanza de vida

Ejercicio físico

i

Esperanza de vida

Consumo de tabaco

XXY 04,070ˆ10 −=+= ββ

Page 16: Regresion lineal simple

1.2.2. Hipótesis básicas

2. Homocedasticidad: la varianza del término de error es constante:

1. El término de Error es una variable aleatoria con media cero:

4. Los errores son independientes entre sí.

3. Los errores se distribuyen normalmente:

3’. La distribución de Y es normal para cada X:

4’. Las observaciones Yi son independientes entre sí.

Las hipótesis anteriores pueden formularse de manera equivalenteen términos de la variable criterio. Así,

2’. La varianza de Y es constante: 2)/( σ=iXYVar

ii XXYE βα+=)/(

1’. La media de Y depende linealmente de X:

ii XXYE βα +=)/(

2)/( σ=iXYVar

ii XXYE βα +=)/(

),(/ 2σβα ii XNXY +≈

0)( =iE ε

2)( σε =iVar

),0( 2σε Ni ≈

Page 17: Regresion lineal simple

Resumen gráfico de las hipótesis básicas formuladas en términos de la variable criterio

X1, X2, X3, X4

Distribución Normal

2/

2/

2/

2/ 4321 xyxyxyxy σσσσ ===

Page 18: Regresion lineal simple

Resumen gráfico de las hipótesis básicas formuladas en términos de los residuos

0

X1, X2, X3, X4

Page 19: Regresion lineal simple

El objetivo del análisis de regresión será estimar los

parámetros del modelo presentado y contrastar las

hipótesis de partida todo ello a partir de una muestra.

Page 20: Regresion lineal simple

1.3. Estimación de los parámetros del modelo de regresión lineal simple

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

1.3.2. La recta de regresión en puntuaciones diferenciales

1.3.3. La recta de regresión en puntuaciones típicas

1.3.4. Relación entre la pendiente de la recta y el coeficiente de correlación

1.3.5. Interpretación de los coeficientes de la recta de regresión

Page 21: Regresion lineal simple

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Partimos de una muestra de sujetos extraídos de una poblaciónen la que se han tomado valores de las variables X e Y. La situaciónmás frecuente es que los puntos estén dispersos en el plano definidopor X e Y. La primera pregunta a plantearnos es de las infinitas rectasque podemos ajustar a la nube de puntos ¿Cuál estimará mejor los parámetros?. Existen diferentes criterios.

Page 22: Regresion lineal simple

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Y a b X e Y e

Y b b X e Y e

Y b b X

e Y Y

i i i i i

i i i i i

i i

i i i

= + + = +

= + + = +

= +

= −

0 1

0 1

1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

X: Análisis de datos I

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

Y:

An

ális

is d

e D

ato

s II

Page 23: Regresion lineal simple

Criterio de mínimos cuadrados:

( ) ( )( )

( )( )

( )( )

e Y Y Y a b X

aY a b X

bY a b X

ii

N

i i i ii

N

i

N

i ii

N

i ii

N

2

1

2 2

11

2

1

2

1

0

0

= − = − + =

− + =

− + =

= ==

=

=

∑ ∑∑

m i n

∂∂

∂∂

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Page 24: Regresion lineal simple

Recta de regresión mínimo cuadrática (puntuaciones directas):

( ) ( )

( )

( )

a Y b X

bX X Y Y

X X

S

Sr

S

S

Y a b X Y b X X

ii

N

i

ii

N

x y

xx y

y

x

i i i

= −

=− −

−= =

= + = + −

=

=

∑1

1

2 2º

1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

Page 25: Regresion lineal simple

Ejemplo de cálculo de la recta de regresión de mínimos cuadrados

56,582,500415517,5520,253,94,58106,6512,251,93,5697,256,252,92,5481,352,250,91,557-0,550,25-1,10,5361,050,25-2,1-0,5250,152,25-0,1-1,5442,756,25-1,1-2,53310,8512,25-3,1-3,5129,4520,25-2,1-4,521

yx X X Y Y X X Y Y ( )X X 2

Page 26: Regresion lineal simple

Recta de regresión mínimo cuadrática:

a Y bX

bX X Y Y

X X

Y X

ii

N

i

ii

N

i i

4 1 0 743 55 0 021

56 50

82 500 743

0 021 0 743

1

1

2

, , , ,

,

,,

, ,

1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

iXY 742,0021,0ˆ +=dependencia de escalas.xls

Page 27: Regresion lineal simple

Propiedades de la Recta de regresión mínimo cuadrática:

1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades

1) La media de las puntuaciones predichas es igual a la media de Y2) Los errores tienen media cero3) La recta de mínimos cuadrados pasa por el punto: 4) Los errores no correlacionan ni con la variable predictorani con las puntuaciones predichas

Page 28: Regresion lineal simple

1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones diferenciales

a) Modelo y recta en puntuaciones diferenciales

( )

( )

bxy

ebxy

eXXbYY

ebXXbYebXaY

=+=

+−=−

++−=++=

ˆ

Page 29: Regresion lineal simple

1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones estandarizadas

a) Modelo y recta en puntuaciones estandarizadas

xixyi

eixixyyi

y

i

x

ixy

y

i

iix

yxyi

ZrZ

ZZrZ

S

e

S

xr

S

y

exS

Sry

ebxy

=

+=

+=

+

=

+=

ˆ

Page 30: Regresion lineal simple

iXY 742,0021,0ˆ +=

xy 742,0ˆ =

xZZ 86,0ˆ =

Recta de regresión en diferenciales y en tipificadas. Relación entre b y r. Interpretación de los coeficientes de la regresión

a) En puntuaciones directas

b) En puntuaciones diferenciales

c) En puntuaciones estandarizadas

y

xxy S

Sbr =

Page 31: Regresion lineal simple

X

3210-1-2

Y

3

2

1

0

-1

-2

-3

X

210-1-2-3

Y

3

2

1

0

-1

-2

-3

X

1,51,0,50,0-,5-1,0

Y

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

1.4. El contraste de la regresión: introducción

Page 32: Regresion lineal simple

X

1,51,0,50,0-,5-1,0-1,5-2,0

Y

3

2

1

0

-1

-2

-3

X

210-1-2-3

Y

3

2

1

0

-1

-2

X

3210-1-2-3

Y

3

2

1

0

-1

-2

-3

1.4. El contraste de la regresión: introducción

Page 33: Regresion lineal simple

X

3210-1-2-3

Y

3

2

1

0

-1

-2

-3

X

3210-1-2-3

Y3

2

1

0

-1

-2

-3

1.4. El contraste de la regresión: introducción

Page 34: Regresion lineal simple

X

3210-1-2-3-4

Y

3

2

1

0

-1

-2

-3

-4

1.4. El contraste de la regresión: introducción

Page 35: Regresion lineal simple

X i

Y i

1.4. El contraste de la regresión: introducción

ii bXaY +=ˆ

Page 36: Regresion lineal simple

X i

Y i

Y

Desviación Desviación Desviación total explicada residual

ii bXaY +=ˆ

1.4.1.Componentes de variabilidad y bondad de ajuste

( ) ( ) ( )iiii YYYYYY ˆˆ −+−=−

Page 37: Regresion lineal simple

1.4.1. Componentes de variabilidad y bondad de ajuste

X i

SC SC SCt res exp

Variación Total

Variación Explicada

Variación Residual

( ) ( ) ( )2

1

2

1

2

1

ˆˆ ∑∑∑===

−+−=−N

iii

N

ii

N

i

YYYYYY

Page 38: Regresion lineal simple

SC Y Y y Y

Y

NN St i

i

N

ii

N

i

ii

N

i

N

y

1

2

2

1

2 1

2

1

21

1.4.1. Componentes de variabilidad y bondad de ajuste

( ) ( ) ( ) 22

1

2

122

1

222

1

22

1exp 1ˆ

x

N

i

N

ii

i

N

ii

N

i

N

i

SNbN

X

XbxbXXbYYSC −=

−==−=−= ∑∑

∑∑∑=

=

===

Fórmulas para calcular las sumas de cuadrados en puntuaciones directas y diferenciales:

( ) exp1

22

1

ˆ SCSCeYYSC t

N

ii

N

iiires −==−= ∑∑

==

Page 39: Regresion lineal simple

1.4.1. Componentes de variabilidad y bondad de ajuste

Fórmulas para calcular las sumas de cuadrados en tipificadas:

SC SC SCt res exp

( )

( )( )2

2

1

22

1

2exp

1

2

11

1

xyres

xy

N

ixxy

N

ii

N

iyt

rNSC

NrZrZSC

NZSC

−−=

−===

−==

∑∑

==

=

Page 40: Regresion lineal simple

1.4.1. Componentes de variabilidad y bondad de ajuste

Bondad de ajuste o Coeficiente de determinación

SC

SC

SC

SC

SC

SC

R R

t

t t

res

t

exp

1 12 2

( )( )

( )( )

22

22

1

2

22

1

2

1

2

exp2

ˆ

xyy

xN

ii

N

ii

N

ii

t

rS

Sb

YY

XXb

YY

YY

SC

SCR ==

−=−

−==

∑∑

==

=

Page 41: Regresion lineal simple

1.4.1. Componentes de variabilidad y bondad de ajuste

r2xy= 1

r2xy= 0

r2xy

Representación en diagramas de Venn

Y X

Y X

XY

Page 42: Regresion lineal simple

Esquema del Contraste de Hipótesis

Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.

1.4.2. Validación del modelo

Page 43: Regresion lineal simple

Elementos de una Prueba de Hipótesis

1.- Hipótesis Nula (H0), Hipótesis Alternativa.2.- Estadístico de Contraste (Discrepancia).3.- Región de Rechazo (Región Crítica): nivel de significación.4.- Regla de Decisión.

Page 44: Regresion lineal simple

1.4.2. Validación del modelo

1.- Hipótesis Nula (H0), Hipótesis Alternativa.

2.- Estadístico de Contraste (Discrepancia).

FS

S

SC

kSC

N K

r

Kr

N Kres res

xy

xy

exp

exp2

2

2

2

11

1

( )( ) iiii

ii

XYXXYEH

YXYEH

εββββεµµβ

++=⇒+=+=⇒==

10101

00

/:

/:

Page 45: Regresion lineal simple

1.4.2. Validación del modelo

3.- Región de Rechazo (Región Crítica): nivel de significación.

Región de aceptación de H0

Región de rechazo de H01-

Fc

Page 46: Regresion lineal simple

4.- Regla de Decisión.

1.4.2. Validación del modelo

Se rechaza la H0 si: F >Fc o de manera equivalente si: p <

Por el contrario, se acepta la H0 si: F ≤Fc o de manera equivalente si: p ≥

Page 47: Regresion lineal simple

Tabla F

Page 48: Regresion lineal simple

Tabla F

Page 49: Regresion lineal simple

1.4.3. Significación de parámetros

1.- Hipótesis Nula (H0), Hipótesis Alternativa.

2.- Estadístico de Contraste (Discrepancia).

tb

Sb

S

X X

b

S

X

X

N

r

r

N

b res

ii

Nres

i

ii

N

i

N

xy

xy

1

2

2

1

2

2 1

2

1

21

2

H H

H H

0 1 1 1

0 1

0 0

0 0

: :

: :

Nota: en regresión simple t2 = F

Page 50: Regresion lineal simple

1.4.3. Significación de parámetros3.- Región de Rechazo (Región Crítica): nivel de significación.

Fc

Región de aceptación de H0

Regiones de rechazo de H0

2

2 1

Page 51: Regresion lineal simple

4.- Regla de Decisión.

Se rechaza la H0 si:t >+tc o de manera equivalente si: p <

Por el contrario, se acepta la H0 si: t ≤ +tc o de manera equivalente si: p≥

1.4.3. Significación de parámetros

Page 52: Regresion lineal simple

http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html

Page 53: Regresion lineal simple

Tabla t de Student

Page 54: Regresion lineal simple

Calculadoras estadísticas en internet

http://faculty.vassar.edu/lowry/VassarStats.htm

http://davidmlane.com/hyperstat/t_table.html

http://davidmlane.com/hyperstat/F_table.html

http://calculators.stat.ucla.edu/cdf/

http://members.aol.com/johnp71/pdfs.html

http://www.psychstat.missouristate.edu/introbook/tdist.htm

http://www.psychstat.missouristate.edu/introbook/fdist.htm

Page 55: Regresion lineal simple

1.6. PredicciónIntervalos de predicción:

( )( )

( )Y Y t S

N

X X

X Xo N K r e s

o

ii

N: ,

± + +−

− −

=∑

α 12

2

2

1

11

Page 56: Regresion lineal simple