Regresion Lineal Univariante

Estimar la relación entre dos variables cuantitativas

Relación lineal

Relación no-lineal

Aplicaciones

Rectas de calibración

Correlación entre parámetros clínicos

Curvas estándar de crecimiento

EDAT

605040

CO

NC

20

10

0

-10

-20

EDAT

605040

CO

NC

50

40

30

20

EDAT

605040

CO

NC

42

40

38

36

34

32

30

28

26

EDAT

605040

CO

NC

44

42

40

38

36

34

32

30

28

26

EDAT

605040C

ON

C

-26

-28

-30

-32

-34

-36

-38

-40

-42

Relación directa Relación inversa

bXaY

¿Cuál es la recta que mejor explica la relación entre X e Y?

20 40 60 80 100

05

01

00

15

02

00

X

Y

X

11010090

Y

620

600

580

560

540

520

500

480

xi

X

11010090

Y

620

600

580

560

540

520

500

480

Error!!

yi

y a b xi i

error y yi i

xi

X

11010090

Y

620

600

580

560

540

520

500

480

Error!!yi

y a b xi i

xi

X

11010090

Y

620

600

580

560

540

520

500

480

Error!!

xi

yi

y a b xi i

X

11010090

Y

620

600

580

560

540

520

500

480

Mínimo)ˆ( 2

i

i

i yySQE

Criterio de mínimoscuadrados

Mínimo))(()ˆ( 22

i

i

ii

i

i xbayyySSE

22

ˆ

ii

iiii

XXn

YXYXnb

XbYa ˆˆ

0

0

b

SSE

a

SSE

X Y

50 55 60 65 70

10

01

10

12

01

30

14

01

50

X

Y

373.2ˆ

22

ii

iiii

XXn

YXYXnb

542.13ˆˆ XbYa

20

75761.53

2636

1225.1

163171.9

2

n

X

Y

X

YX

i

i

i

ii

22

ˆ

ii

iiii

XXn

YXYXnb

XbYa ˆˆ

Y=-13.542+2.373*X

Y=-13.542+2.373*X

Una recta de regresión no debe utilizarse para extrapolar fuera del intervalo de los datos.

40 45 50 55 60 65

27.5

30

32.5

35

37.5

40

42.5

45

40 45 50 55 60 65

27.5

30

32.5

35

37.5

40

42.5

4540 45 50 55 60 65

27.5

30

32.5

35

37.5

40

42.5

45

40 45 50 55 60 65

27.5

30

32.5

35

37.5

40

42.5

45

X

11010090

Y

620

600

580

560

540

520

500

480

Y

i

i YySQT 2)(

Variabilidad de Y

iy

X

11010090

Y

620

600

580

560

540

520

500

480

iy

i

ii yySQE 2)ˆ(

Variabilidad respecto

al modelo

SQT SQE SQR

iy

i

i YySQT 2)(

X

11010090

Y

620

600

580

560

540

520

500

480

Y

La variabilidad de las Y

es apreciableSQT y Yi ( )2

X

11010090

Y

620

600

580

560

540

520

500

480

Y

La desviación respecto

del modelo es pequeña2)ˆ( ii yySQE

X

11010090

Y

620

600

580

560

540

520

500

480

Y

SQE 0SQT SQE SQR

SQT SQE

SQT

1

SQRSQT

X

11010090

Y

620

600

580

560

540

520

500

480

Y

SQT SQE

SQT

0

SQT SQE

RSQT SQE

SQT2

R2 0

R2 1

Mal ajuste

Buen ajuste

22

2

2

yx

xy

ss

sr

Coeficiente de correlación lineal

i

iy

i

ix

i

iixy

YnYS

XnXS

YXnYXS

222

222

YX

6

1.5

5.3

2.2

0

1.51

2.41

9.21

3.11

01

1

0YX

YXXXYXXX ''''1

iii xy 10

YXXX ''1

r2=0.8299

r2=0.1075

Los IC de los parámetros incluyen el valor 0. Por lo tanto, podemos considerar que X e Y son independientes (linealmente).

Plot.Prediction.IC.LR <- function(X=X,Y=Y,data=data){attach(data)X.sort <- sort(X)res <- lm(Y~X)pred.res <- predict(res,newdata=data.frame(X=X.sort),int="pred")plot(Y~X,data=data)abline(res)lines(X.sort,pred.res[,2],lty=2)lines(X.sort,pred.res[,3],lty=2)detach(data)}

Beers: Número de cervezas consumidas.BAL: Blood alcohol level

Valor extremo

El valor extremo determina que la recta estimada se desplace hacia arriba y no ajuste adecuadamente el resto de observaciones.

La eliminación del valor extremo determina un mejor resultado.

El valor predicho de peso para una persona de 170 cm de altura es de 64.6 kg, con un IC entre 47.8 y 81.5.

Relación entre el peso real (weight) y el peso indicado por cada persona (perwt).

Utilizamos el fichero donde hemos eliminado el valor extremo.

En rojo se indica la recta estimada. En negro la recta ideal.

Los hijos de padres bajos tienden a ser más altos y los de padres altos más bajos (regresión a la media)

Un r2=0.25 indica que hay otros factores que influyen en el valor final de la altura del hijo.

La altura del padres solo explica el 25% de la variabilidad observada en la altura de los hijos.

Se dispone de datos de IQ (coeficiente de inteligencia) en gemelos que fueron separados al nacer.

Determina si el IQ varia en función de haber sido criado en distintos ámbitos

En primer lugar, graficaremos los datos.

plot(Foster~Biological,data=twins)

Vemos que existe una tendencia lineal clara.

Estimaremos la recta de regresión para obtener una recta que explique esta tendencia.

xy 9014.02076.9

Seria conveniente obtener los IC de los parámetros.

En principio, el valor en el origen debería ser 0.

xy 9014.02076.9

Los parámetros, especialmente la constante, tienen mucha variabilidad.

Podemos mirar de ajustar un modelo con una constante igual a 0.

xy 9014.02076.9

xy 9956.0

El modelo con la constante nos da un r2=0.78.

El ajuste es relativamente bueno, pero los IC de los parámetros eran bastante amplios.

El modelo con la constante nos da un r2=0.99.

El ajuste es mucho mejor, y el IC del parámetro es razonable.

Podemos concluir que los gemelos tienden a tener el mismo IQ, independientemente de haber sido criados en familias distintas.

El procedimiento de regresión lineal se utiliza para estimar la relación (lineal) entre dos variables cuantitativas. La varianza de la variable dependiente debe ser constante

para los distintos valores de la variable independiente.

La variable independiente está controlada por el experimentador.

Análisis típico Ajustar la recta de regresión y los IC de los parámetros.

Obtener el valor de r2.

Obtener los IC de predicción para cada valor de la variable independiente.

Regresion Lineal Univariante

Documents

Transcript of Regresion Lineal Univariante