Regresion Lineal Univariante
-
Upload
yoshii-jonatan-akihisa -
Category
Documents
-
view
35 -
download
1
description
Transcript of Regresion Lineal Univariante
Estimar la relación entre dos variables cuantitativas
Relación lineal
Relación no-lineal
Aplicaciones
Rectas de calibración
Correlación entre parámetros clínicos
Curvas estándar de crecimiento
EDAT
605040
CO
NC
20
10
0
-10
-20
EDAT
605040
CO
NC
50
40
30
20
EDAT
605040
CO
NC
42
40
38
36
34
32
30
28
26
EDAT
605040
CO
NC
44
42
40
38
36
34
32
30
28
26
EDAT
605040C
ON
C
-26
-28
-30
-32
-34
-36
-38
-40
-42
Relación directa Relación inversa
bXaY
¿Cuál es la recta que mejor explica la relación entre X e Y?
20 40 60 80 100
05
01
00
15
02
00
X
Y
X
11010090
Y
620
600
580
560
540
520
500
480
xi
X
11010090
Y
620
600
580
560
540
520
500
480
Error!!
yi
y a b xi i
error y yi i
xi
X
11010090
Y
620
600
580
560
540
520
500
480
Error!!yi
y a b xi i
xi
X
11010090
Y
620
600
580
560
540
520
500
480
Error!!
xi
yi
y a b xi i
X
11010090
Y
620
600
580
560
540
520
500
480
Mínimo)ˆ( 2
i
i
i yySQE
Criterio de mínimoscuadrados
Mínimo))(()ˆ( 22
i
i
ii
i
i xbayyySSE
22
ˆ
ii
iiii
XXn
YXYXnb
XbYa ˆˆ
0
0
b
SSE
a
SSE
X Y
50 55 60 65 70
10
01
10
12
01
30
14
01
50
X
Y
373.2ˆ
22
ii
iiii
XXn
YXYXnb
542.13ˆˆ XbYa
20
75761.53
2636
1225.1
163171.9
2
n
X
Y
X
YX
i
i
i
ii
22
ˆ
ii
iiii
XXn
YXYXnb
XbYa ˆˆ
Y=-13.542+2.373*X
Y=-13.542+2.373*X
Una recta de regresión no debe utilizarse para extrapolar fuera del intervalo de los datos.
40 45 50 55 60 65
27.5
30
32.5
35
37.5
40
42.5
45
40 45 50 55 60 65
27.5
30
32.5
35
37.5
40
42.5
4540 45 50 55 60 65
27.5
30
32.5
35
37.5
40
42.5
45
40 45 50 55 60 65
27.5
30
32.5
35
37.5
40
42.5
45
X
11010090
Y
620
600
580
560
540
520
500
480
Y
i
i YySQT 2)(
Variabilidad de Y
iy
X
11010090
Y
620
600
580
560
540
520
500
480
iy
i
ii yySQE 2)ˆ(
Variabilidad respecto
al modelo
SQT SQE SQR
iy
i
i YySQT 2)(
X
11010090
Y
620
600
580
560
540
520
500
480
Y
La variabilidad de las Y
es apreciableSQT y Yi ( )2
X
11010090
Y
620
600
580
560
540
520
500
480
Y
La desviación respecto
del modelo es pequeña2)ˆ( ii yySQE
X
11010090
Y
620
600
580
560
540
520
500
480
Y
SQE 0SQT SQE SQR
SQT SQE
SQT
1
SQRSQT
X
11010090
Y
620
600
580
560
540
520
500
480
Y
SQT SQE
SQT
0
SQT SQE
RSQT SQE
SQT2
R2 0
R2 1
Mal ajuste
Buen ajuste
22
2
2
yx
xy
ss
sr
Coeficiente de correlación lineal
i
iy
i
ix
i
iixy
YnYS
XnXS
YXnYXS
222
222
YX
6
1.5
5.3
2.2
0
1.51
2.41
9.21
3.11
01
1
0YX
YXXXYXXX ''''1
iii xy 10
YXXX ''1
r2=0.8299
r2=0.1075
Los IC de los parámetros incluyen el valor 0. Por lo tanto, podemos considerar que X e Y son independientes (linealmente).
Plot.Prediction.IC.LR <- function(X=X,Y=Y,data=data){attach(data)X.sort <- sort(X)res <- lm(Y~X)pred.res <- predict(res,newdata=data.frame(X=X.sort),int="pred")plot(Y~X,data=data)abline(res)lines(X.sort,pred.res[,2],lty=2)lines(X.sort,pred.res[,3],lty=2)detach(data)}
Beers: Número de cervezas consumidas.BAL: Blood alcohol level
Valor extremo
El valor extremo determina que la recta estimada se desplace hacia arriba y no ajuste adecuadamente el resto de observaciones.
La eliminación del valor extremo determina un mejor resultado.
El valor predicho de peso para una persona de 170 cm de altura es de 64.6 kg, con un IC entre 47.8 y 81.5.
Relación entre el peso real (weight) y el peso indicado por cada persona (perwt).
Utilizamos el fichero donde hemos eliminado el valor extremo.
En rojo se indica la recta estimada. En negro la recta ideal.
Los hijos de padres bajos tienden a ser más altos y los de padres altos más bajos (regresión a la media)
Un r2=0.25 indica que hay otros factores que influyen en el valor final de la altura del hijo.
La altura del padres solo explica el 25% de la variabilidad observada en la altura de los hijos.
Se dispone de datos de IQ (coeficiente de inteligencia) en gemelos que fueron separados al nacer.
Determina si el IQ varia en función de haber sido criado en distintos ámbitos
En primer lugar, graficaremos los datos.
plot(Foster~Biological,data=twins)
Vemos que existe una tendencia lineal clara.
Estimaremos la recta de regresión para obtener una recta que explique esta tendencia.
xy 9014.02076.9
Seria conveniente obtener los IC de los parámetros.
En principio, el valor en el origen debería ser 0.
xy 9014.02076.9
Los parámetros, especialmente la constante, tienen mucha variabilidad.
Podemos mirar de ajustar un modelo con una constante igual a 0.
xy 9014.02076.9
xy 9956.0
El modelo con la constante nos da un r2=0.78.
El ajuste es relativamente bueno, pero los IC de los parámetros eran bastante amplios.
El modelo con la constante nos da un r2=0.99.
El ajuste es mucho mejor, y el IC del parámetro es razonable.
Podemos concluir que los gemelos tienden a tener el mismo IQ, independientemente de haber sido criados en familias distintas.
El procedimiento de regresión lineal se utiliza para estimar la relación (lineal) entre dos variables cuantitativas. La varianza de la variable dependiente debe ser constante
para los distintos valores de la variable independiente.
La variable independiente está controlada por el experimentador.
Análisis típico Ajustar la recta de regresión y los IC de los parámetros.
Obtener el valor de r2.
Obtener los IC de predicción para cada valor de la variable independiente.