Post on 24-May-2015
description
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Análisis de Regresión y Correlación
Analicemos el siguiente ejemplo:
En un experimento de laboratorio, se desea conocer el rendimiento de un proceso (y), en relación con la temperatura a la que se desarrolla (x). Los datos obtenidos fueron los siguientes:
¿Puede decirse que exista relación entre los valores de x y de y?
x 100 110 120 130 140 150 160 170 180 190
y 45 52 54 63 62 68 75 76 92 88
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Pueden servir los valores de temperatura para predecir los valores de rendimiento?
Si fuera así, ¿qué forma debería tener un gráfico rendimiento - temperatura?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Qué puede decirse de la aleatoriedad de las variables bajo análisis?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Qué forma podría tener un modelo que describiera la posible relación entre estas
dos variables?
Hasta ahora podemos decir que:
X es una variable determinística y es intención del análisis de regresión establecer si es explicativa o no.
Y es una variable aleatoria de la cuál no sabemos mucho más. Aunque sí, en este caso podríamos pensar que se relaciona de manera lineal con x.
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
f(y)
x
Y
x1
x2
x3
x4
y11
y12
y21 y31 y32 y33
y41
y42
0 1 i i iY x
E(Y1|x1) E(Y2|x2) E(Y3|x3) E(Y4|x4)
Hipótesis y Supuestos
2 0; con N0 1Y x
2 0;icon N
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Cuáles son esos supuestos?
¿Sobre quién están establecidos los supuestos en los que se basa el análisis
de regresión?
Los errores son independientes Tienen distribución Normal con esperanza cero y varianza σ2
constante.
¿Cuál sería entonces, el objetivo en un análisis de regresión?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Bajo estos supuestos, cuál es la distribución de la variable dependiente
para cada valor de x?
Recordemos que:
Entonces:
20 1( ; )i iy N x
0 1 ij i ijy x 20 ;ijcon N
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Habíamos dicho que el objetivo consiste en estimar la mejor recta de
regresión que permita describir el comportamiento de la variable explicada (Y) en términos de la
explicativa (x).
Para ello: ¿qué necesitamos estimar?
¿Qué condición debe cumplir esta recta de modo de lograr la mejor estimación de los valores de la variable explicada?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
x
y
ei
Gráficamente:
Es decir: debe ser mínimo 2
1
n
ii
e
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Cómo podemos expresar ei en términos de la información disponible?
Entonces deberá minimizarse la expresión:
que es lo mismo que:
Que habrá que minimizar en a y b, entonces:
y
2
1
n
i ii
y y
2
1
n
i ii
y a b x
2
1 0
n
i ii
y a bx
a
2
1 0
n
i ii
y a bx
b
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Resolviendo el sistema anterior se obtiene que:
y
12
1
_ _
_
n
i ii
n
ii
x x y y
b
x x
_ _a y b x
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Apliquemos lo anterior al ejemplo dado inicialmente. Los datos son:
Donde x representa la temperatura a la que se desarrolla un experimento de laboratorio y y el rendimiento porcentual de dicho experimento.
¿Cuál es el primer paso en un análisis de regresión?
Hagan!!!!!!!!
x 100 110 120 130 140 150 160 170 180 190
y 45 52 54 63 62 68 75 76 92 88
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Qué sugiere este gráfico?
Diagrama de Dispersión
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿Cuál sería el segundo paso?
Tienen razón, háganloSi realizamos la estimación mediante el uso de
un software, la salida que entregará será parecida a la siguiente:
Coef Est. E.E. LI(95%) LS(95%) T p-valorconst -4.47 5.63 -17.47 8.52 -0.79 0.45Temp. 0.50 0.04 0.41 0.58
13.02 <0.0001
¿Qué indica cada uno de los valores de la tabla anterior?
Por lo tanto: y = - 4.47 + 0.50 x ¿tiene sentido el valor de “a” para la situación analizada?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Inferencia en la Regresión Lineal
Los estimadores de los parámetros son variables aleatorias y los valores obtenidos
estimaciones puntuales de los mismos.
Para obtener mayor seguridad de que el modelo construido tiene validez, ¿qué recurso
podríamos utilizar?
Para poder realizarlas, es necesario conocer las distribuciones de los estimadores.
¿Por qué?
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Prueba de hipótesis para β1
Distribución de b:
donde representa la varianza de los errores en el modelo teórico, por lo tanto resulta necesario estimarla:
y
2
1;xx
b NS
2
2
2 2
2
i iy yS
n
¿Qué propiedades tiene b como estimador?
2_
xx iS x x
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Realicemos la prueba de hipótesis
H0:
H1 :
Estadístico de la prueba:
Nivel de significación: según el caso.
¿Por qué?
12n
b
bT t
S
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Validez del modelo
Volviendo al comienzo:¿cuáles fueron los supuestos en los que nos
basamos para la adopción del modelo?
¿cómo podemos corroborar que esos supuestos sean válidos en cada caso?
• normalidad de los errores • esperanza cero • independencia• varianza constante
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Verificación de normalidad
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Verificación del resto de los supuestos
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Coeficiente de Determinación
x
_y
_x
y
Variación total
Variación explicada
Variación no
explicada
= ( ) + ( )
_
iy y
_
iy y
iy y
_
iy y _
iy y iy y
yi
iy
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Esta suma de variaciones tiene una propiedad que permite escribir:
o SCT = SCR + SCM
y
¿qué indica esta última expresión?
2 2
2_ _
i i i iy y y y y y
1SCR SCMSCT SCT
21SCM SCR
RSCT SCT
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Salida completa para los datos del ejemplo:
Variable N R² Rendimiento10 0.95
Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%)LS(95%) T p-valor const -4.47 5.63 -17.47 8.52 -0.79 0.4502 Temperatura 0.50 0.04 0.41 0.58 13.02 <0.0001
Cuadro de Análisis de la Varianza F.V. SC gl CM F p-valorModelo 2032.61 1 2032.61 169.58 <0.0001Temperatura 2032.61 1 2032.61 169.58
<0.0001Error 95.89 8 11.99 Total 2128.50 9
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Análisis de Correlación
Tiene por objetivo valorar la “fuerza” de la asociación entre las variables
Para ello se define una medida de asociación:
LA COVARIANZA
1( , )
N
i x i yi
x yCov x y
N
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
¿cuál sería su estimador?
y
x
_y
_x
1
1
_ _
( , )
n
i ii
x x y y
S x yn
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Si estandarizamos la expresión anterior obtenemos otra medida de asociación, pero
relativa
Llamada coeficiente de correlación muestral
Calculemos estas medidas para el ejemplo dado
r = 0.98
(ver prueba de hipótesis para este coeficiente)
;
x y
S x yr
S S
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Importancia del Análisis de Residuos
Observación x(a)(b)(c) y(a) y(b) y(c) x(d) y(d)
1 10 8.04 9.14 7.46 8 6.58
2 8 6.95 8.14 6.77 8 5.76
3 13 7.58 8.74 12.74 8 7.71
4 9 8.81 8.77 7.11 8 8.84
5 11 8.33 9.26 7.81 8 8.47
6 14 9.96 8.10 8.84 8 7.04
7 6 7.24 6.13 6.08 8 5.25
8 4 4.26 3.10 5.39 19 12.50
9 12 10.84 9.13 8.15 8 5.56
10 7 4.82 7.26 6.42 8 7.91
11 5 5.68 4.74 5.73 8 6.89
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valorconst 3.00 1.12 0.46 5.54 2.67 0.0257 x(a)(b)(c) 0.50 0.12 0.23 0.77 4.24 0.0022
Cuadro de Análisis de la Varianza F.V. SC gl CM F p-valorModelo 27.51 1 27.51 17.99 0.0022x(a)(b)(c) 27.51 1 27.51 17.99 0.0022Error 13.76 9 1.53 Total 41.27 10
Variable N R² y(a) 11 0.67
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valorconst 3.00 1.13 0.46 5.55 2.67 0.0258 x(a)(b)(c) 0.50 0.12 0.23 0.77 4.24 0.0022 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valorModelo 27.50 1 27.50 17.97 0.0022x(a)(b)(c) 27.50 1 27.50 17.97 0.0022Error 13.78 9 1.53 Total 41.28 10
Variable N R² y(b) 11 0.67
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Variable N R² y(c) 11 0.67
Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valorconst 3.00 1.12 0.46 5.55 2.67 0.0256 x(a)(b)(c) 0.50 0.12 0.23 0.77 4.24 0.0022
Cuadro de Análisis de la Varianza F.V. SC gl CM F p-valorModelo 27.47 1 27.47 17.97 0.0022x(a)(b)(c) 27.47 1 27.47 17.97 0.0022Error 13.76 9 1.53 Total 41.23 10
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valorconst 3.00 1.12 0.46 5.54 2.67 0.0256 x(d) 0.50 0.12 0.23 0.77 4.24 0.0022
Cuadro de Análisis de la Varianza F.V. SC gl CM F p-valorModelo 27.49 1 27.49 18.00 0.0022x(d) 27.49 1 27.49 18.00 0.0022Error 13.74 9 1.53 Total 41.23 10
Variable N R² y(d) 11 0.67
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
FACULTAD DE CIENCIAS EXACT. FÍS. Y NATURALES. UNC.
CÁTEDRA DE PROBABILIDAD Y ESTADÍSTICA
Unidad 6: Regresión y correlación
f(y)
x
y
x1
x2
x3
x4
0 1 ij i ijy x
y11
y12
y21 y31 y32 y33
y41
y42
0 1 i iE y x
E(y1)
E(y2)
E(y3)
E(y4)
20 ;ijcon N