CORRELACION Y REGRESION LINEAL: Introducción

38
CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

description

CORRELACION Y REGRESION LINEAL: Introducción. Mario Briones L. MV, MSc. Correlación lineal de Pearson. Medida de la estrechez de la asociación entre dos variables cuantitativas. Asociación: fluctuación en conjunto de dos variables. Correlación lineal de Pearson:. - PowerPoint PPT Presentation

Transcript of CORRELACION Y REGRESION LINEAL: Introducción

CORRELACION Y REGRESION LINEAL:

Introducción

Mario Briones L.MV, MSc

Correlación lineal de Pearson. Medida de la estrechez de la

asociación entre dos variables cuantitativas.

Asociación: fluctuación en conjunto de dos variables

Correlación lineal de Pearson: Muchas veces en que se dispone de

datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

Considere los siguientes datos: Valores de pluviometría para once localidades a

diferente altura sobre el nivel del mar:4 1162 6345 844 4306 1008 5737 956 4388 825 4749 899 40910 801 50411 1186 708

Gráfico de la asociación

300

350

400

450

500

550

600

650

700

750

700 800 900 1000 1100 1200 1300

altura sobre el nivel del mar (mts)

plu

vio

me

tría

(m

m)

Promedio de X= 959.2 mts

Promedio de Y= 530 mts

COVARIANZA: Medida de la variación en conjunto de dos variables:

yi

n

jxjXY yx

n

1)( 1

1cov

1cov )(

nn

YXYX ij

ii

XY

CONCEPTO:

FORMULA DE CALCULO:

Donde n es el número de pares de valores X Y

En el ejemplo:

42.1307910

11582910551

16380

XYCOV

Atención! La función COVAR de Excel divide por n...

Covarianza en el ejemplo: Cov(XY)= 13.079,41

El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y

Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

Estandarización de la medición Pearson, matemático Inglés,

desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y

YX

XYCovrho

)()(

YX

XY

ss

Covr )(

En la población En la muestra

Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es

estrecha, el valor de r se acerca a –1 o +1.

Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

Coeficiente de correlación de Pearson en el ejemplo:

YX

XY

ss

Covr )(

856.04.1039.147

42.13079

r

Es la correlación observada diferente de cero? (H0??)

11 2

Nr

rt

XY

XY

11 2

Nr

rz

XY

XY

N< 30 N> 30

N es la cantidad de pares XY

Es la correlación observada diferente de cero, en el ejemplo?

25.5163.0856.0

10733.01

856.0

t

t

t

En la tabla de t,con alfa= 0.05 (dos colas)y 10 grados de libertad(n-1), el valor críticoes 2.22

Por lo tanto se puederechazar H0 respectodel valor poblacional derho:Hay una asociación significativaentre la altura sobre el nivel delmar y la cantidad de precipitación(P<0.05) (en la población)

0.01

0.959

0.0014 0.9 0.95 0.99 0.999

N 0.1 0.05

0.875

0.9916 0.729 0.811 0.917 0.9745 0.805 0.878

0.798

0.9518 0.621 0.707 0.834 0.9257 0.669 0.754

0.735

0.89810 0.549 0.632 0.765 0.8729 0.582 0.666

0.684

0.84712 0.497 0.576 0.708 0.82311 0.521 0.602

0.641

0.80114 0.458 0.532 0.661 0.7813 0.476 0.553

0.606

0.7616 0.426 0.497 0.623 0.74215 0.441 0.514

0.575

0.72518 0.4 0.468 0.59 0.70817 0.412 0.482

0.549

0.69320 0.378 0.444 0.561 0.67919 0.389 0.456

0.526

0.66522 0.36 0.423 0.537 0.65221 0.369 0.433

0.505

0.6424 0.344 0.404 0.515 0.62923 0.352 0.413

0.487

0.61826 0.33 0.388 0.496 0.60725 0.337 0.396

0.471

0.59728 0.317 0.374 0.479 0.58827 0.323 0.381

0.43

0.57930 0.306 0.361 0.463 0.5729 0.311 0.367

0.38

0.53240 0.264 0.312 0.403 0.50135 0.283 0.334

0.33

0.47450 0.235 0.279 0.361 0.45145 0.248 0.294

0.286

0.41470 0.198 0.235 0.306 0.38560 0.214 0.254

0.256

0.36190 0.174 0.207 0.27 0.34180 0.185 0.22

0.324100 0.165 0.197

alfa

Otra opción es compararel valor de r calculadocon el valor de r de la tablaadjunta.Si el valor de r calculadoes mayor que el r delnúmero de grados delibertad de la correlación

(n-1)=10

valor crítico= 0.632

Transformación de Fisher del coeficiente de correlación

rr

zrxy 11

ln5.0

Z tiene distribución aproximadamente normal, conmedia y error estándar:

5.0)3(1

N

ee

Transformación de Fisher en el ejemplo:

275.1

55.25.0

144.856.1

ln5.0

856.01856.01

ln5.0

rxyz

Intervalo de confianza del coeficiente de correlación

3-N1

)( colas dos Pzzrxy

Para obtener el intervalo de confianza en “unidadesde correlación” se transforman de modo inverso usandoel mismo método de r a z

En INTERNET:http://faculty.vassar.edu/lowry/rho.html?

Intervalo de confianza en el ejemplo:

653.0275.1

1111.096.1275.1

3-111

96.1275.1

Según la página de Internet, el intervalo deconfianza de 95% para r=0.856límite inferior=0.527límite superior=0.961

Comparación de coeficientes de correlación

31

31

21

21

nn

zzz rxyrxy

Se utilizan los coeficientes transformados

Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto

Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.

Observaron que los niños tenían mayor incidencia de leucemia.

Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al

gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la

revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

Errores comunes respecto a la correlación Se debe tener cuidado de evitar

concluir que la correlación implica causalidad Variables ocultas

No utilizar tasas o promedios Pérdida de variación entre individuos

Supuesto de linearidad de la relación

Correlación y regresión lineal: Si existe una conexión biológica (o

de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación.

El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento.

X Yozono (ppm) rendimiento (gr/pl)

0.02 242 0.07 237 0.11 231 0.15 201

Xi= 0.35 Yi= 911 X= 0.0875 Y= 227.75X2

i= 0.0399 Y2i= 208495

XiYi= 76.99

MODELO

Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye.

La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:

MODELO

Donde = intercepto (valor de E(Y)cuando X es

igual a cero = pendiente de la línea (tasa de cambio

de E(Y) ante un cambio unitario en X.

)()( ii XYE

SUPUESTOS

Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi).

La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio i para dar el siguiente modelo:

SUPUESTOS

El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error.

Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.

iii XY

Rendimiento de soya frente a diferentes concentraciones de ozono

170

180

190

200

210

220

230

240

250

0 0.05 0.1 0.15 0.2

concentración de ozono (ppm)

ren

dim

ien

to s

oya

(g

r/p

lan

ta)

ESTIMACION DE MINIMOS CUADRADOS

Los parámetros en el modelo son y , a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros.

La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)

ESTIMACION DE MINIMOS CUADRADOS

Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún

criterio. El procedimiento de estimación de mínimos

cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.

ESTIMACION DE MINIMOS CUADRADOS

Sean b y a los estimadores numéricos de los parámetros y , respectivamente, y sea

el promedio estimado de Y para cada Xi, i= 1, 2,…, n.

Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.

ii bXaY ˆ

El principio de los mínimos cuadrados escoge valores de a y bque minimizan la suma de cuadrados de los residuales, SC(Res):

Donde es el valor residual observado para la iésima observación. La suma indicada por es sobre todos losvalores del conjunto como lo indican los índices i= 1 hasta n

Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas deSC(Res) con respecto a b y a son definidas iguales a cero.

2)(

1

2)( )ˆ(

iRES

n

iiiRES

eSC

YYSC

)ˆ( iii YYe

Las ecuaciones normales son:

n(a) + (Xi)b= Yi

(Xi)a + (X2i)b= XiYi

Resolviendo las ecuaciones simultáneamente para a y b, da losestimadores para y :

(Xi-X)(Yi-Y) xiyi

b= = (Xi-X)2 x2

i

a= Y - bX

Para facilidad de cálculo:

(Xi)2

x2i= X2

i - n (Xi)(Yi)xiyi= XiYi - n

Lo que da la siguiente fórmula de cálculo para la pendiente:

n

XX

n

YXYX

bi

i

iiii

22 )(

))((

Cálculo de la pendiente (b)

X Yozono (ppm) rendimiento (gr/pl)

0.02 242 0.07 237 0.11 231 0.15 201

0399.0

0875.0

35.0

2i

i

X

X

X

208495

75.227

911

2i

i

Y

Y

Y

99.76iiYX

53.293

4)35.0(

0399.0

4)911)(35.0(

99.76

2

b

n

XX

n

YXYX

bi

i

iiii

22 )(

))((

Cálculo de la constante (a)y ecuación:

XbYa

a= 227.75 - (-293.531)(0.08875)= 253.434

iXY 5.2934.253ˆ

La ecuación de mínimo cuadrado que caracteriza el efecto del ozonosobre el rendimiento promedio de la soya en este estudio, asumiendoque el modelo lineal es correcto es: