Coeficiente de Correlacion

12
  Instituto Politécnico Nacional Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacán Alumnos: Acuña Alvarado Víctor David Chanona Leyva José Luis Hernández Espinoza Cecilia Suarez Méndez Héctor Adrián Toledo García Francisco Grupo: 5CV2 Profesor: Amparo Bañuelos Duran Materia: Probabilidad y Estadística Coeficiente de Corre lación Determinación y Covarianza. Fecha de Entrega: Martes 06 de Dic iembre del 2011

Transcript of Coeficiente de Correlacion

Instituto Politcnico Nacional Escuela Superior de Ingeniera Mecnica y Elctrica Unidad Culhuacn

Alumnos: Acua Alvarado Vctor David Chanona Leyva Jos Luis Hernndez Espinoza Cecilia Suarez Mndez Hctor Adrin Toledo Garca Francisco Grupo: 5CV2 Profesor: Amparo Bauelos Duran Materia: Probabilidad y Estadstica

Coeficiente de Correlacin, Determinacin y Covarianza. Fecha de Entrega: Martes 06 de Diciembre del 2011

COEFICIENTE DE CORRELACIN Definicin Es una medida que describe el grado de asociacin o relacin de 2 variables aleatorias Se dice que si X y Y son 2 variables aleatorias y (x,y) es una variable aleatoria conjunta entonces el coeficiente de correlacin se define como:

PROPIEDADES 1. el coeficiente de correlacin es una cantidad adimensional 2. si TEOREMA El coeficiente de correlacin es una medida que est siempre entre 1 y 1 Probemos que si el coeficiente de correlacin esta entre 0.5 y 0.5 si incluir el 0 las variables X y Y estn bajamente correlacionadas. TEOREMA Si se dice que X y Y estn correlacionados y se puede asegurar con una probabilidad de 1 que Y = ax+b . Existe una relacin lineal a>0 Si se dice que X y Y estn correlacionados se puede asegurar con una probabilidad de 1 que Y = ax+b con 0 la correlacin es directa. Si xy < 0 la correlacin es inversa. La covarianza presenta como inconveniente, el hecho de que su valor depende de la escala elegida para los ejes. Es decir, la covarianza variar si expresamos la altura en metros o en centmetros. Tambin variar si el dinero lo expresamos en euros o en dlares.

Ejemplo (Covarianza y Coeficiente de Correlacin) Sea (x,y) una v.a bid continua que se distribuye uniformemente en la regin

1. Hallar la covarianza 2. Hallar el coeficiente 3. Existe una relacin entre X y Y

por tanto hay relacin entre X y Y

3. las variables aleatorias X y Y estn altamente correlacionadas

Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras ( siguiente: 0 1 2 3 4

), en la tabla

0 1 2 3 4

4 5 7 5 2

6 10 8 5 3

9 7 5 3 2

4 4 3 2 1

1 2 1 1 0

1. Hallar las medias, varianzas y desviaciones tpicas marginales. 2. Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos? 3. Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas? 4. Qu nmero medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas? 5. Hallar la covarianza

Solucin: En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de hijas y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son tiles en el clculo de medias y varianzas: y1 y2 y3 y4 y5

0

1

2

3

4

4

6

9

4

1

24

0

0

0

5

10 7

4

2

28

28

28

44

7

8

5

3

1

24

48

96

62

5

5

3

2

1

16

48

144

63

2

3

2

1

0

8

32

128

40

23 32 26

14

5

100 156

396

209

0

32 52

42

20 146

0

32 104 126 80 342

De este modo, las medias marginales son

Calculamos despus las varianzas marginales

Que nos dan directamente las desviaciones tpicas marginales,

El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin condicionada de n3j n3j yj 7 0

8

8

5

10

3

9

1

4

24 31

Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la distribucin condicionada

ni1 ni1 xi 4 0

5

5

7

14

5

15

2

8

23 42

El nmero medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3 ni1 ni2 ni3 ni1+ni2+ni3 (ni1+ni2+ni3) xi 4 6 9 19 19

5

10 7

22

22

7

8

5

20

40

5

5

3

13

39

2

3

2

7 81

28 129

La covarianza es:

COEFICIENTE DE DETERMINACIN

El coeficiente de determinacin indica la proporcin de la variacin total que est siendo explicada por la regresin. Adems ofrece una idea de la calidad del ajuste del modelo a los datos. Denominamos coeficiente de determinacin R2 como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y(ventas) que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X (publicidad) . A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r). R2 = r 2 Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos. Tambin se le denomina bondad del ajuste. 1 R2 nos indica qu porcentaje de las variaciones no se explica a travs del modelo de regresin, es como si fuera la varianza inexplicada que es la varianza de los residuos. En nuestro ejemplo, el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo conseguimos explicar el 75,3 % de las variaciones de las ventas a travs del ajuste por medio de los gastos en publicidad.