Correlacion

Post on 17-Jun-2015

2.973 views 1 download

Transcript of Correlacion

INSTITUTO TECNOLOGICO DEL ALTIPLANO DE TLAXCALAESTADÍSTICA

ING. VICTOR HUGO RAMIREZ EVANGELISTA

ALUMNA:

EVA BASTIDA TERREROS

ING. AGRONOMIA

Correlación

CORRELACIÓN NO LINEAL

COEFICIENTE DE DETERMINACIÓN

correlación

CORRELACIÓN La correlación trata de establecer la

relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.

TIPOS DE CORRELACIÓN

1ºCorrelación directa

2º Correlación inversa

3º Correlación nula

TIPOS DE CORRELACION

1ºCORRELACIÓN DIRECTA

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

2º CORRELACIÓN INVERSA

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

3º CORRELACIÓN NULA

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

GRADO DE CORRELACIÓN

El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

1. CORRELACIÓN FUERTE

La correlación será fuerte cuanto más cerca estén los puntos de la recta.

2. CORRELACIÓN DÉBIL3. CORRELACIÓN NULA La correlación será débil cuanto más

separados estén los puntos de la recta.

GRADOS DE CORRELACIÓN

a. Correlación fuerte: cuanto más se aproximan los puntos a la recta.

a. Positivab. Negativa

b. Correlación débil: cuando los puntos se separan de la recta

c. Correlación nula: No hay asociación

EJERCICIO

Haga clic en el icono para agregar una imagen

CORRELACIÓN.  La correlación es la forma numérica en

la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente.

Para poder entender esta relación tendremos que analizarlo en forma gráfica:

Si tenemos los datos que se presentan en la tabla y consideramos que la edad determina el peso de las personas entonces podremos observar la siguiente gráfica:

Donde los puntos representan cada uno de los pares ordenados y la línea podría ser una recta que represente la tendencia de los datos, que en otras palabras podría decirse que se observa que a mayor edad mayor peso

La correlación se puede explicar con la pendiente de esa recta estimada y de esta forma nos podemos dar cuenta que también existe el caso en el que al crecer la variable independiente decrezca la variable dependiente. En aquellas rectas estimadas cuya pendiente sea cero entonces podremos decir que no existe correlación.

0

20

40

60

80

100

0 20 40 60

edades

pesos

Así en estadística podremos calcular la correlación para datos no agrupados con la siguiente formula.

2

11

2

2

11

2

1 11

*

n

ii

n

ii

n

ii

n

ii

n

i

n

ii

n

iiii

yynxxn

yxyxnr

En donde:R = coeficiente de correlación N = número de pares ordenadosX = variable independienteY = variable independiente

Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:

Ahora podemos observar que:

Edad (x) Peso (y) X2 Y2 X* Y

15 60 225 3600 900

30 75 900 5625 2250

18 67 324 4489 1206

42 80 1764 6400 3360

28 60 784 3600 1680

19 65 361 4225 1235

31 92 961 8464 2852

183 499 5319 36403 13483

65638606.02)499(36403*72)183(5319*7

)499*183(13483*7

2

11

22

11

2

1 1*

1

n

i iyn

i iynn

i ixn

i ixn

n

i

n

i iyn

i ixiyixnr

Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente manera: y que para entenderlo mejor se debe obtener el coeficiente de determinación que se obtiene con “ r “ cuadrada, ya que este representa el porcentaje que se explica “ y ” mediante los datos de “ x ”.  En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, esta muy cerca de 1 y que el porcentaje de datos que explican a “ y “ es (0.65638606)2= 0.430842 o sea el 43.08 %

En el caso de que fueran datos agrupados tendremos lo siguiente:

Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al menos una calculadora con regresión para datos agrupados.

De cualquier forma aquí tambien estamos evaluando numéricamente si existe relación entre dos variables y lo haremos con la siguiente ecuación.

2

11

22

11

2

1 111*

k

iiy

k

iiy

l

iix

l

iix

l

i

k

iiy

l

iixii

k

j

yfyfnxfxfn

yfxfyxfnr

En donde podemos encontrar k como el número de clases para la variable "y" y l para el número de clases de "x".

También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que representan las frecuencias de cada una de las variables.

Para entender el uso de esta formula usaremos un ejemplo:

Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "día anáhuac"

La sustitución de la fórmula es la siguiente:

Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlación es negativo y lo que debemos pensar es que la relación de las variables involucradas en el calculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:

Correlación no lineal

Si X y Y son las dos variables en cuestión, un diagrama de dispersión muestra la localización de los puntos (X,Y) sobre un sistema rectangular de coordenadas. Si todos los puntos del diagrama de dispersión parecen estar en una recta la correlación se llama lineal. En tales casos, una ecuación lineal es adecuada a efectos de regresión o estimación

0.5 1 1.5 2 2.5 3 3.50

2

4

6

a) Correlación lineal positiva

0 0.5 1 1.5 2 2.5 3 3.5 40

0.51

1.52

2.53

3.5

b) Correlación lineal negativa

Coeficiente de correlación

El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables.

El coeficiente de correlación lineal se expresa mediante la letra r.

COEFICIENTE DE CORRELACIÓN

El Coeficiente de Correlación es un valor cuantitativo de la relación entre dos o más variables.

La coeficiente de correlación puede variar desde -1.00 hasta 1.00.La correlación de proporcionalidad directa o positiva se establece con los valores+1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe relación entre las variables cuando el coeficiente es de 0.00.

PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1. −1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables

EJEMPLO:

EJERCICIO

Haga clic en el icono para agregar una imagen

EJEMPLO: Las notas de 12 alumnos de una clase

en Matemáticas y Física son las siguientes:

Mate

máti

cas

2 3 4 4 5 6 6 7 7 8 10 10

Físic

a1 3 2 4 4 4 6 4 6 7 9 10

Hallar el coeficiente de correlación de la distribución e interpretarlo.

x i y i x i ·y i x i2 y i

2

2 1 2 4 1

3 3 9 9 9

4 2 8 16 4

4 4 16 16 16

5 4 20 25 16

6 4 24 36 16

6 6 36 36 36

7 4 28 49 16

7 6 42 49 36

8 7 56 64 49

10 9 90 100 81

10 10 100 100 100

72 60 431 504 380

1º Hallamos las medias aritméticas.

2º Calculamos la covarianza.

3º Calculamos las desviaciones típicas.

4º Aplicamos la fórmula del coeficiente de correlación lineal.

Al ser el coeficiente de correlación positivo, la correlación es directa.

Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.

Los valores de dos variables y y x se distribuyen según la tabla siguiente:

Y/X 0 2 4

1 2 1 3

2 1 4 2

3 2 5 0

Determinar el coeficiente de correlación.

Convertimos la tabla de doble entrada en tabla simple.xi yi fi

xi · fi

xi2 · fi

yi · fi

yi2

· fi

xi · yi · fi

0 1 2 0 0 2 2 0

0 2 1 0 0 2 4 0

0 3 2 0 0 6 18 0

2 1 1 2 4 1 1 2

2 2 4 8 16 8 16 16

2 3 5 10 20 15 45 30

4 1 3 12 48 3 3 12

4 2 2 8 32 4 8 16

20 40 120 41 97 76

Al ser el coeficiente de correlación negativo, la correlación es inversa. Como coeficiente de correlación está muy próximo a 0 la correlación es muy débil