Seminario 8

13
Seminario 8 Análisis bivariado con variables cuantitativas. Normalidad y linealidad. Diagrama de dispersión. Coeficientes de correlación de Pearson y Rho de Spearman.

Transcript of Seminario 8

Page 1: Seminario 8

Seminario 8

Análisis bivariado con variables cuantitativas. Normalidad y linealidad.

Diagrama de dispersión. Coeficientes de correlación de Pearson y Rho de Spearman.

Page 2: Seminario 8

EJERCICIO

Determina si existe relación entre las variables altura y peso del fichero de datos “activos en salud” y si existe determina cómo de fuerte

es.

Page 3: Seminario 8

Abrimos R Commander y cargamos el conjunto de datos “Activos en salud” , vamos a

representar como se relacionan dos variables cuantitativas, peso y altura.

Para ello, en primer lugar tenemos que comprobar si siguen o no una distribución

normal, ya que dependiendo de ello utilizaremos distintos coeficientes de correlación, el de

Pearson, si la distribución sigue la normalidad o Rho de Spearman que se emplea cuando la

distribución no sigue la normalidad.

Page 4: Seminario 8

En primer lugar, representamos la relación que se da entre estas dos variables a través de un diagrama de dispersión de R Commander

Mirando el gráfico a simple vista , aunque la muestra es lo suficientemente grande, no podemos apreciar si existe o no relación entre las dos variables. Para ello, lo comprobamos gráficamente y a través del test de Shapiro.

Page 5: Seminario 8

Comprobamos la normalidad de los datos a través de representaciones gráficas, con un gráfico Q-Q, histograma, y además con el test de Shapiro• Gráfico Q-Q (Gráfica de comparación de cuantiles)

Page 6: Seminario 8

Altura Peso

En ambas gráficas existen muchos puntos que se salen de la línea, por lo tanto, ninguna de las dos variablessiguen una distribución normal

Page 7: Seminario 8

A continuación lo comprobamos con la representación en histogramas:

AlturaPeso

Para que las variables siguiesen una distribución normal, la gráfica tendría que ser simétrica a un lado y otro de la mediana, que en ambos casos se encuentra desplazada a la izquierda, y que confirman, por tanto, que ninguna de las variables siguen una distribución normal.

Page 8: Seminario 8

Con el gráfico box-plot:

Si las variables siguiesen una distribución normal, media, mediana y moda deberían coincidir y colocarse en el lugar central de la caja, a la misma distancia del rango superior e inferior, en la gráfica del peso, esto claramente no ocurre así, sin embargo, con la gráfica de la altura podríamos tener algunas dudas, puesto que la mediana parece situarse más o menos a la misma distancia de los rangos, para confirmarlo, hacemos un test de contraste de hipótesis, utilizando el test de Shapiro.

Page 9: Seminario 8

Test de ShapiroEn primer lugar nos planteamos las hipótesis:

H0: La variable altura sigue una distribución normal H1: La variable altura no sigue una distribución

normal

Page 10: Seminario 8

Como podemos ver, p-valor es 4,686e-0,6 , y nos indica el error que cometeríamos siescogiésemos la hipótesis nula, como este valor es menor que el margen de error que nosotros habíamos aceptado (0,05) aceptamos la hipótesis nula, de manera que la variable altura no sigue una distribución normal.

Hacemos lo mismo con la variable peso:

Ocurre lo mismo que conLa variable altura, el error que cometeríamos si aceptamos la hipótesis nula(p-valor) es menorque el que habíamos asumido y, por lo tanto,La aceptamos. La variable peso tampocoSigue una distribución normal.

Page 11: Seminario 8

Como las variables no siguen una distribución normal, utilizaremos el test de Spearman.

Establecemos las hipótesis:H0: No existe correlación entre peso y altura (rho ≠0)

H1: Existe correlación entre peso y altura. (rho=0)

Page 12: Seminario 8
Page 13: Seminario 8

Como rho es distinto de 0, podemos afirmar que existe correlación entre las variables peso y altura, es decir,

aceptamos la hipótesis alternativa. Además esta correlación es fuerte puesto que se aproxima más al valor 1, que al 0.