Correlaciones

17
Entendiendo la teoría. Correlaciones Ana Moreno Román Subgrupo 7

Transcript of Correlaciones

Page 1: Correlaciones

Entendiendo la teoría. Correlaciones

Ana Moreno Román Subgrupo 7

Page 2: Correlaciones

Variables cuantitativas: talla y peso-H1: existe relación entre peso y talla.-H0: no existe relación.

Hay que considerar que aceptamos H1 cuando, p<0.05=

error tipo 1. 1. Para comprobar ambas hipótesis utilizamos la R de PearsonR de Pearson, pero poder utilizarla, antes tenemos que probar que se cumplen las dos asunciones.

2. Primera asunciónPrimera asunción: Relación lineal con gráficos de dispersión. En este caso, los datos de la gráfica se aproximan a una línea, por tanto, la primera asunción la aceptamos.

Page 3: Correlaciones

Variables cuantitativas: talla y peso

3. Para comprobar la segunda asunción, hay que evaluar la normalidadnormalidad de nuestros datos.Para explorar la normalidad, se utilizan gráficos, por ejemplo el Histograma o el Diagrama de cajas, o mediante pruebas, las cuales pueden ser: La de Kolmogorov-Smirnov o Shapiro-Wilk. Cuando la muestra es mayor de 30 podemos utilizar la prueba de Kolmogorov.

Hay que plantear una hipótesishipótesis:

-H1: existen diferencias. Nuestra distribución es distinta a la normal.-H0: no existen diferencias. Nuestra distribución es igual a la normal

Page 4: Correlaciones

Variables cuantitativas: talla y peso

Si en la tabla miramos “SIG = p”, como esta en la prueba de Kolmogorov-Smirnov, es menor a 0.05, en teoría, aceptamos la H1, algo que no es normal ya que nosotros buscamos lo contrario, refutarla. Por tanto, vemos si mas o menos las gráficas son simétricas. Y fijándonos en los gráficos comprobamos que si hay una distribución normal con un leve incumplimiento. Además, había que tener en cuenta la n, y a n grande más se acercan nuestros datos a la población. En nuestro caso, la n= 500 individuos, por lo tanto diríamos que nuestro datos concuerdan, en su gran mayoría, con la normalidad.

Ahora ya si que podemos hacer la R de Pearson porque la distribución es normal y la relación es lineal, es decir, se cumplen las dos asunciones.

Page 5: Correlaciones

Normalidad del peso

Page 6: Correlaciones

Normalidad de la talla

Page 7: Correlaciones

Variables cuantitativas: talla y peso

4. Para ver si existe relación entre las variables, nos fijamos en la correlación. Mientras más se acerque al 1, mayor es la correlación, fuerza de la relación entre las variables.En nuestro caso, 0.646 también es un indicador de una alta relación, se acerca al uno. A más peso, más talla. La correlación es alta >0.5. Por tanto, sí podemos aceptar la H1, porque además la p<0.05.

Cuando el valor de la relación es: >0.1 es baja. >0.3 es media. >0.5 es alta.

Page 8: Correlaciones

Variables cuantitativas: talla y peso

- En este ejercicio hemos utilizamos la R de Pearson, pero también podríamos usar la Tau de Kendall y la Rho de Spearman que son pruebas no no paramétricasparamétricas. - Se dice que las pruebas no paramétricas son más conservadoras, es decir, es mas difícil rechazar la H0 en la Tau de Kendall, por ejemplo. Spearman, también, es mas potente encuentra las diferencias con más facilidad.

Page 9: Correlaciones

Variables cualitativas o categóricas: sexo y actividad física

Vemos la relación que existe entre el sexo (variable cualitativa, dicotómica, binaria, por ello consideramos que es una correlación biserial puntual) y la actividad física, que es ordinal, pero como se estudian 7 posibilidades, es cuantitativa (menos de 5 puntos se considera ordinal). Hipótesis:

- H1: existe relación entre sexo y actividad física.- H0: no existe relación.

Como es una muestra grande asumimos que los datos presentan una distribución normal. Por lo tanto, se cumplen las dos asunciones.

Page 10: Correlaciones

Interpretamos el signo (-), fijándonos en nuestra base de datos. Podemos observar que 1 es ser chico, y 2 es ser chica. Luego cuando pasamos de chico, que en este caso es 1, y chica, que es 2, se reduce la frecuencia de actividad física, ya que hemos dicho que a más, menos.

Variables cualitativas o categóricas: sexo y actividad física

Aceptamos H1 porque p<0.05. Por lo tanto existe relación entre ambas variables, a más, menos. . Sin embargo, la correlación es media media ya que r =0.303.

Page 11: Correlaciones

Variables categóricas y variables categóricas: sexo y consumo de

tabacoA continuación vamos a ver las relaciones entre variables categóricas y variables categóricas. Este tipo de correlaciones se analizan utilizando las tablas de contingencia. Usamos el coeficiente de Phi/ Coeficiente de Contingencia y la V de Cramer.

Coeficiente de Phi: Lo utilizamos para la relación de dos variables categóricas dicotómicas. Ej.: sexo y consumo de tabaco. Establecemos las hipótesis:

- H1: existe relación entre el sexo y el consumo de tabaco.- H0: no existe diferencias.

Page 12: Correlaciones

Variables categóricas y variables categóricas: sexo y consumo de

tabaco

El valor de Phi es bajo, está cerca de 0,019, además P (Sig.) es 0.648, como está por encima de 0.5, rechazamos la hipótesis alternativa. Por tanto, no existe relación entre las variables.

Page 13: Correlaciones

Variables categóricas y variables categóricas: sexo y consumo de

tabacoEl recuento esperado es el que se espera cuando no hay diferencias. Nosotros partimos de un modelo en el que no existen diferencias, que es el recuento esperado. La relación entre el recuento esperado y recuento observado, nos da una idea de si es cierta o no la relación entre las dos variables. En la tabla de frecuencias se parte de un modelo en el que no hay diferencia de consumo de tabaco en función del sexo. Ello lo comparamos con lo observado, se observó que 149 chicos no fumaban, y con lo esperado, se esperaba que 146 chicos no fumaran. Hay una pequeña diferencia. En chicas se esperaba que 153 no fumaran, y no fuman 151 por lo observado, hay una pequeña diferencia también. Por tanto, podemos decir que las variables no tiene relación ya que la diferencia que se aprecia entre los datos observados y los esperados, es muy pequeña.

Page 14: Correlaciones

Ahora vamos a ver la relación entre variables nominales y nominales. Utilizaremos el Coeficiente de Contingencia y V de Cramer.

- Variables a relacionar:

Grado apgar (funcionamiento de la familia). Esta tiene tres categorías: Funcional, disfuncional leve y disfuncional grave. Es una variable nominal. La vamos a relacionar con la frecuencia de consumo de tabaco: No fumo, menos de una vez a la semana, al menos una vez a la semana, todos los días. Variable nominal.

Variables nominales y variables nominales: funcionamiento familiar y

consumo de tabaco

Page 15: Correlaciones

Variables nominales y variables nominales: funcionamiento familiar y

consumo de tabaco

La prueba Phi la desechamos porque no es dicotómica, no es un tabla de 2x2, las variables no son binarias. Nos fijamos en el coeficiente de contingencia porque es el que tiene una correlación más alta (0.195). Tiene una correlación entre baja y media. P (Sig.) es 0.001, por lo que es menor que 0.5, es significativa, aceptamos la hipótesis alternativa, por tanto, existe relación entre el grado de funcionamiento familiar (APGAR) y el consumo de tabaco. La interpretación (signo positivo) es a más, más. Pero como estamos ante variables nominales, es necesario analizar la tabla. Comparamos las frecuencias esperadas con las observadas.

Page 16: Correlaciones

Variables nominales y variables nominales: funcionamiento familiar y

consumo de tabaco

Page 17: Correlaciones

Las esperadas parten de un modelo que no tiene diferencias y nosotros ya hemos observado (en la tabla) que sí existen tales diferencias. Por ejemplo, se esperaba que 1,5 fumaran todos los días y fumaron 5.

La frecuencia observada es mayor a la esperada en aquellos participantes con una disfunción familiar grave que además fumaban todos los días.

Variables nominales y variables nominales: funcionamiento familiar y

consumo de tabaco