Seminario 6

16
Seminario 6 Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Transcript of Seminario 6

Page 1: Seminario 6

Seminario 6Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Page 2: Seminario 6

Ejercicio 1:Selecciona dos variables

cualitativas-factor del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.

Page 3: Seminario 6

1. Antes que nada, debemos cargar el conjunto de datos “activossalud” a R commander.

Page 4: Seminario 6
Page 5: Seminario 6

2. Nos piden la distribución de frecuencias de dos variables, por tanto, le damos a “estadísticos”->”resúmenes”->”distribución de frecuencias” y seleccionamos las variables que queremos.

Page 6: Seminario 6

Seleccionamos las variables para ver las frecuencias. Por ejemplo, queremos ver si el sexo ifluye en el nivel de estudios. Comparamos las frecuencias de estudiospadres y estudiosmadres.

Page 7: Seminario 6

Con respecto al nivel de estudios de las madres, podemos ver que aproximadamente el 50% de las mismas son analfabetas o solo poseen estudios primarios. Por otro lado, los porcentajes de estudios de bachillerato y universitarios están prácticamente igualados siendo del 29% y 24% respectivamente.

Sin embargo, si comparamos los resultados con los de los padres, vemos que el porcentaje de hombres que poseen estudios de bachillerato o universitario es ligeramente superior al de las madres (33% y 29% respectivamente) y que por el contrario, el porcentaje de hombres que no poseen o solo poseen estudios primarios, es mucho más inferior que el de las mujeres (38% aprox.)

En definitiva, podría decirse que el nivel de estudios de los padres de los estudiantes es ligeramente más alto que el de las madres.

¡OJO!: Hemos comparado fijándonos en los porcentajes, ya que no podemos con la frecuencia absoluta porque el tamaño de la muestra es diferente para hombres y mujeres.

Page 8: Seminario 6

Ejercicio 2:Selecciona dos variables

numéricas del fichero “activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.

Ahora tenemos que comparar dos variables cuantitativas, por lo que no nos servirán las tablas de frecuencias porque nos saldrían valores que apenas se repiten y no nos podrá resumir la información. Para ello usaremos medidas de tendencia central, dispersión y posición. En este caso, compararemos las variables “altura” y peso.

Page 9: Seminario 6

1

2

En datos, seleccionamos la variable “altura”. A continuación, nos vamos a estadísticos y seleccionamos los que queremos saber; en este caso utilizaremos: media, desviación típica y los cuartiles.

Page 10: Seminario 6

Nos saldrá en la pantalla los datos de la siguiente forma:

Los datos nos dicen que la altura de los estudiantes del primer año de enfermería es de un valor medio de 1,67 metros. La desviación típica es de 0,080, lo cual nos indica que los valores no están muy dispersos (no están muy alejados de la media), por tanto, podría decirse que la población estudiada es prácticamente homogénea. Respecto a los cuartiles: Vemos que el valor mínimo es de 1,46m y que por debajo de este no hay ningún otro (0%). El 25% o menos de los estudiantes, miden 1,6m (Primer cuartil) y el 50% de los mismos, o menos, mide 1,655m (Segundo cuartil). El 75% o menos de los alumnos mide 1,72m (Tercer cuartil). Finalmente, el valor máximo es de 2m lo que nos indica que por encima de este valor no hay ningún otro, es decir, menos del 100% de los estudiantes mide 2 metros. (100% o cuarto cuartil). En definitiva, vemos que es un grupo más menos homogéneo porque los valores no están muy alejados de la media. Además, hay un alumno que no ha contestado a la pregunta (NA=no ausente)

Page 11: Seminario 6

A continuación, haremos lo mismo que con la altura pero con el peso:

Los datos nos dicen que el peso de los estudiantes del primer curso de enfermería es de un valor medio de 62,76kg. La desviación típica es de 12,66 lo que nos indica que los valores de la muestra están muy dispersos y que hay variabilidad entre ellos. Están por tanto, muy alejados de la media. Con respecto a los cuartiles, vemos que el valor mínimo es de 38 kg (0%). Es decir, no hay ningún alumno que pese menos de 38 kg. Por el contrario, vemos que el valor máximo es de 130 kg (100%) por lo que no habrá ningún estudiante que pese más de esto. El 25% o menos de los estudiantes pesa 54 kg (primer cuartil); el 50% o menos de los estudiantes pesa 60 kg (segundo cuartil); y el 75% o menos pesa 68 kg (tercer cuartil); Por último, menos del 100% pesa 130kg. (Cuarto cuartil).Además, hay 16 personas que no han respondido a la pregunta (NA).

Page 12: Seminario 6

Ejercicio 3:Debes realizar al menos un

gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.

Page 13: Seminario 6

Gráfico de sectores Es muy útil para

representar variables cualitativas, especialmente si son dos o tres categorías ya que con muchas puede resultar confuso.

•El 75% de los estudiantes del primer curso de enfermería de la Universidad de Sevilla, no trabaja. El 25% restante de los estudiantes, sí trabaja.

Page 14: Seminario 6

Gráfico de barras

Los gráficos de barras se utilizan para variables cualitativas. Son muy útiles cuando hay más de dos o tres categorías. En este caso analizaremos la frecuencia con la que toman cerveza los estudiantes del primer curso de enfermería de la Universidad de Sevilla. Un 5% aprox ha contestado que bebe cerveza a diario. Un 60% de los estudiantes solo bebe los fines de semana.Por otro lado, un 25% aprox ha respondido que la toman 2 o 3 veces a la semana, y un 40% lo hace 2 o 3 veces al mes. Poco menos del 60% lo hace solo alguna vez y más del 100% nunca toma cerveza.

Page 15: Seminario 6

Histograma de frecuencias Se utiliza en variables cuantitativas, en las que los valores

se hallan muy próximos entre sí.

En este caso, vemos que el número de personas (frecuencia) con una altura inferior a 1,5m es muy baja aprox. 1% e igualmente ocurre con 1,9m. Los valores están más concentrados entre 1,55 y 1,75 m, es decir, son los que más se repiten.

Page 16: Seminario 6

Diagrama de cajaEl 25% de los alumnos tienen una puntuación inferior o igual a 4. El 50% de los alumnos tienen una puntuación entre 4 y 5, siendo 5 el valor medio de comunicación en pares. El 75% de los valores se encuentran entre 5 y 6. Por último, el 100% de los valores se encuentra entre 9 o menos. Hay dos valores atípicos de 103 y 97. Por tanto, los valores están muy concentrados entre 4 y 6.