Seminario VI: Análisis
exploratorio de datos.
BEATRIZ ROJAS JIMÉNEZ1º ENFERMERÍA VIRGEN DEL ROCÍO; SUBGRUPO 16
CURSO: 2015/16
Introducción
En este seminario vamos a trabajar con R Commander la primera parte de los análisis estadísticos: los análisis descriptivos o exploratorios.
Primer ejercicio:
Selecciona dos variables cualitativas-factor del fichero “activossalud.rdata”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
Antes de comenzar con el ejercicio debemos: ABRIR R JUNTO A R COMMANDER Y ESPECIFICAR EL DIRECTORIO DE TRABAJO.Fichero Cambiar directorio de trabajo… Elegir carpeta
CARGAR LOS DATOS CON LOS QUE VAMOS A TRABAJAR:Datos Cargar conjunto de datos… Elegir archivo [activossalud(1)]
1) Comenzamos con el primer ejercicio: primero debemos buscar las distribuciones de los datosEstadísticos Resúmenes Distribución de frecuencias… elegir las dos variables que utilizaremos (edad y botellón)
2) Nos aparece la tabla de frecuencias de las variables botellón y edad, vamos a interpretarlas.
BOTELLÓN EDAD
Beben solo 3 personas a diario (1,05%).
El 38,41% de las personas del estudio tienen 18 años (111 personas).
Solo los fines de semana beben 90 personas (31,58%).
Entre 21 – 22 años hay el 21,11% (61 personas).
Nunca beben 51 personas (17,89 %)
El 10,03 % de los estudiados tenían más de 25 años (29 personas).
Segundo ejercicio:
Selecciona dos variables numéricas del fichero “activossalud.rdata”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.
1) Buscamos la tabla de frecuencias de datos cuantitativos.Estadística Resúmenes Resúmenes numéricos
2) Elegimos las variables que queremos describir de la tabla de frecuencias (altura y peso).
En estadísticos podemos seleccionar las medidas que queremos.
3) Describimos las dos variables:
ALTURA (metros) PESO (kg)La mediana coincide con el segundo cuartil (Q2) y sería 1,655.
La mediana coincidirá con Q2 y sería 60.
Sería una distribución asimétrica ya que la media no coincide con la mediana (1,667 ≠ 1,655).
Es una distribución asimétrica porque la media y la mediana no coinciden (62,75571 ≠ 60)
Tiene una desviación típica (sd) de 0,0807… Tiene una desviación típica de 12,6598…La muestra es de 290 individuos de los cuales, solo 1 no ha contestado.
La muestra consta de 275 individuos de los cuales, 16 no han constestado.
Rango intercuartílico (IQR) = 0,12Primer cuartil (Q1) = 1,6Tercer cuartil (Q3) = 1,72Altura máxima = 2 metrosAltura mínima = 1,46 metros
Rango intercuartílico (IQR) = 14Primer cuartil (Q1) = 54Tercer cuartil (Q3) = 68Peso Máximo = 130 KgPeso Mínimo = 38 Kg
Tercer ejercicio:
Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.rdata”, describe e interpreta la distribución los mismos.
GRÁFICO DE SECTORESGráficas Gráfica de sectores… Elegimos la variable (botellón)
a diario
solo los fines de semana2 o 3 veces a la semana
2 o 3 veces al mes
Algunas veces anual
Nunca
botellon
De esta muestra podemos sacar varias conclusiones:
• La mayoría de la muestra bebo sólo los fines de semana.
• Una mínima parte de la muestra bebe todos los días.
• Existe un gran número de la muestra que no bebe nunca.
DIAGRAMA DE BARRASGráficas Gráficas de barras Elegir varible (cerveza)
De la variable de cerveza podemos destacar que:• El primer hecho más
representativo es que una parte muy representativa de la muestra nunca bebe cerveza.
• Y el segundo, es que una mínima parte de la muestra bebe a diario cerveza.
diario 2 o 3 veces semana alguna vez nunca
cervezaFr
eque
ncy
020
4060
8010
0
HISTOGRAMAGráficas Histograma Elegir variable (altura)
altura
frequ
ency
1.5 1.6 1.7 1.8 1.9 2.0
010
2030
4050
6070
De esta variable de dulces podemos sacar varias conclusiones:• Es una distribución asimétrica, un poco
sesgada hacia la izquierda.• La altura más representativa se encuentra
entre 1,6 y 1,7 metros.• Existen pocos individuos que midan menos
de 1,5 metros y más de 1,9 metros-
DIAGRAMA DE CAJASGráficas Diagrama de cajas elegir variable (peso)
4060
8010
012
0
peso
103152
158
183193
199
259
266
De la variable peso podemos destacar que:• El peso máximo está alrededor de
90 Kg y el mínimo en 40 Kg.• La mediana se encontraría en 60.
Esta correspondería con Q2.• Q1 = 65• Q3 = 55• Las observaciones aberrantes o
datos atípicos serían todos los que se encuentran fuera de la caja.