Tema 1: Exploración de datos - III · 2019-09-10 · Tema 1: Exploración de datos - III...

16
Tema 1: Exploración de datos - III Biología sanitaria - UAH Marcos Marvá Ruiz Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 1 / 16

Transcript of Tema 1: Exploración de datos - III · 2019-09-10 · Tema 1: Exploración de datos - III...

Tema 1: Exploración de datos - III

Biología sanitaria - UAH

Marcos Marvá Ruiz

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 1 / 16

Medidas de posición (variables cuantitativas y cualitativas ordenadas)

Dividen un conjunto de datos ordenado (de menor a mayor) en grupos con el mismonúmero de observaciones

Mediana: valor de la variable que, una vez ordenados de menor a mayor, deja la mitad delos datos por debajo de sí:

Si hay una cantidad impar de datos, se toma el valor del centroSi hay una cantidad par de datos, se toma la media entre los dos centrales.

Ejemplo: La mediana de los valores

valores = c(5, 7, 8, 12, 13)

es

median(valores)

## [1] 8

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 2 / 16

La mediana es robusta frente a (unos pocos) valores extremos.

Ejemplo: La mediana de {1, 4, 5, 8, 270} vale 5

Ejemplo: En ambos casos {8, 9, 9, 9, 10, 10} {1, 9, 9, 9, 10, 10} la mediana vale 9

Ejemplo: Muchas veces se prefiere la mediana a la media para datos asimétricos

0 2 4 6 8

En naranja la mediana, en gris la media.

median(muestra)

## [1] 0.5174484

mean(muestra)

## [1] 1.561014

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 3 / 16

Medidas de posición

Generalizaciones de la idea de mediana: tras ordenar los datos de menor a mayor:Los cuartiles Q1, Q2=mediana, Q3, Q4: dividen la muestra en 4 partes iguales.Los deciles d1, d2,..., d10: dividen la muestra en 10 partes iguales.Hay percentiles p1, p2,..., p100, y cuantiles

Ejemplo: Considera variable ‘glucosa’ del fichero de datos de las indias Pima

library(MASS); glucosa = Pima.te$gluquantile(glucosa)

## 0% 25% 50% 75% 100%## 65.00 96.00 112.00 136.25 197.00

quantile(glucosa, probs = c(0:10)/10)

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%## 65.0 85.2 93.0 100.0 105.4 112.0 121.6 129.0 146.0 169.9 197.0

Muchos algoritmos de cálculo diferentes (¡no es una cuenta!)Interpretación

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 4 / 16

Ejemplo: Muchas veces se prefiere la mediana a la media para datos asimétricos

0 2 4 6 8

En naranja la mediana, en gris la media.

median(muestra)

## [1] 0.5174484

mean(muestra)

## [1] 1.561014

ecdf(x = muestra)(mean(muestra)) # cuantil de la media

## [1] 0.7478261

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 5 / 16

Medidas de posiciónEjemplo: Tablas de percentiles

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 6 / 16

Dada una variable cuantiativa discreta o continua agrupada,la frecuencia acumulada de cada valor/clase es la suma de las frecuencias de losvalores/clases menores o iguales que dicho valor.la frecuencia relativa acumulada es el equivalente para frecuencias relativas.

Ejemplo: muestra de 100 valores entre 1 y 4

Valor 1 2 3 4Frecuencia 22 25 28 25

Frec acumulada 22 47 75 100

1 2 3 4

Frecuencias absolutas

040

80

1 2 3 4

Frecuencias absolutas acumuladas

040

80

Análogo para frecuencias relativas

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 7 / 16

Medidas de posición y frecuencias acumuladasEjemplo: Considera algunas variables del fichero de datos BreastCancer

bC = read.table(file = "./datos/BreastCancer2.csv", header = TRUE, sep = ",")

Cl.thickness Cell.size Cell.shape Normal.nucleoli Mitoses Class10 4 2 1 1 1 benign11 1 1 1 1 1 benign12 2 1 1 1 1 benign13 5 3 3 4 1 malignant14 1 1 1 1 1 benign15 8 7 5 5 4 malignant16 7 4 6 3 1 malignant

Cada variable toma valores del 1 al 10

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 8 / 16

Ejemplo: Frecuencias relativas acumuladas y cuantiles.

Tabla de los valores de la variable Cl.thickness:

Valor Frec.Absoluta Frec.Relativa Frec.Acumulada Frec.Rel.Acumulada1 139 0.204 139 0.2042 50 0.073 189 0.2773 104 0.152 293 0.4294 79 0.116 372 0.5455 128 0.187 500 0.7326 33 0.048 533 0.7807 23 0.034 556 0.8148 44 0.064 600 0.8789 14 0.021 614 0.899

10 69 0.101 683 1.000

El valor Cl.thickness = 4 se corresponde con el pecentil 54.5

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 9 / 16

Medidas de posición Limitaciones

Efecto de los valores repetidos: muestra de 100 valores entre 1 y 4

Valor 1 2 3 4Frecuencia 22 25 28 25

Frec acumulada 22 47 75 100

Cuartiles

## 0% 25% 50% 75% 100%## 1.00 2.00 3.00 3.25 4.00

Deciles

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%## 1 1 1 2 2 3 3 3 4 4 4

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 10 / 16

Medidas de posición Limitaciones

Efecto de muestras pequeñas

muestra9 = c(25, 48, 56, 65, 66, 71, 78, 84, 97)quantile(muestra9, (0:10)/10)

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%## 25.0 43.4 52.8 59.6 65.2 66.0 70.0 75.2 80.4 86.6 97.0

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 11 / 16

Medidas de posición y el diagrama de caja y bigotesRecorrido intercuartílico: IQR = Q3-Q1

Se representan (ver script):

Los cuartiles.Valores atípicos:

I menores que Q1-1.5*IQRI mayores que Q3+1.5*IQR

Bigotes desdeI Q1 hasta el menor valor no atípicoI Q3 hasta el mayor valor no atípico

Ejemplo: dados los valores {3, 7.25, 12, 13, 14, 15, 16, 16, 16, 19, 25}

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 12 / 16

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 13 / 16

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 14 / 16

Más allá del boxplotEl boxplot “oculta” información sobre la distribución de los datos

muestra1 muestra2

7080

9010

0

Glucosa en sangre

mg/

ml

Muestra 1

mydata$muestra1F

requ

ency

70 80 90 100

05

1015

20

Muestra 2

mydata$muestra2

Fre

quen

cy

70 80 90 100

05

1015

20

El violinplot combina un boxplot con la curva de densidad:

7080

9010

0

7080

9010

0

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 15 / 16

Usos

La media se prefiere cuando la distribución es unimodal y simétricaI Tiene asociada la desviación típica muestralI Sensible a valores extremos

La mediana se prefiere cuando la distribución de datos es unimodal y asimétricaI Tiene asociado el recorrido intercuartílicoI Se calcula con algoritmo, no mediante una fórmula

La moda se reserva para datos multimodalesI Se le puede asociar el recorrido

Gráficos que inducen a error: aquí, aquí

Consejos para presentar gráficos: aquí

Biología sanitaria - UAH Tema 1: Exploración de datos - III Marcos Marvá Ruiz 16 / 16