UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel...

12
UNIDAD 3: Medidas estadísticas Las medidas estadísticas o parámetros estadísticos son valores representativos de una colección de datos y que resumen en unos pocos valores la información del total de datos. Estas medidas estadísticas nos darán información sobre la situación, dispersión y otros patrones de comportamiento de los datos, de manera que sea posible captar rápidamente la estructura de los mismos y también la comparación entre distintos conjuntos de datos. Las más importantes son: las de tendencia central o centralización, que indican el valor medio de los datos, las de dispersión que miden la variabilidad de los datos respecto a los parámetros de centralización y las de forma: simetría y apuntamiento, que nos indican la forma de distribución de los datos. Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas. 3.1. Medidas de centralización Nos dan los valores centrales de los datos obtenidos. Las más usuales son: la media, la moda y la mediana. Media ( x ) Es el resultado de sumar el valor de la variable de todos los individuos y dividir por el total de individuos. N X x n i i = = 1 Supondremos que toma la variable X toma k valores distintos k x x x x ..., , , 3 2 1 que se repiten el número de veces que indica la frecuencia relativa i f , sustituyendo en la fórmula, la expresión de la media quedaría como: N f x f f x x i i i i i Σ = Σ Σ = Para datos agrupados el valor de i x será el de la marca de clase.

Transcript of UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel...

Page 1: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

UNIDAD 3: Medidas estadísticas

Las medidas estadísticas o parámetros estadísticos son valores representativos de una colección de datos y que resumen en unos pocos valores la información del total de datos. Estas medidas estadísticas nos darán información sobre la situación, dispersión y otros patrones de comportamiento de los datos, de manera que sea posible captar rápidamente la estructura de los mismos y también la comparación entre distintos conjuntos de datos. Las más importantes son: las de tendencia central o centralización, que indican el valor medio de los datos, las de dispersión que miden la variabilidad de los datos respecto a los parámetros de centralización y las de forma: simetría y apuntamiento, que nos indican la forma de distribución de los datos. Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas. 3.1. Medidas de centralización Nos dan los valores centrales de los datos obtenidos. Las más usuales son: la media, la moda y la mediana.

• Media ( x ) Es el resultado de sumar el valor de la variable de todos los individuos y dividir por el total de individuos.

N

X

x

n

i

i∑== 1

Supondremos que toma la variable X toma k valores distintos

kxxxx ...,,, 321 que se repiten el número de veces que indica la

frecuencia relativa if , sustituyendo en la fórmula, la expresión de la media quedaría como:

N

fx

f

fxx ii

i

ii ⋅Σ=

Σ

⋅Σ=

Para datos agrupados el valor de ix será el de la marca de clase.

Page 2: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

Ejemplo. Variable discreta

Vamos a calcular la media de edad de los alumnos entrevistados. Añadimos a la tabla de frecuencias absolutas la columna con el producto de cada valor de la

varaible por su frecuencia ii fx ⋅

33,14100

1433==

Σ

⋅Σ=

i

ii

f

fxx

La media de edad de los alumnos

del centro entrevistados es de 14,33

años.

Valores Frecuencia absoluta ii fx ⋅

12 9 108 13 25 325 14 27 378 15 16 240 16 12 192 17 8 136 18 3 54

TOTAL N=100 1433

Características de la media:

- La media aritmética sólo se puede calcular para variables numéricas.

- Un conjunto de datos numéricos sólo tiene una media. - La media es un parámetro sensible a la presencia de valores

muy separados del resto de datos.

Por ejemplo, la serie de valores, 1, 1, 2, 3, 3, 5, 7, 8, 8, 50 posee un valor extremo que es el 50. La media aritmética calculada con los 9 primeros valores es 4.2, lo que constituye un valor central razonable. Por el contrario, si se considera también el último valor, la media aritmética resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo.

• Moda (Mo) La moda es el valor más frecuente de la variable estadística. La moda, como la media, representa un valor central de la distribución de datos y su determinación visual la podemos obtener a partir de la tabla de frecuencias o de su gráfico, en el caso de ser de columnas corresponde con la columna más alta. Este parámetro se puede calcular para cualquier tipo de variable.

Ejemplo. Variable cualitativa

Podemos identificar la moda de la actividades del tiempo libre

Page 3: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

preferida de los alumnos observando la tabla de frecuencias:

Valores Frecuencia absoluta

Deportes 51 Mantenimiento 8

Música 17 Cine 10

Lectura 6 Otros 5

TOTAL N=97

El conjunto de datos puede ser unimodal (1 moda), bimodal (2 modas) o amodal (sin moda), gráficamente sería:

Para datos agrupados

Para datos agrupados no se puede calcular exactamente el valor de la moda. Sin embargo, se puede estimar utilizando los siguientes pasos:

Para obtener la moda en datos agrupados, se buscará la clase o intervalo que tenga el mayor cociente entre frecuencia y amplitud, es

decir, valor máximo de i

i

ic

fh = .

Tal y como vimos en la construcción de los histogramas, esta clase estará asociada al rectángulo de mayor altura. Si todos los intervalos tienen la misma amplitud, dicho intervalo será el de mayor frecuencia.

1 2 3 4 5 6 7

Unimodal

1 2 3 4 5 6 7

Bimodal

5

8

11

14

17

20

23

26

1 2 3 4 5 6 7

Amodal

Page 4: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

Esta clase o intervalo se denomina intervalo modal, y una vez hallado, se aplica la siguiente expresión derivada del cálculo de proporciones para calcular la moda:

ii cDD

DLMo ⋅

++= − )(

21

11

Donde:

Li − 1 = Límite inferior de la clase modal.

11 −−= ii hhD

12 +−= ii hhD

i

i

ic

fh =

ic = amplitud del intervalo.

if = frecuencia absoluta de la clase modal.

11 +− ii fyf = frecuencia absoluta de la clase inferior y superior

respectivamente.

En el caso de trabajar con intervalos de igual amplitud se puede trabajar directamente con las frecuencias absolutas.

Ejemplo. Para datos agrupados

Vamos a calcular la moda del número de horas semanales que pasan los alumnos del centro anterior viendo la televisión La clase modal es [4,8), la de mayor frecuencia absoluta. Al tratarse de intervalos de igual amplitud podemos sustituir en la fórmula las

Valores Frecuencia absoluta

Frecuencia acumulada

[0,4) 4 4 [4,8) 28 32 [8,12) 21 53 [12,16) 15 68 [16,20) 9 77 [20,24) 5 82

TOTAL N=82

Page 5: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

frecuencias absolutas:

Li − 1 = 4

11 −−= ii ffD =28-4=24

12 +−= ii ffD =28-21=7

ic = amplitud del intervalo=4

1.74724

244 =⋅

++=Mo

Características de la moda: - La moda es de fácil interpretación. - Su cálculo es sencillo para variables discretas y cualitativas

pero la expresión para variables agrupadas se complica. - No intervienen en su determinación todas las observaciones. - Es útil para detectar posibles mezclas de distintas

poblaciones en una misma masa de datos. - Se puede calcular para todo tipo de variable.

• Mediana (Me)

La mediana es el valor de la variable que divide la serie estadística ordenada en dos partes iguales, dejando tantos valores por encima como por debajo y por consiguiente la frecuencia a uno y a otro lado de la mediana también son iguales. Si los n datos no están agrupados y están enumerados del 1 al N el valor de la mediana será:

- Si N es impar, el valor que ocupa el lugar 2

1+N

- Si N es par, la media aritmética de los valores que ocupan el

lugar 2

N y 1

2+

N.

Este procedimiento es útil cuando disponemos de pocos datos, pero cuando el número de estos es elevado es mejor incluir en la tabla de frecuencias las frecuencias acumuladas. Datos no agrupados: La mediana será el primer valor cuya

frecuencia acumulada es 2

NFi ≥ .

Datos agrupados: Se buscará la primera clase cuya frecuencia acumulada supere la mitad de las observaciones. Esta clase se denomina clase mediana y su marca de clase, se podría dar como una

Page 6: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

aproximación de la mediana. Sin embargo podemos obtener un valor más aproximado empleando la fórmula siguiente:

i

i

i

i cf

FN

LMe ⋅−

+=−

1

12

Donde:

Li − 1 = Límite inferior de la clase mediana.

ic = amplitud del intervalo.

if = frecuencia absoluta de la clase mediana.

1−iF = frecuencia absoluta acumulada de la clase inferior a la

clase mediana.

Ejemplo. Variable continua

Vamos a calcular la mediana del número de horas semanales que pasan los alumnos del centro anterior viendo la televisión

412

82= . La primera frecuencia acumulada que supera N/2 es 53, por tanto

la clase mediana es el intervalo [8,12). Para calcular el valor de la mediana aplicamos la fórmula definida:

71.9421

32418 =⋅

−+=Me

Valores Frecuencia absoluta

Frecuencia acumulada

[0,4) 4 4 [4,8) 28 32 [8,12) 21 53 [12,16) 15 68 [16,20) 9 77 [20,24) 5 82

TOTAL N=82

Características de la mediana:

- La mediana es sencilla de calcular y de interpretar. - Por depender de los valores a través de su orden, la

mediana no varía demasiado por los valores extremos, por ello, si nuestros datos contienen valores de este tipo, será preferible usar la mediana en vez de la media aritmética como medida central.

Page 7: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

• Relación entre media, mediana y moda.

Es recomendable comparar los valores obtenidos para la moda, media y mediana, para conocer mejor la distribución de los datos que estamos analizando. Diferencias importantes entre la media y la moda o la media y la mediana indican que la distribución de los datos es asimétrica, y si son iguales o muy cercanos la distribución de los datos será simétrica. Observa los siguientes gráficos:

3.2. Otras medidas. Medidas de posición

Para describir otros aspectos relevantes de la distribución de frecuencia se utilizan las medidas de posición: los cuartiles y los percentiles. Son valores que dividen la distribución en partes iguales:

− Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tecer cuartil.

− Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).

• Cuartiles

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. 321 , QyQQ

determinan los valores correspondientes al 25%, 50% y 75% de los datos. 2Q coincide con la mediana.

Page 8: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

Si tenemos n datos, para hallar el primer cuartil, se ordenan los valores de menor a mayor y a continuación se busca en dicha serie ordenada el primer valor cuyo orden de lugar supere n/4. Puede ocurrir que el valor coincida exactamente con n/4 (sucede cuando n es múltiplo de 4), en tal caso, el primer cuartil se obtiene tomando dicha observación y la siguiente, y calculando su media aritmética, tal y como hacíamos para la mediana. Veamos el siguiente ejemplo.

Ejemplo. Variable discreta

Vamos a calcular el primer y tercer cuartil de la distribución de las edades de los alumnos del centro

1Q � N/4=25 buscamos aquél valor que su frecuencia acumulada sea

mayor que 25, en este caso 1Q =13, es decir el 25% de los datos están

por debajo de esa cantidad.

3Q � 3N/4=75 buscamos aquél valor que su frecuencia acumulada sea

mayor que 75, en este caso 3Q =15, es decir el 75% de los datos están

por debajo de esa cantidad.

Valores Frecuencia absoluta

Frecuencias acumuladas

12 9 9 13 25 34

14 27 61 15 16 77 16 12 89 17 8 97

18 3 100

TOTAL N=100

Para datos agrupados En este caso los cuartiles se buscará la primera clase cuya frecuencia acumulada supere N/4, 2N/4 o 3N/4 de las observaciones, según estemos hallando el primer, segundo o tercer cuartil. La marca de clase de dicho intervalo, se podría dar como una aproximación de la mediana. Sin embargo podemos obtener un valor más aproximado empleando la fórmula siguiente, similar a la empleada para hallar la mediana:

Page 9: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

i

i

i

ik cf

FKN

LQ ⋅−⋅

+=−

1

14

Donde:

K= número del cuartil que queremos hallar

Li − 1 = Límite inferior de la clase del cuartil que queremos hallar.

ic = amplitud del intervalo.

if = frecuencia absoluta de la clase del cuartil.

1−iF = frecuencia absoluta acumulada de la clase inferior a la

clase del cuartil.

• Percentiles Los percentiles son los valores de la variable que dividen a un conjunto de datos ordenados en cien partes iguales. 10021 ..., PPP

determinan los valores correspondientes al 1%, 2%...100% de los datos. 50P coincide con la mediana.

Su cálculo es similar al de los cuartiles, veamos el siguiente ejemplo para datos agrupados

Ejemplo. Variable continua

Vamos a calcular el percentil 25 ( 25P ) del número de horas semanales que pasan los alumnos del centro anterior viendo la televisión. Usamos la frecuencia acumulada en porcentajes para hallar los percentiles.

50,2025100

82=⋅ . La primera frecuencia porcentual que supera 25N/100 es

39,02%, por tanto la clase del percentil 25 es el intervalo [4,8). Para calcular el valor aplicamos la fórmula:

Valores Frecuencia absoluta

Frecuencia acumulada

Porcentajes acumulados

[0,4) 4 4 4,87% [4,8) 28 32 39,02% [8,12) 21 53 64,63% [12,16) 15 68 82,93% [16,20) 9 77 93,90% [20,24) 5 82 100%

TOTAL N=82

Page 10: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

i

i

i

ik cf

FKN

LP ⋅

−⋅

+=−

1

1

100

36,6428

450,20425 =⋅

−+=P

Podemos decir que el 75% de los alumnos ve la televisión más de 6 horas semanales

3.3. Medidas de dispersión

Mediante la media, la mediana y la moda conocemos una parte de la información acerca de las características de los datos, pero para completar esa información necesitaríamos saber si todos los están próximos o no a estas medidas. Para medir esta desviación respecto a los valores centrales utilizamos los parámetros de dispersión.

• Rango (R). Es la diferencia entre el mayor y el menor de los valores que toma la variable. Características del rango:

- El rango es sencillo de calcular y de interpretar. - No es una medida muy significativa.

• Varianza (V) y desviación típica.

La varianza es una medida de dispersión que se basa en la desviación de las observaciones con respecto a la media aritmética, y se denota

por V o 2σ . Para su cálculo seguimos los siguientes pasos: 1) hallamos la «distancia» de cada valor observado con respecto a la

media, xxi −

2) la elevamos al cuadrado ( )2xxi − , con el fin de convertirlas en

positivas;

3) multiplicamos por su frecuencia absoluta ( ) ii fxx ⋅−2

para tener en

cuenta las veces que se repite cada dato, 4) sumamos todos los valores obtenidos hasta ahora para conseguir una medida global 5) dividimos el resultado anterior por N (número de datos), para conocer el valor medio, Con estos pasos llegamos a la expresión:

Page 11: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

( )N

fxxV ii ⋅−Σ

==

2

si desarrollamos el cuadrado de esta expresión, obtenemos:

22

2 xN

fxV ii −

⋅Σ== σ

que es una expresión más sencilla de manejar. Si hallamos la raíz cuadrada de la expresión de la varianza compensamos el cuadrado tomado inicialmente. A este valor se le denomina desviación típica y es la medida de desviación más usual.

22

xN

fx ii −⋅Σ

Ejemplo. Variable discreta

Habíamos obtenido que la media de edad de los alumnos del colegio entrevistados era de 14,33. Vamos a calcular la desviación típica para saber si las edades están dispersas o concetradas respecto a la media.

Valores Frecuencia absoluta

2

ix ii fx ⋅2

12 9 144 1296 13 25 169 4225 14 27 196 5292 15 16 225 3600 16 12 256 3072 17 8 289 2312 18 3 324 972

Sutituyendo los valores obtenemos 53,133,14100

20769 2 =−=σ

Y vemos que las edades difieren de la media en un año y medio por encima y por debajo. Teniendo en cuenta que el rango de edades es de 6 años, los datos presentan poca dispersión, aunque la conclusión de “mucha o poca” depende del contexto del problema y de la comparación con otras poblaciones o muestras. Características de la desviación típica:

- La desviación típica tiene más significado si usa para comparar dos o más poblaciones.

Page 12: UNIDAD 3 - gobiernodecanarias.org · resulta ser 8.8, que es un valor muy poco indicativodel conjunto pues está muy influido por ese valor extremo. • Moda (Mo) La moda es el valor

- Es más sensible que la media a valores erróneos al usar el cuadrado en su expresión.

- No es sensible al cambio de escala a diferencia de la varianza, es decir, si medimos en metros o en kilómetros obtendremos valores similares.