Descripción de datos con medidas numéricas

53

Transcript of Descripción de datos con medidas numéricas

Page 1: Descripción de datos con medidas numéricas

Descripción de datos con medidas numéricas

Estadística

Gamaliel Moreno Chávez

Centro de Crecimiento Humanista

Enero-Julio2021

1 of 1

Page 2: Descripción de datos con medidas numéricas

Generalidades

Las grá�cas pueden ayudar a describir la forma básica de unadistribución de datos pero hay limitaciones

• No siempre es posible presentar grá�cas.

• Son poco precisas.

• No son comparables

Una forma de superar estos problemas es usar medidas numéricas, quese pueden calcular para una muestra o una población de mediciones.

2 of 1

Page 3: Descripción de datos con medidas numéricas

Generalidades

De�niciónLas mediciones descriptivas numéricas asociadas con una población demediciones se llaman parámetros; las calculadas a partir de medicionesmuestrales reciben el nombre de estadísticas.

3 of 1

Page 4: Descripción de datos con medidas numéricas

Medidas de centro

Una de las primeras mediciones numéricas importantes es una medidade centro, es decir, una medida a lo largo del eje horizontal quelocaliza el centro de la distribución.

4 of 1

Page 5: Descripción de datos con medidas numéricas

Media

El promedio aritmético de un conjunto de mediciones es una medidade centro muy común y útil. Se conoce como media aritmética osimplemente media. Para distinguirla usamos el símbolo x̄ (x barra).

De�niciónLa media aritmética o promedio de un conjunto de n mediciones esigual a la suma de las mediciones dividida entre n

5 of 1

Page 6: Descripción de datos con medidas numéricas

Media

n∑i=1

xi que signi�ca x1 + x2 + x3 + · · ·+ xn∑xi que signi�ca �la suma de todas las mediciones de x�

6 of 1

Page 7: Descripción de datos con medidas numéricas

Media

Ejemplo

x̄ =

∑xin

=2 + 9 + 11 + 5 + 6

5= 6.6

7 of 1

Page 8: Descripción de datos con medidas numéricas

Media

Ejercicio. Calcule la media para los siguientes datos

8 of 1

Page 9: Descripción de datos con medidas numéricas

Mediana

Una segunda medida de tendencia central es la mediana, que es elvalor de la posición media en el conjunto de mediciones ordenada demenor a mayor.

De�niciónLa mediana m de un conjunto de n mediciones es el valor de x que caeen la posición media cuando las mediciones son ordenadas de menor amayor.

9 of 1

Page 10: Descripción de datos con medidas numéricas

Mediana

Ejemplo

10 of 1

Page 11: Descripción de datos con medidas numéricas

Mediana

Ejemplo

11 of 1

Page 12: Descripción de datos con medidas numéricas

Mediana

Aunque tanto la media como la mediana son buenas medidas delcentro de una distribución, la mediana es menos sensible a valoresextremos o resultados atípicos. Por ejemplo, el valor x = 27 en elejemplo anterior es mucho mayor que las otras mediciones. Lamediana, m = 7.5, no es afectada por el resultado atípico, en tantoque el promedio muestral,

x̄ =

∑xin

=606

= 10

sí es afectado.

12 of 1

Page 13: Descripción de datos con medidas numéricas

Mediana

Cuando un conjunto de datos tiene valores extremadamente pequeñosu observaciones muy grandes, la media muestral se traza hacia ladirección de las mediciones extremas.

13 of 1

Page 14: Descripción de datos con medidas numéricas

Moda

Otra forma de localizar el centro de una distribución es buscar el valorde x que se presenta con la frecuencia más alta. Esta medida delcentro se denomina moda.

De�niciónLa moda es la categoría que se presenta con más frecuencia o el valorde x que se presenta con más frecuencia. Cuando las mediciones enuna variable continua se han agrupado como histograma de frecuenciao de frecuencia relativa, la clase con el pico más alto o frecuencia sellama clase modal, y el punto medio de esa clase se toma como lamoda.

14 of 1

Page 15: Descripción de datos con medidas numéricas

Moda

15 of 1

Page 16: Descripción de datos con medidas numéricas

Moda

Es posible que una distribución de mediciones tenga más de unamoda. Estas modas aparecerían como �picos locales� en la distribuciónde frecuencia relativa. Por ejemplo, si fuéramos a tabular la longitudde los peces sacados de un lago durante una temporada, podríamosobtener una distribución bimodal, posiblemente re�ejando una mezclade peces jóvenes y viejos en la población. A veces las distribucionesbimodales de tamaños o pesos re�ejan una mezcla de medicionestomadas en machos y hembras. En cualquier caso, un conjunto odistribución de mediciones puede tener más de una moda.

16 of 1

Page 17: Descripción de datos con medidas numéricas

Ejercicio

Tiempo transcurrido entre la toma de pedido y el servicio a la mesa delos restaurantes fueron registrados

¾Cuál restaurante considera usted que presta un mejor servicio y porqué?17 of 1

Page 18: Descripción de datos con medidas numéricas

Ejercicio

Resultados

18 of 1

Page 19: Descripción de datos con medidas numéricas

Medidas de variabilidad

Los conjuntos de datos pueden tener el mismo centro pero con aspectodiferente por la forma en que los números se dispersan desde el centro.Considere las dos distribuciones que se muestran en la � gura 2.6.Ambas distribuciones están centradas en x = 4, pero hay una grandiferencia en la forma en que las mediciones se dispersan o varían.

19 of 1

Page 20: Descripción de datos con medidas numéricas

Rango

De�niciónEl rango, R, de un conjunto de n mediciones se de�ne como ladiferencia entre la medición más grande y la más pequeña.

Para los datos de peso al nacer de la tabla, las mediciones varían de5.6 a 9.4. Por tanto, el rango es 9.4− 5.6 = 3.8.

20 of 1

Page 21: Descripción de datos con medidas numéricas

Rango

El rango es fácil de calcular, fácil de interpretar y es una medidaadecuada de variación para conjuntos pequeños de datos. Pero, paraconjuntos grandes, el rango no es una medida adecuada devariabilidad. Por ejemplo, las dos distribuciones de frecuencia relativade la �gura tienen el mismo rango pero muy diferentes formas yvariabilidad.

21 of 1

Page 22: Descripción de datos con medidas numéricas

Varianza

¾Hay una medida de variabilidad que sea más sensible que el rango?

22 of 1

Page 23: Descripción de datos con medidas numéricas

Varianza

De la suma de desviaciones cuadradas, se calcula una sola medidallamada varianza. Para la varianza de una muestra usamos el símbolos2 y la varianza de una población σ2. La varianza será relativamentegrande para datos muy variables y relativamente pequeña para datosmenos variables.

De�niciónLa varianza de una población de N mediciones es el promedio de loscuadrados de las desviaciones de las mediciones alrededor de su mediaµ. La varianza poblacional se denota con σ2 y está dada por la fórmula

σ2 =

∑(xi − µ)2

N

23 of 1

Page 24: Descripción de datos con medidas numéricas

Varianza

De�niciónLa varianza de una muestra de n mediciones es la suma de lasdesviaciones cuadradas de las mediciones alrededor la media x̄ divididaentre (n − 1). La varianza muestral se denota con s2 y está dada porla fórmula

s2 =

∑(xi − x̄)2

n − 1

24 of 1

Page 25: Descripción de datos con medidas numéricas

Varianza

Para el conjunto de n = 5 mediciones muestrales presentadas en latabla

suma ∑(xi − x̄)2 = 22.80

varianza muestral

s2 =

∑(xi − x̄)2

n − 1=

22.804

= 5.70

25 of 1

Page 26: Descripción de datos con medidas numéricas

Desviación estándar

La varianza se mide en términos del cuadrado de las unidadesoriginales de medición. Tomando la raíz cuadrada de la varianza,obtenemos la desviación estándar, que regresa la medida devariabilidad a las unidades originales de medición.

De�niciónLa desviación estándar de un conjunto de mediciones es igual a laraíz cuadrada positiva de la varianza.

26 of 1

Page 27: Descripción de datos con medidas numéricas

Notación

27 of 1

Page 28: Descripción de datos con medidas numéricas

Resumen

28 of 1

Page 29: Descripción de datos con medidas numéricas

Coe�ciente de variación

El coe�ciente de variación es la relación entre la desviación típica deuna muestra y su media.

CV =(σx̄

)100

El coe�ciente de variación permite comparar las dispersiones de dosdistribuciones distintas, siempre que sus medias sean positivas.Mayor dispersión el valor del coe�ciente de variación será mayor.

29 of 1

Page 30: Descripción de datos con medidas numéricas

Coe�ciente de variación

Una distribución tiene x̄ = 140 y σ = 28.28 y otra x̄ = 150 y σ = 24.¾Cuál de las dos presenta mayor dispersión?

CV1 =28, 28

140· 100 = 20, 2%

CV2 =24

150· 100 = 16%

La primera distribución presenta mayor dispersión.

30 of 1

Page 31: Descripción de datos con medidas numéricas

Sobre la signi�cancia práctica de la desviación estándar

Teorema de Chebyshev

Dado un número k mayor o igual a 1 y un conjunto de n mediciones,al menos [1− (1/k2)] de las mediciones estarán dentro de kdesviaciones estándar de su media.

Se construye un intervalo al medir una distancia kσ a cualquier ladode la media m. El número k puede ser cualquier número mientras seamayor o igual a 1. Entonces el teorema de Chebyshev expresa que almenos [1− (1/k2)] del número total n de mediciones está en elintervalo construido.

31 of 1

Page 32: Descripción de datos con medidas numéricas

Teorema de Chebyshev

Ilustración del teorema de Chebyshev

32 of 1

Page 33: Descripción de datos con medidas numéricas

Teorema de Chebyshev

Ilustración del teorema de Chebyshev

33 of 1

Page 34: Descripción de datos con medidas numéricas

Teorema de Chebyshev

Ejemplo. La media y varianza de una muestra de n = 25 medicionesson 75 y 100, respectivamente. Use el teorema de Chebyshev paradescribir la distribución de mediciones.Solución Nos dan x̄ = 75 y s2 = 100. La desviación estándar ess =√100 = 10. La distribución de mediciones está centrada alrededor

de x = 75, y el teorema de Chebyshev establece que:

• Al menos 3/4 de las 25 mediciones están en el intervalox̄ ± 2s = 75± 2(10), esto es, 55 a 95.

• Al menos 8/9 de las mediciones están en el intervalox̄ ± 3s = 75± 3(10), esto es, 45 a 105.

34 of 1

Page 35: Descripción de datos con medidas numéricas

Regla empírica

Como el teorema de Chebyshev se aplica a cualquier distribución, esmuy conservador. Ésta es la razón por la que hacemos hincapié en �almenos 1− (1/k2)� en este teorema. Otra regla para describir lavariabilidad de un conjunto de datos no funciona para todos losconjuntos de datos, pero funciona muy bien para datos que �se apilan�en la conocida forma de montículo de la �gura

35 of 1

Page 36: Descripción de datos con medidas numéricas

Regla empírica

36 of 1

Page 37: Descripción de datos con medidas numéricas

Regla empírica

EjercicioEn un estudio de tiempo efectuado en una planta manufacturera, eltiempo para completar una operación especi�cada se mide para cadauno de los n = 40 trabajadores. Se encuentra que la media y ladesviación estándar son 12.8 y 1.7, respectivamente. Describa losdatos muestrales usando la Regla empírica.

37 of 1

Page 38: Descripción de datos con medidas numéricas

Regla empírica

De acuerdo con la Regla empírica, se espera que aproximadamente68% de las mediciones caigan en el intervalo de 11.1 a 14.5,aproximadamente 95% caigan en el intervalo de 9.4 a 16.2, yaproximadamente 99.7% caigan en el intervalo de 7.7 a 17.9.

38 of 1

Page 39: Descripción de datos con medidas numéricas

Ejercicio

Los maestros-estudiantes son capacitados para desarrollar planes delecciones, en la suposición de que el plan escrito les ayudará a trabajarde manera satisfactoria en el salón de clases. En un estudio paraevaluar la relación entre planes de lección escritos y su implementaciónen el salón de clases, se cali�caron 25 planes de lección en una escalade 0 a 34 de acuerdo a una Lista de veri�cación de Plan de lección.Las 25 cali�caciones se muestran en la tabla. Use el teorema deChebyshev y la Regla empírica (si es aplicable) para describir ladistribución de estas cali�caciones de evaluación.

39 of 1

Page 40: Descripción de datos con medidas numéricas

Mediciones de posición relativa

A veces es necesario conocer la posición de una observación respecto aotras de un conjunto de datos.

De�niciónEl puntaje z muestral es una medida de posición relativa de�nida por

puntaje z =x − x̄

s

Un puntaje z mide la distancia entre una observación y la media,medidas en unidades de desviación estándar.

40 of 1

Page 41: Descripción de datos con medidas numéricas

Mediciones de posición relativa

Por ejemplo, suponga que la media y desviación estándar de lospuntajes de examen (basados en un total de 35 puntos) son 25 y 4,respectivamente. El puntaje z para una cali�cación de 30 se calculacomo sigue:

puntaje z =x − x̄

s=

30− 254

= 1.25

El puntaje de 30 está a 1.25 desviaciones estándar arriba de la media(30 = x̄ + 1.25s).

41 of 1

Page 42: Descripción de datos con medidas numéricas

Mediciones de posición relativa

42 of 1

Page 43: Descripción de datos con medidas numéricas

Percentil

Un percentil es otra medida de posición relativa y se usa con másfrecuencia para conjuntos grandes de datos. (Los percentiles no sonmuy útiles para conjuntos pequeños de datos).

De�niciónUn conjunto de n mediciones de la variable x se ha reacomodado enorden de magnitud. El p-ésimo percentil es el valor de x que es mayora p % de las mediciones y es menor que el restante (100− p) %.

43 of 1

Page 44: Descripción de datos con medidas numéricas

Percentil

Supongamos que usted ha sido noti�cado que su cali�cación de 610,en el Examen verbal de graduación, lo ha colocado en el 60avopercentil en la distribución de cali�caciones. ¾Dónde está sucali�cación de 610 en relación a las cali�caciones de los otros quetomaron el examen?

Solución Cali�car en el 60avo percentil signi�ca que 60% de todas lascali�caciones de examen fueron más bajas que la cali�cación de ustedy 40% fueron más altas.

44 of 1

Page 45: Descripción de datos con medidas numéricas

Percentil

En general, el 60avo percentil para la variable x es un punto en el ejehorizontal de la distribución de datos que es mayor a 60% de lasmediciones y menor que las otras.

45 of 1

Page 46: Descripción de datos con medidas numéricas

Percentil-Cuartil

• La mediana es igual que el 50avo percentil.

• Los percentiles 25avo y 75avo, llamados cuartiles inferior y superior

• Veinticinco por ciento de las mediciones serán menores que elcuartil inferior (primero).

• 50% serán menores que la mediana (el segundo cuartil).

• 75% serán menores que el cuartil superior (tercero).

46 of 1

Page 47: Descripción de datos con medidas numéricas

Cuartil

47 of 1

Page 48: Descripción de datos con medidas numéricas

Cuartil

De�niciónUn conjunto de n mediciones en la variable x se ha acomodado enorden de magnitud. El cuartil inferior (primer cuartil), Q1 , es elvalor de x que es mayor a un cuarto de las mediciones y es menor quelos restantes tres cuartos. El segundo cuartil es la mediana. Elcuartil superior (tercer cuartil), Q3 , es el valor de x que es mayora tres cuartos de las mediciones y es menor que el restante un cuarto.

48 of 1

Page 49: Descripción de datos con medidas numéricas

Cuartil

49 of 1

Page 50: Descripción de datos con medidas numéricas

Cuartil

50 of 1

Page 51: Descripción de datos con medidas numéricas

Intercuartil

Como la mediana y los cuartiles dividen la distribución de datos encuatro partes, cada una de ellas conteniendo alrededor de 25% de lasmediciones, Q1 y Q3 son las fronteras superior e inferior para el 50%central de la distribución. Podemos medir el rango de este �50%central� de la distribución usando una medida numérica llamada rangointercuartil.

De�niciónEl rango intercuartil (IQR) para un conjunto de mediciones es ladiferencia entre los cuartiles superior e inferior; esto es,IQR = Q3 − Q1 .

51 of 1

Page 52: Descripción de datos con medidas numéricas

El resumen de cinco números y la grá�ca de caja

52 of 1

Page 53: Descripción de datos con medidas numéricas

El resumen de cinco números y la grá�ca de caja

53 of 1