Otras Medidas de Dispersión

23
UNIDAD 4. OTRAS MEDIDAS DE DISPERSIÓN Deizi Dejesús SEGUNDO CORTE

Transcript of Otras Medidas de Dispersión

Page 1: Otras Medidas de Dispersión

UNIDAD 4. OTRAS MEDIDAS DE DISPERSIÓN

Deizi Dejesús

SEGUNDO CORTE

Page 2: Otras Medidas de Dispersión

Corrección de Sheppard para la varianza  Una medida relacionada con la varianza es la corrección de Sheppard, esta medida sirve para corregir los errores que se cometen cuando se realizan cálculos de varianza para datos agrupados, su expresión es dada como: Varianza Corregida =varianza de datos agrupados – (c²/12)

donde  (c²/12) se conoce como la corrección de Sheppard.  La restricción que se impone para poder aplicar este tipo de corrección es el hecho que solo se puede aplicar para variables continuas, donde las colas de la distribución en ambas direcciones van a cero. Sin embargo, su inconveniencia esta en que la corrección puede modificar sustancialmente algunos resultados lo que con lleva a cometer otro error, lo que a generado mucha polémica sobre cuando usar la corrección.

Deizi Dejesús

Page 3: Otras Medidas de Dispersión

Rango entre percentiles (‘interquartile range’):

– Es la distancia entre percentil 90 y percentil 10.• Rango entre percentiles = P90 – P10

– Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

– No es tan sensible a valores extremos

Deizi Dejesús

Page 4: Otras Medidas de Dispersión

Dispersión relativa: mediana

100*13

me

QQVq

Es la razón entre el rango intercuartílico y la mediana.Mide el rango intercuartílico en forma de“qué tamaño tiene con respecto a la mediana”

Es frecuente mostrarla en porcentajesSi la mediana es 80 y el rango intercuartílico es de 5 entonces Vq=5/80*100=6,25%

Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables.

Si el peso tiene Vq=6,25% y la edad tiene Vq=10%, los individuos presentan más dispersión en edad que en peso.

Deizi Dejesús

Page 5: Otras Medidas de Dispersión

Coeficiente de variación

Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!) En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Se define del siguiente modo:

Deizi Dejesús

Page 6: Otras Medidas de Dispersión

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas.

Deizi Dejesús

Page 7: Otras Medidas de Dispersión

Coeficiente de variación de PEARSON

Es la razón entre la desviación típica y la media.– Mide la desviación típica en forma de

“qué tamaño tiene con respecto a la media”

– También se la denomina variabilidad relativa.

– Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad

relativa)

• Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables.

– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.

• No debe usarse cuando para variables cuyo nivel de medición es por intervalos, es decir,la variable cuenta con un valor 0 fijado arbitrariamente.

– Por ejemplo 0ºC ≠ 0ºF

– Si la variable presenta valores negativos, al calcular el coeficiente de variación de pearson los habrá que considerar como positivos

Dispersión relativa: media

100*x

SCV

Deizi Dejesús

Page 8: Otras Medidas de Dispersión

COEFICIENTE DE VARIACIÓN PARA VARIABLES TIPIFICADAS

Dada la distribución de edades (medidas en años) en un colectivo de 100 personas, obtener: 1. La variable tipificada Z. 2. Valores de la media y varianza de Z. 3. Coeficiente de variación de Z.

Horas trabajadas Num. empleados

0 -- 4 47

4 -- 10 32

10 -- 20 17

20 -- 40 4

  100

Deizi Dejesús

Page 9: Otras Medidas de Dispersión

VARIABLES TIPIFICADAS

Para cualquier variable cuantitativa, conociendo sus dos estadísticos media y desviación típica, todos esos valores pueden ser transformados en una nueva escala de medida completamente estandarizada o tipificada. Esta nueva escala se basa en medir la posición relativa que ocupa cada valor dentro de su distribución, entendida como distancia a la media en unidades de desviación típica. Esta nueva unidad es lo que se llama puntuación tipificada o puntuación zeta.

Page 10: Otras Medidas de Dispersión

Solución: Para calcular la variable tipificada

Z= (mi – X)/S

partimos de los datos del enunciado. Será necesario calcular en primer lugar la media y desvición típica de la variable original (X= años).

LI --LS mi fi mifi mi²fi

0 – 4 2 47 94 188

4 – 10 7 32 224 1.568

10 – 20 15 17 255 3.825

20 – 40 30 4 120 3.600

    n=100 693 9.181

Deizi Dejesús

Page 11: Otras Medidas de Dispersión

A partir de estos valores podremos calcular los valores tipificados para las marcas de clase de cada intervalo y construir su distribución de frecuencias:

Deizi Dejesús

Page 12: Otras Medidas de Dispersión

zi fi zi fi zi2 fi

-0,745 47 -35,015 26,086

0,011 32 0,352 0,004

1,220 17 20,720 25,303

3,486 4 13,944 48,609

  n=100 0,021 100,002

Deizi Dejesús

Page 13: Otras Medidas de Dispersión

A pesar de que no se debe calcular el coeficiente de variación sobre variables que presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porqué:

Es decir, el coeficiente de variación no debe usarse nunca con variables tipificadas.

Deizi Dejesús

Page 14: Otras Medidas de Dispersión

EJERCICIO EJEMPLOLos datos que se dan a continuación corresponden a las

edades de ochenta pacientes del Hospital San Juan de Dios, de la Ciudad de Mérida.

6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ; 6 1 ; 6 7 ; 7 3 ; 5 7 ; 6 2 ; 6 7 ; 6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ;

6 0 ; 6 6 ; 7 7 ; 7 0 ; 6 6 ; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ; 6 6 ; 6 7 ; 7 4 ; 6 1 ;

6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ; 8 1 ; 6 2 ; 6 4 ; 6 9 ; 6 8 ; 7 2 ; 8 3 ; 5 6 ;

6 1 ; 6 2 ; 6 3 ; 7 6 ; 6 1 ; 6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ; 7 0 ;

6 6 ; 6 2 ; 6 3 ; 6 6 ;a.Construya una distribución de frecuencias con intervalos

de clase, sabiendo que el valor de la Amplitud “A”, es igual a 5.

b.Determine el valor del: Rango entre Percentiles,Dispersión relativa de la mediana, Coeficiente de variación de Pearson, variables

tipificadas y coeficiente de Variación de Z.

Deizi Dejesús

Page 15: Otras Medidas de Dispersión

Tabla de Distribución de Frecuencias

Deizi Dejesús

Page 16: Otras Medidas de Dispersión

1.Rango entre percentiles (‘interquartile range’):

Es la distancia entre percentil 90 y percentil 10.Rango entre percentiles = P90 – P10

Debe calcularse el Percentil 10 y el 90

Deizi Dejesús

Page 17: Otras Medidas de Dispersión

Deizi Dejesús

LA CLASE P10 SE ENCUENTRA EN EL INTERVALO 2 (CLASE [57-62)) QUE ALMACENA HASTA EL 17.5% de los datos (observando los porcentajes acumulados % Acu)

Luego Interpolando:

Limites Superior

%Acu

62 17.5%

57 3.75%

DIFERENCIA 5 13.75%

5______________________13.75%INCREMENTO ______________ 6.25%

INCREMENTO = (6.25%x5)/13.75%INCREMENTO = 2.27

P10 = 57+2.27P10= 59.27

Page 18: Otras Medidas de Dispersión

Deizi Dejesús

LA CLASE P90 SE ENCUENTRA EN EL INTERVALO 5 (CLASE [72-77)) QUE ALMACENA HASTA EL 92.5% de los datos (observando los porcentajes acumulados % Acu)

Luego Interpolando:

Limites Superior

%Acu

77 92.5%

72 80%

DIFERENCIA 5 12.5%

5______________________12.5%INCREMENTO ______________ 10%

INCREMENTO = (10%x5)/12.5%INCREMENTO = 4

P90 = 72+4P90= 76

Rango entre percentiles = P90 – P10

Rango entre percentiles = 76-59.27 = 16.73

Page 19: Otras Medidas de Dispersión

2.Dispersión relativa de la mediana

100*13

me

QQVq

Q1 = 63.30Q3 = 71.25. Calculados en la presentación Semana 8.

Cálculo de la Mediana

Me = Limed + [ [ (n/2) – (Fi-1)] / fimed ] . (A-1)

Me = 67 + [ [ (40) – (37)] / 27] . (4)

Me = 67 + [ [ (n/2) – (Fi-1)] / fimed ] . (A-1)Me = 67 + 0,44 = 67,44

Vq =[(71,25-63,30)/67,44]*100 = 11.78%Deizi Dejesús

Page 20: Otras Medidas de Dispersión

3.Coeficiente de variación de Pearson

100*x

SCV

S = 6.14X = 5405/80=67.56, determinados en la

presentación anterior

CV = (6,14/67.56)*100CV = 9.08% de dispersión

entre los datos.

Deizi Dejesús

Page 21: Otras Medidas de Dispersión

4.Para calcular la variable tipificada

Z= (mi – X)/S; X=67.56, S=6.14 Z1= (54.5-67.56)/6.14 = -2.12 Z2= (59.5-67.56)/6.14 = -1.22 Z3= (64.5-67.56)/6.14 = -0.49 Z4= (69.5-67.56)/6.14 = 0.31 Z5= (74.5-67.56)/6.14 = 1.13 Z6= (79.5-67.56)/6.14 = 1.94 Z7= (84.5-67.56)/6.14 = 2.75

zi fi zi fi zi2 fi

-2,12 3 -6.36 13.48

-1,22 11 -13,42 16.37

-0,49 23 -11.27 5.52

0,31 27 8.37 2.59

 1.13 10 11.3 12,76

1.94 5 9.7 18.81

2.75 1 2.75 7.56

n= 80 Total= 1.07 Total= 77.09

Deizi Dejesús

Page 22: Otras Medidas de Dispersión

La Media de Z = 1.07/80 = 0,01 es APROXIMADAMENTE 0 CERO

La Varianza de Z es:

S² = (∑zi²fi)/n - [(∑zifi)/n] ²

S² = (∑77,09)/80 - [(∑1,07)/80] ²

S² 0,96-0,0001

S² 0,95

S = √0,95 S = 0,97 es aproximadamente 1

Es decir, el coeficiente de variación no debe usarse nunca con variables tipificadas. Deizi Dejesús

Page 23: Otras Medidas de Dispersión

Complete la siguiente distribución y encuentre:Rango entre Percentiles,Dispersión relativa de la mediana, Coeficiente de variación de Pearson, variables tipificadas y coeficiente de Variación de Z.

Deizi Dejesús

RESOLVERRESOLVER