Cuantilas, medidas de posicion y simetria

Dr. Ronald Mayhuasca Salgado

UNIVERSIDAD PERUANA LOS ANDES

ESCUELA ACADÉMICO PROFESIONAL DE ODONTOLOGÍA

UEC ESTADÍSTICA

Medidas de posición: Cuantilas

Medidas de dispersión y forma

Es un valor en el recorrido de la variable en el que se acumula una porción p de

datos con medida máxima el valor de la cuantila, o sea un porcentaje (px100) de

datos toma medidas menores o iguales a Xp y el resto toma medidas mayores o

iguales a Xp.

A las cuantilas se les denomina de manera particular según la porción acumulada

a la izquierda del punto.

- Decil: di

- Cuartil: qi

- Percentil: pi

- Mediana: Me=X0,50

Cuantiles o cuantila (Xp)

Decil (di) d1=X0,10 ; d2=X0,20 …

Son puntos que dividen al conjunto de datos en 10 partes donde cada

uno acumula el 10% de datos, por ejemplo:

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,10 X0,20

X0,30 X0,40

X0,50 X0,60

Decil (di)

Indica que el 10% de las personas tiene a lo más 21 años que el 40% tienen

máximo 36 años, también podemos deducir que un 30% de personas poseen

edades entre 21 y 36 años

d1=X0,10 = 21 d4=X0,40 = 36

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,10 X0,20

X0,30 X0,40

X0,50 X0,60

Cuartil (qi) q1=X0,25 ; q2=X0,50 ; q3= X0,75

Son puntos que dividen al conjunto de datos en 4 partes donde

cada uno acumula el 25% de datos, por ejemplo: De los siguientes datos:

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,25

X0,50

X0,75

Cuartil (qi)

Indica que el 25% de las personas tienen hasta 24 años de edad, y

que a lo más el 75% posee a lo más hasta 38 años, es decir el 50%

tienen entre 24 y 38 años.

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,25

X0,50

X0,75

q1=X0,15 ; q2=X0,30 ; q3= X0,45

Percentil (pi) p1=X0,01 ; p2=X0,02 … p99= X0,99

Son puntos que dividen al conjunto de datos en 100 partes donde

cada uno acumula el 1% de datos, por ejemplo: De los siguientes datos:

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,11

X0,32

X0,45

Percentil (pi)

Indica que 11% de las personas tiene un máximo de 21 años y que

el 32% de individuos poseen hasta 32años, también diremos que el

65% de individuos tiene más de 38 años y que el 34% de personas

poseen entre 21 y 38 años :

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,11

X0,32

X0,45

p11=X0,11 = 21 p32=X0,32 = 32 p45= X0,45 = 38

Mediana (Me) Me=X0,50

Indica que la mitad o el 50% de datos toma medidas menores o

iguales a Me y el otro 50% toma medida mayor igual a Me:

De los siguientes datos:

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,30

Mediana (Me) Me=X0,50

Indica que el 50% de las personas posee una edad máxima de 31

años, y que el otro 50% posee una edad mínima de 31 años:

16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26

26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36

36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46

X0,30

Me= 31= q2= X0,50

Medidas de posición: equivalencias

𝐷1 = 𝑃10

𝑄1 = 𝑃25

𝐷2 = 𝑃50 = 𝑄2

Medidas derivadas:

• Rango intercuartílico (RIC): 𝑄3 − 𝑄2

• Desviación intercuartil: 𝑄3 − 𝑄2

2

* La desviación intercuartil es una medida que acompaña a la mediana en la descripción de datos

Cálculo de las cuantilas

𝑋𝑝 = 𝑋(𝑟)

• Si r no es entero redondear al entero superior

Donde: r = n x p

Luego de ordenas los datos ascendentementese determina la cuantila p como el lugar que ocupa el lugar «r»

a. Para datos no agrupados

Para la variable edad:

Varones: Mujeres

𝑋0,50 = 43 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 15,5)

𝑋0,25 = 27 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 7,75)

𝑋0,75 = 64 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 27,9)

𝑋0,50 = 42 𝑎ñ𝑜𝑠

𝑋0,25 = 35 𝑎ños

𝑋0,75 = 60 𝑎ñ𝑜𝑠

Cálculo de las cuantilas

• Se determina el intervalo que contiene a la cuantila Xp como el intervalo j:

Consideramos las fi y las Fi

b. Para datos agrupados

Usamos la siguiente fórmula:

𝑋𝑝 = 𝐿𝑗𝑖 + 𝑐 (𝑛 . 𝑝 − 𝐹𝑗−1)

𝑓𝑗

𝐹𝑗−1 Frecuencia absoluta acumulada anterior a la clase cuantila j

𝐿𝑗𝑖 Frontera de la clase intervalo j (el punto medio entre los extremos consecutivos para intervalos discretos) o límite inferior para intervalos continuos

Construcción de gráfico de caja y bigote

𝑄1 − 1,5 𝑥 𝑅𝐼𝐶

𝑄1, 𝑄2 , 𝑄3

Calcular

• Rango intercuartílico (RIC): 𝑄3 − 𝑄2

Obtener los límites

• Inferior:

• Superior: 𝑄3 + 1,5 𝑥 𝑅𝐼𝐶

Generando el gráfico de caja y bigote

𝑄1 − 1,5 𝑥 𝑅𝐼𝐶

𝑀𝑒

* Son sensibles a datos atípicos

𝑄3

𝑄3 + 1,5 𝑥 𝑅𝐼𝐶 Variable

𝑄1

Algunas recomendaciones respecto a las medidas de resumen

• No siempre es necesario indicar todas las medidas de resumen

• Buscar las más significativas y representativas

• En distribuciones sesgadas o asimétricas es más apropiada la mediana como medida de tendencia central

Estadística Descriptiva

• Organización de datos • Representación de datos: Tablas y Gráficos

• Medidas de resumen

• Medición de datos numéricos 1. Medidas de posición 2. Medidas de dispersión 3. Medidas de forma

• Medición de datos nominales 1. Proporción 2. Razón 3. Medición epidemiológica

2. MEDIDAS DE DISPERSIÓN

Son medidas que cuantifican la variabilidad de las

observaciones con respecto a un estadígrafo de tendencia

central (generalmente la media aritmética).

Los principales estadígrafos de tendencia central son:

• VARIANZA

• DISPERSIÓN ESTÁNDAR

• COEFICIENTE DE VARIACIÓN

Varianza ( S2) y Desviación estándar (S o DE)

• Nos informan sobre la magnitud de la variación en los datos , la magnitud con la cual las observaciones se agrupan en torno a las medidas

• Sólo se aplica a variables cuantitativas (medidas en escala de razón)

• Nos indica cuánto varía cada individuo respecto a la media

Varianza (S2)

Se define como el promedio del cuadrado de las desviaciones

con respecto la media.

Cuando la varianza es muestral, se denota como S2(x); y si la

varianza es poblacional entonces se denota como σ2.

Estudiaremos la varianza muestral.

1. Para datos no agrupados en tablas.

Obedece a la siguiente fórmula:

S2(X)= n-1

Desarrollando esta sumatoria se puede llegar

a una forma más simple para calcular la

varianza:

S2(X)= n-1

Cálculo de la Varianza

2. Para datos agrupados en tablas.

Obedece a la siguiente fórmula:

S2(X)= n-1

De modo semejante al caso anterior,

desarrollando la fórmula se obtiene:

S2(X)= n-1

• Xi: marca de clase

• fi: frecuencia absoluta

• m: número de clases o intervalos

Cálculo de la Varianza

Se define como la raíz cuadrada positiva de la varianza, y como la

varianza está expresada en unidades cuadradas, la desviación estándar

(que está en las mismas unidades de los datos) representa mejor la

variabilidad de las observaciones.

Desviación estándar (S o DE)

𝑆 𝑥 = 𝑆2(𝑥)

Ejemplo: 5 8 8 5 9

Varianza ( S2) y Desviación estándar (S o DE)

𝑆 𝑥 = 𝑆2(𝑥)

S2(X)= n-1

Media: 7

: 3.5

: 1.87

Interpretación: Existe una variación de 1,87 unidades de cada individuo respecto a la media aritmética.

Coeficiente de variación (C.V.)

Se calcula del siguiente modo:

El C.V. se debe expresar en porcentaje, pues no tiene unidades y sirve

como medida de comparación con otras distribuciones de cualquier

tipo de unidad…el C.V. mide cuán dispersos se hallan los datos.

C.V. < 10% : representa una muestra que tiende a ser homogénea, los

datos o mediciones no son dispersos.

10%< C.V. < 20% : presentan una regular o moderada dispersión.

C.V. > 20% : los datos se muestran muy dispersos.

𝐶. 𝑉. = 𝑆 (𝑥)

𝑋

EJEMPLO:

Rpta: La primera muestra es más homogénea y la dispersión

es mínima.


𝐶. 𝑉. = 𝑆 (𝑥)

𝑋


Proporciona los elementos para comparar la variabilidad en distintos

conjuntos de datos que pueden tener distintas medias

Indica el porcentaje de datos que están alejados de la media aritmética

Una desviación estándar de 500 en una distribución con una media de

5000, sugiere una variabilidad mayor que una desviación de 500 en

una distribución de media 5000

Generalmente se expresa en porcentaje 𝐶. 𝑉. = 𝑆 (𝑥)

𝑋 x 100%


Si C.V. sale 40%, se interpreta como si el 40% de datos está alejado de

la media

𝐶. 𝑉. = 𝑆 (𝑥)

𝑋 x 100%

El C.V. debe ser < 30% que indica una muestra casi homogénea,

entonces poder usar la media y la D.E.

Si el C.V. es > 30% los datos no son homogéneos, entonces usamos la

mediana y su medida de dispersión: desviación intercuartílica

Los siguientes datos corresponden a 20 lecturas de temperatura (en °F)

tomadas en varios puntos de una esterilizadora de calor seco.

415 460 510 475 430 410 425 490 500 470

450 425 485 470 450 455 460 480 475 465

Determine el coeficiente de variación e interprete.

Rpta: 6,07% Los datos son poco dispersos

Resuelva

En el área de radiología se han realizado n determinaciones del

volumen(cm2) de una sustancia química, los datos se han agrupado en

una tabla , donde se conoce la siguiente información:

Calcular la media aritmética, moda, determine e interprete

el coeficiente de variación (C.V.)

(Suma de marcas de clase) Me=43,265 cm2 264

F2=10 f4=7 f6=f1= n-30 F4=25 h3=4/17

Pregunta tipo

Estadística Descriptiva

• Organización de datos • Representación de datos: Tablas y Gráficos • Medidas de resumen

• Medición de datos numéricos 1. Medidas de posición 2. Medidas de dispersión 3. Medidas de forma

• Medición de datos nominales 1. Proporción 2. Razón 3. Medición epidemiológica

3. MEDIDAS DE FORMA

Son medidas que indican la dirección en la dispersión de los datos

respecto a su centro y completan la descripción de las distribuciones

de frecuencia.

Los principales estadígrafos de forma son:

• ASIMETRÍA

• CURTOSIS

ASIMETRÍA

Indica la deformación horizontal de las distribuciones de frecuencia con

respecto a la media aritmética. Para una distribución unimodal tenemos

tres situaciones:

1. Distribución simétrica, en cuyo caso la

media , mediana y moda coinciden y las

frecuencias simples para cada punto

equidistante de la media son iguales.

ASIMETRÍA

2. Distribución asimétrica, es decir, los datos se concentran a uno de

los extremos y aparecen con poca frecuencia hacia el otro extremo.

Asimetría negativa Asimetría positiva

ASIMETRÍA

Coeficiente de asimetría (Skp)

El coeficiente de asimetría de Pearson sirve como

indicador de los grados de asimetría de las

distribuciones de frecuencia.

De donde:

Si Skp = 0, la distribución es simétrica

Si Skp <1, la distribución tiene una asimetría leve

Si 1 < Skp < 2, la distribución tiene asimetría moderada

Si Skp > 2, la distribución tiene una asimetría severa.

𝑆𝑘𝑝 = 3(𝑋 − 𝑀𝑒)

𝑆

ASIMETRÍA

Los siguientes datos corresponden a 20 lecturas de temperatura (en °F)

tomadas en varios puntos de una esterilizadora de calor seco.

415 460 510 475 430 410 425 490 500 470

450 425 485 470 450 455 460 480 475 465

Sin agrupar los datos en tablas de frecuencia calcule: los grados

de asimetría de las distribuciones de frecuencia e interprete.

EJEMPLO

ASIMETRÍA

De la fórmula se desprende la necesidad de calcular la media

aritmética, la desviación estándar y la Mediana.

415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465

1. Cálculo de la media

2. Cálculo de la mediana, datos no agrupados en tabla, n=par, ordenación previa

410 415 425 425 430 450 450 455 460 460 465 470

470 475 475 480 485 490 500 510


𝑆

𝑀𝑒 =𝑥𝑛2

+ 𝑥𝑛+1/2

2

ASIMETRÍA

Me= 462,5

415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465

3. Cálculo del coeficiente de asimetría

460 =

=

S2(X)= n-1

S2= 778,94

S= 27,90

= 3(460-462,5)/27,90 = -0,2688


𝑆

𝑋

𝑀𝑒 =𝑥𝑛2

+ 𝑥𝑛+1/2

2

CURTOSIS

Es una medida de la deformación vertical de una distribución de

frecuencias, es decir, nos indica el apuntalamiento o achatamiento

de la curva, la cual está relacionada con la dispersión de datos.

K =

Coeficiente de curtosis

X0,75 – X0,25

2 (X0,90 – X0,10)

1. Distribución platicúrtica: k 1, es decir los datos están

ampliamente esparcidos y la curva es aplanada.

CURTOSIS

2. Distribución mesocúrtica: k 0,25 esto ocurre cuando los datos

tienen una distribución moderada.

3. Distribución leptocúrtica: k 0,5 esto ocurre cuando los datos

están agrupados es un intervalo estrecho, es decir tienen una dispersión

pequeña.

ERROR ESTÁNDAR (E.S)

Llamado también error típico, es una medida de la variabilidad de cada

muestra respecto a la media muestral.

Es útil para describir la dispersión de los datos cuando se tiene dos o más

muestras que comparar.

También se le llama desviación estándar de la media o error típico.

Para datos cuantitativos se calcula de la siguiente manera:

Donde Sx: desviación estándar

n: muestra 𝐸. 𝑆. =

𝑆𝑥

𝑛

Cuantilas, medidas de posicion y simetria

Education

Transcript of Cuantilas, medidas de posicion y simetria