Cuantilas, medidas de posicion y simetria
-
Upload
univ-peruana-los-andes -
Category
Education
-
view
627 -
download
7
description
Transcript of Cuantilas, medidas de posicion y simetria
Dr. Ronald Mayhuasca Salgado
UNIVERSIDAD PERUANA LOS ANDES
ESCUELA ACADÉMICO PROFESIONAL DE ODONTOLOGÍA
UEC ESTADÍSTICA
Medidas de posición: Cuantilas
Medidas de dispersión y forma
Es un valor en el recorrido de la variable en el que se acumula una porción p de
datos con medida máxima el valor de la cuantila, o sea un porcentaje (px100) de
datos toma medidas menores o iguales a Xp y el resto toma medidas mayores o
iguales a Xp.
A las cuantilas se les denomina de manera particular según la porción acumulada
a la izquierda del punto.
- Decil: di
- Cuartil: qi
- Percentil: pi
- Mediana: Me=X0,50
Cuantiles o cuantila (Xp)
Decil (di) d1=X0,10 ; d2=X0,20 …
Son puntos que dividen al conjunto de datos en 10 partes donde cada
uno acumula el 10% de datos, por ejemplo:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,10 X0,20
X0,30 X0,40
X0,50 X0,60
Decil (di)
Indica que el 10% de las personas tiene a lo más 21 años que el 40% tienen
máximo 36 años, también podemos deducir que un 30% de personas poseen
edades entre 21 y 36 años
d1=X0,10 = 21 d4=X0,40 = 36
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,10 X0,20
X0,30 X0,40
X0,50 X0,60
Cuartil (qi) q1=X0,25 ; q2=X0,50 ; q3= X0,75
Son puntos que dividen al conjunto de datos en 4 partes donde
cada uno acumula el 25% de datos, por ejemplo: De los siguientes datos:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,25
X0,50
X0,75
Cuartil (qi)
Indica que el 25% de las personas tienen hasta 24 años de edad, y
que a lo más el 75% posee a lo más hasta 38 años, es decir el 50%
tienen entre 24 y 38 años.
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,25
X0,50
X0,75
q1=X0,15 ; q2=X0,30 ; q3= X0,45
Percentil (pi) p1=X0,01 ; p2=X0,02 … p99= X0,99
Son puntos que dividen al conjunto de datos en 100 partes donde
cada uno acumula el 1% de datos, por ejemplo: De los siguientes datos:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,11
X0,32
X0,45
Percentil (pi)
Indica que 11% de las personas tiene un máximo de 21 años y que
el 32% de individuos poseen hasta 32años, también diremos que el
65% de individuos tiene más de 38 años y que el 34% de personas
poseen entre 21 y 38 años :
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,11
X0,32
X0,45
p11=X0,11 = 21 p32=X0,32 = 32 p45= X0,45 = 38
Mediana (Me) Me=X0,50
Indica que la mitad o el 50% de datos toma medidas menores o
iguales a Me y el otro 50% toma medida mayor igual a Me:
De los siguientes datos:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,30
Mediana (Me) Me=X0,50
Indica que el 50% de las personas posee una edad máxima de 31
años, y que el otro 50% posee una edad mínima de 31 años:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,30
Me= 31= q2= X0,50
Medidas de posición: equivalencias
𝐷1 = 𝑃10
𝑄1 = 𝑃25
𝐷2 = 𝑃50 = 𝑄2
Medidas derivadas:
• Rango intercuartílico (RIC): 𝑄3 − 𝑄2
• Desviación intercuartil: 𝑄3 − 𝑄2
2
* La desviación intercuartil es una medida que acompaña a la mediana en la descripción de datos
Cálculo de las cuantilas
𝑋𝑝 = 𝑋(𝑟)
• Si r no es entero redondear al entero superior
Donde: r = n x p
Luego de ordenas los datos ascendentementese determina la cuantila p como el lugar que ocupa el lugar «r»
a. Para datos no agrupados
Para la variable edad:
Varones: Mujeres
𝑋0,50 = 43 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 15,5)
𝑋0,25 = 27 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 7,75)
𝑋0,75 = 64 𝑎ñ𝑜𝑠 (𝑛 𝑥 𝑝 = 27,9)
𝑋0,50 = 42 𝑎ñ𝑜𝑠
𝑋0,25 = 35 𝑎ños
𝑋0,75 = 60 𝑎ñ𝑜𝑠
Cálculo de las cuantilas
• Se determina el intervalo que contiene a la cuantila Xp como el intervalo j:
Consideramos las fi y las Fi
b. Para datos agrupados
Usamos la siguiente fórmula:
𝑋𝑝 = 𝐿𝑗𝑖 + 𝑐 (𝑛 . 𝑝 − 𝐹𝑗−1)
𝑓𝑗
𝐹𝑗−1 Frecuencia absoluta acumulada anterior a la clase cuantila j
𝐿𝑗𝑖 Frontera de la clase intervalo j (el punto medio entre los extremos consecutivos para intervalos discretos) o límite inferior para intervalos continuos
Construcción de gráfico de caja y bigote
𝑄1 − 1,5 𝑥 𝑅𝐼𝐶
𝑄1, 𝑄2 , 𝑄3
Calcular
• Rango intercuartílico (RIC): 𝑄3 − 𝑄2
Obtener los límites
• Inferior:
• Superior: 𝑄3 + 1,5 𝑥 𝑅𝐼𝐶
Generando el gráfico de caja y bigote
𝑄1 − 1,5 𝑥 𝑅𝐼𝐶
𝑀𝑒
* Son sensibles a datos atípicos
𝑄3
𝑄3 + 1,5 𝑥 𝑅𝐼𝐶 Variable
𝑄1
Algunas recomendaciones respecto a las medidas de resumen
• No siempre es necesario indicar todas las medidas de resumen
• Buscar las más significativas y representativas
• En distribuciones sesgadas o asimétricas es más apropiada la mediana como medida de tendencia central
Estadística Descriptiva
• Organización de datos • Representación de datos: Tablas y Gráficos
• Medidas de resumen
• Medición de datos numéricos 1. Medidas de posición 2. Medidas de dispersión 3. Medidas de forma
• Medición de datos nominales 1. Proporción 2. Razón 3. Medición epidemiológica
2. MEDIDAS DE DISPERSIÓN
Son medidas que cuantifican la variabilidad de las
observaciones con respecto a un estadígrafo de tendencia
central (generalmente la media aritmética).
Los principales estadígrafos de tendencia central son:
• VARIANZA
• DISPERSIÓN ESTÁNDAR
• COEFICIENTE DE VARIACIÓN
Varianza ( S2) y Desviación estándar (S o DE)
• Nos informan sobre la magnitud de la variación en los datos , la magnitud con la cual las observaciones se agrupan en torno a las medidas
• Sólo se aplica a variables cuantitativas (medidas en escala de razón)
• Nos indica cuánto varía cada individuo respecto a la media
Varianza (S2)
Se define como el promedio del cuadrado de las desviaciones
con respecto la media.
Cuando la varianza es muestral, se denota como S2(x); y si la
varianza es poblacional entonces se denota como σ2.
Estudiaremos la varianza muestral.
1. Para datos no agrupados en tablas.
Obedece a la siguiente fórmula:
S2(X)= n-1
Desarrollando esta sumatoria se puede llegar
a una forma más simple para calcular la
varianza:
S2(X)= n-1
Cálculo de la Varianza
2. Para datos agrupados en tablas.
Obedece a la siguiente fórmula:
S2(X)= n-1
De modo semejante al caso anterior,
desarrollando la fórmula se obtiene:
S2(X)= n-1
• Xi: marca de clase
• fi: frecuencia absoluta
• m: número de clases o intervalos
Cálculo de la Varianza
Se define como la raíz cuadrada positiva de la varianza, y como la
varianza está expresada en unidades cuadradas, la desviación estándar
(que está en las mismas unidades de los datos) representa mejor la
variabilidad de las observaciones.
Desviación estándar (S o DE)
𝑆 𝑥 = 𝑆2(𝑥)
Ejemplo: 5 8 8 5 9
Varianza ( S2) y Desviación estándar (S o DE)
𝑆 𝑥 = 𝑆2(𝑥)
S2(X)= n-1
Media: 7
: 3.5
: 1.87
Interpretación: Existe una variación de 1,87 unidades de cada individuo respecto a la media aritmética.
Coeficiente de variación (C.V.)
Se calcula del siguiente modo:
El C.V. se debe expresar en porcentaje, pues no tiene unidades y sirve
como medida de comparación con otras distribuciones de cualquier
tipo de unidad…el C.V. mide cuán dispersos se hallan los datos.
C.V. < 10% : representa una muestra que tiende a ser homogénea, los
datos o mediciones no son dispersos.
10%< C.V. < 20% : presentan una regular o moderada dispersión.
C.V. > 20% : los datos se muestran muy dispersos.
𝐶. 𝑉. = 𝑆 (𝑥)
𝑋
EJEMPLO:
Rpta: La primera muestra es más homogénea y la dispersión
es mínima.
Coeficiente de variación (C.V.)
𝐶. 𝑉. = 𝑆 (𝑥)
𝑋
Coeficiente de variación (C.V.)
Proporciona los elementos para comparar la variabilidad en distintos
conjuntos de datos que pueden tener distintas medias
Indica el porcentaje de datos que están alejados de la media aritmética
Una desviación estándar de 500 en una distribución con una media de
5000, sugiere una variabilidad mayor que una desviación de 500 en
una distribución de media 5000
Generalmente se expresa en porcentaje 𝐶. 𝑉. = 𝑆 (𝑥)
𝑋 x 100%
Coeficiente de variación (C.V.)
Si C.V. sale 40%, se interpreta como si el 40% de datos está alejado de
la media
𝐶. 𝑉. = 𝑆 (𝑥)
𝑋 x 100%
El C.V. debe ser < 30% que indica una muestra casi homogénea,
entonces poder usar la media y la D.E.
Si el C.V. es > 30% los datos no son homogéneos, entonces usamos la
mediana y su medida de dispersión: desviación intercuartílica
Los siguientes datos corresponden a 20 lecturas de temperatura (en °F)
tomadas en varios puntos de una esterilizadora de calor seco.
415 460 510 475 430 410 425 490 500 470
450 425 485 470 450 455 460 480 475 465
Determine el coeficiente de variación e interprete.
Rpta: 6,07% Los datos son poco dispersos
Resuelva
En el área de radiología se han realizado n determinaciones del
volumen(cm2) de una sustancia química, los datos se han agrupado en
una tabla , donde se conoce la siguiente información:
Calcular la media aritmética, moda, determine e interprete
el coeficiente de variación (C.V.)
(Suma de marcas de clase) Me=43,265 cm2 264
F2=10 f4=7 f6=f1= n-30 F4=25 h3=4/17
Pregunta tipo
Estadística Descriptiva
• Organización de datos • Representación de datos: Tablas y Gráficos • Medidas de resumen
• Medición de datos numéricos 1. Medidas de posición 2. Medidas de dispersión 3. Medidas de forma
• Medición de datos nominales 1. Proporción 2. Razón 3. Medición epidemiológica
3. MEDIDAS DE FORMA
Son medidas que indican la dirección en la dispersión de los datos
respecto a su centro y completan la descripción de las distribuciones
de frecuencia.
Los principales estadígrafos de forma son:
• ASIMETRÍA
• CURTOSIS
ASIMETRÍA
Indica la deformación horizontal de las distribuciones de frecuencia con
respecto a la media aritmética. Para una distribución unimodal tenemos
tres situaciones:
1. Distribución simétrica, en cuyo caso la
media , mediana y moda coinciden y las
frecuencias simples para cada punto
equidistante de la media son iguales.
ASIMETRÍA
2. Distribución asimétrica, es decir, los datos se concentran a uno de
los extremos y aparecen con poca frecuencia hacia el otro extremo.
Asimetría negativa Asimetría positiva
ASIMETRÍA
Coeficiente de asimetría (Skp)
El coeficiente de asimetría de Pearson sirve como
indicador de los grados de asimetría de las
distribuciones de frecuencia.
De donde:
Si Skp = 0, la distribución es simétrica
Si Skp <1, la distribución tiene una asimetría leve
Si 1 < Skp < 2, la distribución tiene asimetría moderada
Si Skp > 2, la distribución tiene una asimetría severa.
𝑆𝑘𝑝 = 3(𝑋 − 𝑀𝑒)
𝑆
ASIMETRÍA
Los siguientes datos corresponden a 20 lecturas de temperatura (en °F)
tomadas en varios puntos de una esterilizadora de calor seco.
415 460 510 475 430 410 425 490 500 470
450 425 485 470 450 455 460 480 475 465
Sin agrupar los datos en tablas de frecuencia calcule: los grados
de asimetría de las distribuciones de frecuencia e interprete.
EJEMPLO
ASIMETRÍA
De la fórmula se desprende la necesidad de calcular la media
aritmética, la desviación estándar y la Mediana.
415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465
1. Cálculo de la media
2. Cálculo de la mediana, datos no agrupados en tabla, n=par, ordenación previa
410 415 425 425 430 450 450 455 460 460 465 470
470 475 475 480 485 490 500 510
𝑆𝑘𝑝 = 3(𝑋 − 𝑀𝑒)
𝑆
𝑀𝑒 =𝑥𝑛2
+ 𝑥𝑛+1/2
2
ASIMETRÍA
Me= 462,5
415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465
3. Cálculo del coeficiente de asimetría
460 =
=
S2(X)= n-1
S2= 778,94
S= 27,90
= 3(460-462,5)/27,90 = -0,2688
𝑆𝑘𝑝 = 3(𝑋 − 𝑀𝑒)
𝑆
𝑋
𝑀𝑒 =𝑥𝑛2
+ 𝑥𝑛+1/2
2
CURTOSIS
Es una medida de la deformación vertical de una distribución de
frecuencias, es decir, nos indica el apuntalamiento o achatamiento
de la curva, la cual está relacionada con la dispersión de datos.
K =
Coeficiente de curtosis
X0,75 – X0,25
2 (X0,90 – X0,10)
1. Distribución platicúrtica: k 1, es decir los datos están
ampliamente esparcidos y la curva es aplanada.
CURTOSIS
2. Distribución mesocúrtica: k 0,25 esto ocurre cuando los datos
tienen una distribución moderada.
3. Distribución leptocúrtica: k 0,5 esto ocurre cuando los datos
están agrupados es un intervalo estrecho, es decir tienen una dispersión
pequeña.
ERROR ESTÁNDAR (E.S)
Llamado también error típico, es una medida de la variabilidad de cada
muestra respecto a la media muestral.
Es útil para describir la dispersión de los datos cuando se tiene dos o más
muestras que comparar.
También se le llama desviación estándar de la media o error típico.
Para datos cuantitativos se calcula de la siguiente manera:
Donde Sx: desviación estándar
n: muestra 𝐸. 𝑆. =
𝑆𝑥
𝑛