Estadística Descriptiva - Indicadores Estadísticos...Moda Como sólo se dispone de la función de...
Transcript of Estadística Descriptiva - Indicadores Estadísticos...Moda Como sólo se dispone de la función de...
Estadística DescriptivaIndicadores Estadísticos
Álvaro José Flórez
1Escuela de Ingeniería Industrial y EstadísticaFacultad de Ingenierías
Febrero - Junio 2012
Estadística Descriptiva
Hasta ahora se ha tratado de organizar la información, resumiéndolaa través de los cuadros de frecuencias y de la representación gráfica,no obstante en ocasiones se requiere de algunas medidas que enforma muy directa puedan indicar rasgos importantes de la muestra,como su magnitud, su homogeneidad, su simetría, etc. Al proceso deresumir los datos por medio de indicadores, se denomina reducciónde datos (Behar and Yepes, 1996).
• Tendencia central• Indicadores de posición• variabilidad• Simetría
Indicadores de tendencia central
La media aritmética (X) de un conjunto de datos: x1, x2, . . . , xn sedefine como:
X =
n∑i=1
xin
Si los datos corresponden a una variable discreta que está organizadaen una tabla de frecuencias, entonces:
X =
m∑i=1
nixin
=
m∑i=1
fixi
Media aritmética
En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:
xi ni fi Ni Fi
0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1
¿Cuál es la mediaaritmética?
Media aritmética
En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:
xi ni fi Ni Fi
0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1
X = 2,02
En promedio unafamilia presenta 2.02personas menores de12 años
Propiedades de la media aritmética
• La suma de las desviaciones de los datos con respecto a la media escero.
n∑i=1
(xi − X) = 0
• La suma de los cuadrados de las desviaciones de los datos conrespecto a un valor a es mínimo, cuando a es igual al promedio.
f(a) =
n∑i=1
(xi − a)2 tiene su mínimo en a = X
• Si todos los datos son iguales a k, entonces el promedio es k
Si xi = k, i = 1, . . . , n entonces X = k
Propiedades de la media aritmética
• Si todos los datos de una muestra se multiplican por unaconstante, el promedio de dicha muestra resulta multiplicandopor la misma constante
Si yi = axi, i = 1, . . . , n entonces Y = aX
• Si Zi = axi + byi, i = 1, . . . , n, donde a y b son constantes,entonces:
Z = aX + bY
Esta propiedad puede generalizarse a la combinación lineal dek variables y puede resumirse diciendo que la media es unoperador lineal
Propiedades de la media aritmética
• Si una muestra de n elementos, se divide en k muestrasexcluyentes y exhaustivas, que tienen n1, n2, . . . , nk
elementos, con promedios x1, x2, . . . , xk respectivamente,entonces el promedio global estará dado por:
X =n1x1 + n2x2 + . . . + nkxk
n=
k∑i=1
nixin
Media aritmética para datos agrupados
Debido a que hay perdida de individualidad de la información alagrupar datos, el calculo de la media se hace de forma aproximada.Para ello se hace el siguiente supuesto :
Los datos en cada intervalo están uniformemente distribuidos. Si estoes cierto, entonces:
Xi = (Li−1 + Li)/2
se puede considerar la muestra total, dividida en m submuestrasconstituidas por los datos que pertenecen a cada uno de los intervalos(propiedad 6)
Media aritmética
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
¿Cuál es el promediodel conjunto dedatos?
Media aritmética
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
En promedio loscilindros de pruebatuvieron unaresistencia de 254.36kg/cm2
Mediana
La mediana tiene el objetivo de dividir el conjunto de datos en dospartes iguales, el 50% de los datos son inferiores a la mediana y el50% superiores.
Si X[1], . . . , X[n] corresponde a un conjunto de datos ordenados demanera no descendente de una variable X, entonces la medianapuede ser calculada como:
Me =
{X[(n+1)/2] Si n es imparX[n/2]+X[(n+1)/2]
2 Si n es par
Mediana
Si los datos están agrupados en m intervalos, la mediana es el puntocuya frecuencia absoluta acumulada es n/2 o la relativa acumuladaes 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.
Una vez localizado el intervalo que contiene la mediana y utilizando lafunción de distribución empírica se puede calcular la mediana como:
Me = Li−1 +0,5 − F (Li−1)
fCi
Mediana
Si los datos están agrupados en m intervalos, la mediana es el puntocuya frecuencia absoluta acumulada es n/2 o la relativa acumuladaes 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.
Una vez localizado el intervalo que contiene la mediana y utilizando lafunción de distribución empírica se puede calcular la mediana como:
Me = Li−1 +0,5 − F (Li−1)
fCi
Mediana
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
¿Cuál es la medianadel conjunto dedatos?
Mediana
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
El 50% de loscilindros de probadostuvo una resistenciaigual o inferior a252.71kg/cm2
Moda
Cuando la variable de interés, es de naturaleza discreta, la moda Mocorresponde al dato de la muestra que tiene mayor frecuencia.
Cuando se trata de una variable de naturaleza continua, la modacorresponde al(os) valor(es) alrededor del(os) cual(es) se produceuna mayor concentración de datos, es decir a los puntos de mayordensidad de frecuencia.
A diferencia de los otros indicadores este es el único que puede sercalculado cuando observamos variables cualitativas.
Moda
En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:
xi ni fi Ni Fi
0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1
¿Cuál es la moda?
Moda
En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:
xi ni fi Ni Fi
0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1
Mo = 2
El número depersonas menores de12 por familia quemás frecuenciaobtuvo en la muestrafue 2
Moda
Como sólo se dispone de la función de densidad empírica que seconstruyó a partir de la muestra, se puede definir un procedimientoque permita acercarse a la determinación de los mencionadosmáximos.
Fig: Histograma de frecuenciasabsolutas para la resistencia de cilindrosde concreto
Resistencia
Den
sida
d
200 220 240 260 280 300 320 340
0.00
00.
002
0.00
40.
006
0.00
80.
010
0.01
2
• La moda se encuentra en el intervalode mayor frecuencia.
• Si las dos clases adyacentes, tienenigual densidad de frecuencia, se puedesuponer que Mo se encuentra en elpunto medio de la clase que lacontiene.En caso contrario, Mo estarádesplazada un poco hacia la claseadyacente de mayor densidad defrecuencia
Moda
Cuando se tiene datos agrupados para una variable continua, la modapuede ser calculada, primero ubicando el intervalo que tenga la mayorfrecuencia y luego aplicando la siguiente formula:
Mo = Li−1 +fi/Ci − fi−1/Ci−1
2(fi/Ci) − (fi−1/Ci−1) − fi+1/Ci+1Ci
Si los intervalos son de igual longitud:
Mo = Li−1 +fi − fi−1
2fi − fi−1 − fi+1C
Moda
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
¿Cuál es la moda delconjunto de datos?
Moda
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
El mayor número deresistencias de loscilindros se encuentraalrededor de251kg/cm2
Algunas consideraciones
La sensibilidad es una cualidad de un indicador que permite detectarcambios producidos en la muestra. Mucha sensibilidad en un indicadorpuede ser contraproducente, puesto que cambios irrelevantes (valoresextremos) en la muestra pueden producir grandes cambios en el indicador,lo cual puede prestarse para interpretaciones equivocadas.
Ejemplo:Suponga que se está interesado en los gastos de los estudiantes en launiversidad y se observó lo siguiente:
Gasto(xi) 1.700 3.000 5.000 6.500 70.000% de personas (fi) 0.1 0.15 0.4 0.3 0.05
¿Que indicador de centralidad representa mejor al conjunto dedatos?
Cuartiles de una distribución
Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada encuatro partes que contienen aproximadamente el mismo número dedatos. Es decir que el 20% de los datos son menores que Q1, el 50%de los datos son menores que Q2 (es igual a la mediana) y el 75%de los datos son menores que Q3.
Para calcular Q1 se identifica primero el intervalo donde se acumulamás del 25% y se aplica la siguiente formula:
Q1 = Li−1 +0,25 − F (Li−1)
fiCi
Q3 se calcula de la misma forma pero ubicándose donde se acumulamás del 75%.
Cuartiles de una distribución
Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada encuatro partes que contienen aproximadamente el mismo número dedatos. Es decir que el 20% de los datos son menores que Q1, el 50%de los datos son menores que Q2 (es igual a la mediana) y el 75%de los datos son menores que Q3.
Para calcular Q1 se identifica primero el intervalo donde se acumulamás del 25% y se aplica la siguiente formula:
Q1 = Li−1 +0,25 − F (Li−1)
fiCi
Q3 se calcula de la misma forma pero ubicándose donde se acumulamás del 75%.
Cuartiles de la distribución
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
¿Cuales son loscuartiles del conjuntode datos?
Diagrama de cajas y alambresEste diagrama constituye una síntesis muy buena de la distribución defrecuencias y su sencillez la hace más útil, sobre todo en situacionesdonde se hace necesario comparar dos o más distribuciones.
Fig: Diagrama de cajas y alambres
158
227
251
272
341
Q3
Q2
Q1
Q1−1.5RIC
Q3+1.5RIC
Para su calculo se utilizan:Para la caja: Q1, Q2, Q3
Cerco superior Q3 + 1,5RIC, Cercoinferior Q1 − 1,5RICdonde: RIC = Q3 −Q1
Diagrama de cajas y alambresEste diagrama constituye una síntesis muy buena de la distribución defrecuencias y su sencillez la hace más útil, sobre todo en situacionesdonde se hace necesario comparar dos o más distribuciones.
Fig: Diagrama de cajas y alambres
158
227
251
272
341
Q3
Q2
Q1
Q1−1.5RIC
Q3+1.5RIC
Los alambres se gráfican con eldata más próximo al cercos sinsuperarlos
En caso de que algún dato seencuentra fuera de los cercos segrafican como puntos y seconsideran atípicos
Diagrama de cajas y alambres
Un diagrama de cajas y alambres es útil para los siguientes propósitos:
1 Para identificar la localización de los datos alrededor de lamediana.
2 Para hacerse una buena idea de la dispersión de los datos,basándose en la longitud de la caja. Además se aprecia elrango de los datos.
3 Permite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los ladosde la mediana.
4 Útil para identificar posibles valores atípicos (fuera de loscercos)
EjemploPermite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los lados dela mediana.
Fig: Diagrama de cajas y alambres
●● ●●●
●● ● ●● ●● ● ●●● ●● ●● ●●● ● ●● ● ●●
−2 0 2 4 6
x
EjemploPermite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los lados dela mediana.
Fig: Diagrama de cajas y alambres de la concentración de CO por hora
●●● ●●●
●●●●●●●●● ●●●●
●●●●●
●
●●●●
●●●●
●●●●
●
●●
●●●
●●
●
●
●●●
●●●●●●●
●
●
●
●●
●●●
●
0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23
02
46
810
Hora
Con
cent
raci
ón d
e C
O (
ppm
)
Indicadores de dispersión
El nivel de representatividad de los indicadores de tendencia centraldependen del grado de homogeneidad o de dispersión de los datosobservados, lo que hace necesario algunos indicadores de dispersión.
Uno de estos indicadores puede ser el rango:
r = max(x1) − mın(xi)
El rango es sencillo de calcular y de muy fácil interpretación, perotiene la gran desventaja que es demasiado sensible a valores extremos
Indicadores de dispersión
El nivel de representatividad de los indicadores de tendencia centraldependen del grado de homogeneidad o de dispersión de los datosobservados, lo que hace necesario algunos indicadores de dispersión.
Uno de estos indicadores puede ser el rango:
r = max(x1) − mın(xi)
El rango es sencillo de calcular y de muy fácil interpretación, perotiene la gran desventaja que es demasiado sensible a valores extremos
Varianza
El indicador de dispersión más usado en estadística es la varianza y estádefinido como.
S2 =1
n
n∑i=1
(xi − x)2
Si los datos están agrupados en intervalos de clase:
S2 =1
n
n∑i=1
ni(xi − x)2 =
n∑i=1
fi(xi − x)2
Una desventaja de la varianza es que sus unidades no coinciden con lasunidades de la variable de estudio. Para remediar esta desventaja, se utilizasu raíz cuadrada (desviación estándar)
Varianza
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
¿Cuál es la desviaciónestándar de losdatos?
Varianza
Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:
Intervalo x′i ni fi Ni Fi
[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1
En promedio lasresistencias de loscilindros de prueba seencuentran alejadasde la media32.55kg/cm2
Propiedades de la varianza
• La varianza también puede ser calculada como:S2 =
∑ni x2
in − (x)2
• La varianza es siempre no negativa.• La varianza de una constante siempre es igual cero: si xi = Centonces S2 = 0
• Si yi = kxi entonces S2y = k2S2
x
• Si yi = xi + C entonces S2y = S2
x
Coeficiente de variación
Por la estructura de la varianza se sabe que cuando aumenta ladispersión el valor de la varianza aumenta, al igual que la desviaciónestándar.
pero, qué se respondería a la pregunta:
¿Una desviación estándar de $100.000 me indica que hay poca omucha dispersión ?
Depende de las magnitudes de los datos.
Coeficiente de variación
El coeficiente de variación (CV) es un indicador de dispersión queinvolucra la magnitud (media aritmética) de los datos que se estudian
CV =S
x100 %
• Se usa para comparar la variabilidad relativa de unacaracterística, en poblaciones que tiene diferente media.
• No hay un valor definido que permita valorar el C.V. comogrande o pequeño (depende del problema)
Bibliografía
Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo.Oficina de publicaciones de la Facultad de Ingeniería de laUniversidad del Valle, Cali, Colombia, vol. 2 edition.