Download - 3. Datos agrupados por intervalo (Variable continua)enithncienciasbasicas.weebly.com/uploads/1/0/0/0/100023220/... · ... los cálculos son una aproximación a la ... mayoría de

DIDÁCTICA N° 3 DATOS AGRUPADOS POR INTERVALOS DE CLASE

1

3. Datos agrupados por intervalo (Variable continua)

Generalmente los datos se agrupan por medio de intervalos de clase, los cálculos

son una aproximación a la realidad, se facilita los cálculos.

En la agrupación de datos se desarrolla una tabla, con los datos siguientes en las

columnas

Tabla n ° 1. Distribución de frecuencias de…Variable en estudio

Variable en estudio Y´ i-1 – Y´ i

Número de veces que se repite la variable ni

Frecuencia relativa hi =( ni/n)100= %

Ni = Frecuencia Absoluta acumulada

Hi= Frecuencia relativa acumulada

Yi = Marcas de clase=Y´ i−1+ Y´ i

2

Calculo de cada una de las columnas:

3.1 Intervalo de Clase.

Es el conjunto de números entre 2 extremos; el menor número se llama Límite

Inferior Y´ i-1 y el mayor número se le llama límite superior Y´ i.

3.2 Número de intervalos de clase (m)

Para seleccionar el número de intervalos de clase, los estadísticos recomiendan

cualquiera de los siguientes diferentes criterios, teniendo como principio:

5m20 ; debido a que si son pocos intervalos de clase, no se mostrarían detalles

sobre los datos, y si son muchos intervalos clases, sería tan confuso como la misma

lista original de datos.

Variable en estudio Y´ i-1 – Y´ i

ni


2

Aplicaremos la regla de Sturges, para calcular el número de intervalos (m), valga la

aclaración que hay otras fórmulas, pero nosotros trabajaremos con ésta.

m=1+3.322 Log n

3.3 Amplitud del intervalo de clase ( C).

C= donde: C= Amplitud del intervalo

R= Rango (mayor valor de los datos menos el menor

Valor de los datos) = X mayor – X menor

Nota: No siempre la amplitud es igual en todos los intervalos, depende del interés

del investigador.

Ejemplo n°1

En cierta finca cafetera se quiere hacer un estudio sobre el rendimiento de las

plantas de café. Los siguientes datos son una muestra de los rendimientos de 20

plantas de café, cuya unidad de medida está dada en libras.

Xi: (Lb)

3.9 3.7 5.8 5.0 4.8 4.4 5.6

7.0 5.6 5.1 3.6 6.8 5.6 3.4

7.0 4.8 2.6 2.7 4.0 4.8

Elabore una tabla de distribución de frecuencias e Interprete , ,

Solución.

1) Número de intervalos de clase (m)

Se recomienda que los intervalos estén entre m= 5 m20

m= 1+3.322 Log 20

m=5.32

Se escoge un número entero de intervalos de 5

2) Rango. Es la diferencia entre el mayor valor y el menor valor que toma la variable,

en este ejemplo es: X Máximo - X Mínimo es decir Rango = 7.0 - 2.6 = 4.4

3) Amplitud de los intervalos (C).


3

Amplitud= C= 𝑅𝑎𝑛𝑔𝑜

𝑚= = 0.88, redondeamos a C= 0.9 al realizar un redondeo de la

amplitud, se amplía también el rango, en este ejemplo, el rango ampliado (Ra) quedo en

4.5 puesto que; Ra= C x m; R a = 0.9 x 5 = 4.5, la diferencia la llamaremos A = (ampliación

de rango)

Ampliación = 0.1 puesto que A = Ra- Rreal; A = 4.5 - 4.4 = 0.1

Ahora dividimos la ampliación del rango entre 2 así: A =0.1/2 = 0.05, para no cambiar la

información real, le restamos 0.05 al valor menor del conjunto de los datos en este caso

es 2.6 – 0.05 = 2.55 y le sumamos 0.05 al valor mayor de los datos, en este ejemplo es 7

+ 0.05 = 7.05, ahora sí, el rango queda de 4.5.

Paso a seguir, cálculo de los límites inferiores y superiores cada intervalo de clase.

4) Cálculo de los límites inferiores y superiores de los intervalos de clase

Vemos que se ha corregido la amplitud usada.

C = (7.05-2.55)/5 = 0.9 Entonces:

Los intervalos los calculamos así: Primer intervalo el límite inferior es 2.55 y calculamos el

límite superior sumando al límite inferior la amplitud: límite superior = límite inferior + la

amplitud es decir; Y´i-1 = 2.55, Y´ i = 0.9+2.55= 3.45 así sucesivamente.

5. Cálculo de las columnas correspondientes a las frecuencias

ni= número de veces que se repite la variable:

Para contar cuantos datos entran en cada intervalo de clase se trabaja así: intervalo

cerrado, abierto » [ …), es decir si tenemos » [a, b), entonces se escribe a≤ x <b

cerrado se incluye el dato a y abierto no se incluye el dato b » ejemplo: Veamos:

entre 2.55 y 3.45, sin incluir 3.45 encontramos 3 dato; entre 3.45 y 4.35 sin incluir 4.35

encontramos 4 datos… Así sucesivamente.

4) Tabla de distribución de frecuencias para datos agrupados por intervalo

Elaboramos la tabla de distribución de frecuencias y calculamos cada columna asi:

Tabla n° 2 Ddistribución de frecuencias de los rendimientos de una plantación de

Cafetales.

Rendimientos (Lb) Y´ i-1 – Y´ i

ni (número de plantas)

hi Ni Hi Yi Marcas de clase (Lb)

2.55 - 3.45 3 0.15 3 0.15 3


4

3.45 - 4.35 4 0.20 7 0.35 3.9

4.35 – 5.25 6 0.30 13 0.65 4.8

5.25 - 6.15 4 0.20 17 0.85 5.7

6.15 – 7.05 3 0.15 20 1.0 6.6

20 1.00

5) Interpretación de tabla.

Interpretemos las siguientes frecuencias:

n3 = Seis cafetales tienen un rendimiento entre 4.35 y 5.25 libras.

N3 = trece cafetales tienen un rendimiento entre 2.55 y 5.25 libras.

h3 = El treinta por ciento de los cafetales tiene un rendimiento entre 4.35 y

5.25 libras.

H3 = El sesenta y cinco por ciento de los cafetales tienen un rendimiento

entre 2.55 y 5.25 libras.

Y3 = tres cafetales tienen un rendimiento promedio de 3 libras.

6) Gráficos para representar datos

Histogramas de frecuencias

Son rectángulos que se grafican en el primer cuadrante de un plano cartesiano.

En la horizontal se indica la variable en estudio (límites inferior y superior) y en

la vertical las frecuencias (ni, hi, Ni, o Hi).

Los rectángulos tienen como amplitud Ci las amplitudes de los intervalos de

clase (representan la base de los rectángulos).

Dibujar los histogramas a los datos de los rendimientos de la plantación de

cafetales

Histograma de Frecuencia Absoluta ; ni vs Y´ i-1 – Y´ i

Tabla 3.4 columnas para graficar ni vs Variable

Y´ i-1 – Y´ i ni

2,55 - 3,45 3

3,45 - 4,35 4

4,35 - 5,25 6


5

Rendimiento de cafetales en Lb

Análisis de la gráfica

- Se puede observar que la mayor frecuencia fue de 6 cafetales con un

rendimiento 4.35 y 5.25 Lb

- Los mayores rendimientos lo tuvieron 3 plantas, entre 6.15 y 7.05 Lb

- Los menores rendimientos se presentaron en tres plantas entre 2.55 y 3.45

Lb

- Seis plantas tienen entre 4.35 y 5.25 de rendimiento

Histograma de Frecuencias Relativas: hi vs Y´ i-1 – Y´ i

Tabla 3.5 columnas para graficar hi vs Variable

Y´ i-1 – Y´ i hi

2,55 - 3,45 0.15

3,45 - 4,35 0.20

4,35 - 5,25 0.30

5,25 - 6,15 0.20

6,15 - 7,05 0.15

5,25 - 6,15 4

6,15 - 7,05 3


6

Rendimiento de cafetales en Lb

Polígonos de Frecuencias Absoluta o Relativa

Es un polígono dibujado en el primer cuadrante de un plano cartesiano, formado por

segmentos de rectas que unen los puntos entre las marcas de clase y las

frecuencias absolutas ò relativas, en la horizontal se indican las marcas de clase y

en la vertical las frecuencias absolutas o las frecuencias relativas, pues los dos

gráficos son iguales.

Marcas de clase: Es el punto medio del intervalo de clase, se obtienen sumando

yi = Y´ i−1+ Y´ i

2 límite inferior más el límite superior de cada intervalo de clase y luego

lo dividimos entre dos.

Véase el polígono de frecuencias de la tabla de frecuencias de las hortalizas.


7

Tabla 3.6 columnas para polígono de frecuencia

Interpretación:

El número 3 de la primera marca de clase indica que hay 3 hortalizas con un

rendimiento promedio de 3 Lb.

Ojiva o polígono de frecuencias acumuladas

Marcas de clase: Yi

variable en estudio

rendimiento en lb ni

3 2,55 - 3,45 3

3,9 3,45 - 4,35 4

4,8 4,35 - 5,25 6

5,7 5,25 - 6,15 4

6,65 6,15 - 7,05 3


8

Es una gráfica formada por segmentos de rectas, que unen los puntos formados por

la intersección de los limites superiores (eje horizontal) y frecuencias acumuladas

(eje vertical), si se desea se puede iniciar la ojiva con el primer límite inferior del

primer intervalo para la frecuencia cero y continuar con los limites superiores

Elaboración de polígono de Frecuencias

Nota: Profundizar los conceptos, use la bibliografía anotada.

Y´ i-1 – Y´ i Ni

2,55 - 3,45 3

3,45 - 4,35 7

4,35 - 5,25 13

5,25 - 6,15 17

6,15 - 7,05 20


9

III. MEDIDAS DE TENDENCIA CENTRAL

Son métodos utilizados para describir un conjunto de datos, mediante un único valor.

Estas medidas nos indican básicamente los valores alrededor de los cuales están la

mayoría de los datos.

Trabajaremos con la media aritmética, la mediana y la moda, la media geométrica y la

media ponderada.

NOTA

Con el fin de ilustrar la técnica usaremos el ejemplo de la muestra de los cafetales

para casos de datos agrupados por intervalo; luego ilustraremos con problemas de

diferentes áreas de formación tales como ingeniería, administración, sicología,

medicina humano o veterinaria.

1. MEDIA ARITMÉTICA

PARA DATOS NO AGRUPADOS

Llamada también promedio, se denota (cuando es poblacional) y por x (cuando es

muestral)

La media es una medida muy útil para comparar dos o más poblaciones.

Media poblacional ( ) si hay N observaciones en el conjunto de datos de la

población, la media se calcula así:

Media poblacional

= N

XXX

N

XNi

Ni

i

...211

Donde ∑𝑖=𝑁𝑖=1 es el signo de sumatoria que indica que se suman todas las observaciones

desde i=1 hasta i=N

Media muestral ( x )

x = n

xxx

n

xni

...21

En donde:


10

Xi = son los datos observados de la población

x1= son los datos observados de la muestra

N = tamaño de la población

n = tamaño de la muestra

= Letra griega “que indica suma”

Ejemplo1:

Suponga que en el ejercicio de los cafetales muestreados, queremos hallar la media aritmética,

primero calcularemos suponiendo que los datos no se agruparon, entonces tomaríamos todos

los datos y los sumamos, el resultado lo dividimos entre el número de datos o tamaño de la

muestra.

x

=

3.9+3.7+5.8+5.0+4.8+4.4+5.6+7+7+5.6+4.8+5.1+2.6+3.6+2.7+6.8+4.0+5.6+4.8+3.4

20

= 96.2

20 = 4.81 Lb

Interpretación: El rendimiento promedio de los cafetales muestreados es de 4.81libras

PARA DATOS AGRUPADOS

Para evaluar la media aritmética de datos agrupados por intervalo se considera que las

observaciones de cada clase están representadas por el punto medio de cada clase (marca

de clase).

La media de un conjunto de datos agrupados por intervalos se calcula así:

Muestraln

ynX

ii

N

niYi = Poblacional

Ejemplo2:

Usaremos nuevamente el ejemplo de los cafetales, pero ahora consideraremos que los

datos se agruparan. Tomando la tabla de frecuencia nº XX y observando que los datos

corresponden a una muestra, usaremos la formula correspondiente.

Muestraln

ynX

ii

;

∑ 𝑛𝑖𝑦𝑖

𝑛=

2∗2.8+4∗3.6+2∗4.4+5∗5.2+4∗6.0+3∗6.8

20=


11

= 5.6+14.4+8.8+26+24+20.4

20= 4.96 𝐿𝑏

Interpretación: El rendimiento promedio de las hortalizas muestreadas es de 4.96 libras

Observamos una diferencia entre los dos promedios puesto que en datos agrupados

trabajamos con, (yi) promedios y por tanto este es un valor aproximado

LA MEDIA PONDERADA

La media ponderada toma en cuenta la importancia relativa de las observaciones, es decir:

Hay ocasiones en que se quiere expresar en una sola cifra, los resultados de varios grupos,

por ejemplo de personas. En tales casos, el promedio general para los diferentes grupos

no se obtiene mediante los promedios parciales, sino que es necesario tener en cuenta en

cuantas observaciones o frecuencia se basa cada uno.

La fórmula será: Si tenemos los promedios 𝑥1, �̅�̅̅ ̅̅ ̅̅ 2, 𝑥3, … 𝑥�̅�̅̅ ̅̅ ̅̅ ̅̅ ̅̅ Calculados respectivamente

con las frecuencias n1, n2, n3,…ni el promedio correcto será:

Promedio ponderado= 𝒏𝟏𝒙𝟏̅̅̅̅ +𝒏𝟐𝒙𝟐̅̅̅̅ +𝒏𝟑𝒙𝟑̅̅̅̅ …𝒏𝒊�̅�𝒊

𝒏𝟏+𝒏𝟐+𝒏𝟑+⋯𝒏𝒊=

∑ 𝒙𝒊𝒏𝒊

∑ 𝒏𝒊

Ejemplo 3

Supongamos un grupo de 4 mujeres y cuatro hombres, cuyos pesos fueron los siguientes:

Mujeres: 46, 48, 52, 54 y su promedio fue : 46+48+52+54

4 = 50 Kilos

Hombres: 55, 58, 59, 60, 61, 67 y su promedio fue : 55+58+59+60+61+57

6 =60 Kilos

Hallar la media ponderada o el promedio general entre hombres y mujeres.

Promedio de peso entre hombres y mujeres o media ponderada entre hombres y

mujeres =𝑛1𝑥1̅̅̅̅ +𝑛2𝑥2̅̅̅̅

𝑛1+𝑛2 =

4∗50+6∗60

10= 56 Kilos

Ejemplo 4.

Si el profesor de estadística, dice que el examen final valdrá el doble de los otros exámenes

para determinar la nota final, entonces al puntaje que se obtenga en el examen final debe

dársele el doble de peso. Es decir, que debe contarse doble al calcular la nota. Esto es

exactamente lo que hace la media ponderada al utilizar la fórmula


12

Nota: Se asume que se tuvo un puntaje de 89,92 y 79 en los exámenes parciales y 94 en

el examen final. Estos puntajes y sus respectivas ponderaciones están reflejados en la tabla

nºxxxx:

Cálculo de la media ponderada

Tabla nº xxx

Nota(xi) Peso(ni) Xi*ni

49 1 89

92 1 92

79 1 79

94 2 188

∑ 𝑥𝑖 5 448

Este método es igual que sumar la nota del examen final 2 veces al calcular la media

wX =89+92+79+2∗94

5= 89,6

2. LA MEDIANA: (Me)

También llamada media posicional, porque queda exactamente en la mitad del conjunto de

datos, después de que las observaciones se han colocado en serie ordenada de menor a

mayor o lo contrario. La mitad de las observaciones estará por encima de la mediana y la

otra mitad estará por debajo de ella.

Tiene como ventaja sobre la media aritmética que los valores muy grandes o muy pequeños

con relación al conjunto de datos no tiene ninguna influencia sobre ella.

MEDIANA PARA DATOS NO AGRUPADOS.


13

- Si el conjunto de datos tiene un número impar de observaciones la posición de la

mediana es (después de organizar los datos de menor a mayor o lo contrario):

Posición de la Me=𝑛+1

2 ; o simplemente el valor del centro, en caso de numero de

observaciones sea pequeño

- Si el conjunto de datos es par, es necesario promediar los dos valores medios, también

podemos utilizar la fórmula : Me=𝑛+1

2

- Ejemplo 5

Suponga que se toma una muestra de los ingresos mensuales en una empresa en miles de

dólares (5 meses) US$ 56, 57, 52, 45, y 67. (Número impar de datos)

- Hallar la mediana.

Ordenamos de menor a mayor:

US $ 45, 52, 56, 57,67

La posición del valor de la mediana será: posición de Me=5+1

2 = 3 ósea será el dato de la tercera

posición, es decir: US $56 = Me

Interpretación:

La mitad de los ingresos estuvieron por debajo de US $56.000

- Ejemplo 6

Si en el mismo ejemplo el número de ingresos de ventas es Par: US $35, 45, 52, 56, 57,67 (ya

ordenados) el valor de la mediana será:

1) Posición de la mediana

Posición=6+1

2 = 3.5

2) Valor de la mediana Me = 52+56

2 =

108

2 = 54, Interpretación: La mitad de los ingresos

estuvieron por debajo de US $54.000

3)

MEDIANA PARA DATOS AGRUPADOS POR INTERVALOS.

Partimos de que los datos están organizados por intervalo, por lo tanto parte de la

información ya no es identificable; como resultado, no es posible determinar la mediana

exacta. Sin embargo, puede estimarse: entonces; 1) Localizamos la clase en que se

encuentra la mediana. 2) Realizando interpolaciones dentro de esa clase para obtener

dicho valor, la razón de éste enfoque es que se supone que los datos están espaciados

uniformemente, en la clase mediana.

Formula: En donde: Li = límite inferior de la clase modal

2

n= nos sirve de referencia para ubicar la clase mediana

Ni-1= Frecuencia acumulada anterior a la clase mediana

Ci = amplitud de la clase modal


14

Me= Yi-1 + i

j

i

Cn

Nn

)2(1

Ejemplo 7

Para ilustrar el método continuemos con el ejercicio de las hortalizas.

Suponga que en el ejercicio de las hortalizas muestreadas, queremos hallar la mediana.

Me = Yi-1 + (n/2 – Ni – 1) ci

ni

Primero calcularemos la clase mediana, para ello tomamos n (número total de la muestra)

n/2 = 20/2 = 10

Con el valor encontrado vamos a la Columna Ni (frecuencia absoluta de datos en la

tabla de frecuencia absoluta, ( ver tabla xxx , didáctica 2), y busco 10, si no lo

encuentro tomo el valor inmediato superior; en este caso sería el 13 y luego nos

vamos al intervalo correspondiente en este caso es (4,8 – 5,6), este intervalo debe

contener el valor de la mediana y se le llama intervalo de clase mediana.

Me = 4.8 + (10 - 8) 0.90 = 4.8+0.36 = 5.16 Lb.

5

Interpretación: El 50% de los rendimientos de las hortalizas muestreadas está por

debajo de 5.16 Lb

NOTA: Si al hallar 𝑛

2 encontramos ese valor en la columna Ni, se puede afirmar que

el valor de la Me es el límite inferior del intervalo correspondiente, y por tanto no se

requiere el uso de la formula anterior.

3. LA MODA: MO

Se define como el dato que tiene mayor frecuencia.

MODA DATOS NO AGRUPADOS.

En datos no agrupados se toma el dato que más se repite, si existe dos datos que

tiene igual frecuencia se dice que la distribución de datos es bimodal

Ejemplo 8


15

Utilizando el ejemplo anterior de: Suponga que se toma una muestra de los ingresos mensuales

en una empresa en miles de dólares US$ 35, 45, 52, 56, 57, 67, 67

La moda es US $ 67 Interpretación: El ingreso con mayor frecuencia es US $ 67.

Ejemplo 9

Si por ejemplo se agregara otro ingreso (56) entonces el conjunto de datos sería bimodal, es

decir con dos modas: US $ 56 y 67

Interpretación: Los ingresos con mayor frecuencia son US $ 56 y 67

MODA DATOS AGRUPADOS: Mo

Para datos agrupados por intervalo es posible aproximar la moda utilizando el punto medio de la

clase que contiene el mayor número de frecuencias de clase.

Formula:

Mo= Li + (21

1

)

ic En donde:

Li = límite inferior de la clase modal

1 = frecuencia de la clase modal menos la frecuencia de la clase anterior.

2 = frecuencia de la clase modal menos la frecuencia de la clase siguiente.

Ci = amplitud de la clase modal

Ejercicio 10

Solo para ilustrar el método continuemos con el ejercicio de las hortalizas.

Suponga que en el ejercicio de las hortalizas muestreadas, queremos hallar la moda

La fórmula a usar es:

Mo = Li + (Δ 1) Ci Δ1 + Δ2 La clase modal, es decir la clase que contiene a la moda la identificamos en la tabla de frecuencias, en la columna, ni, es tiene mayor valor de frecuencia absoluta. En este caso es n4 = 5, por tanto el intervalo de clase con mayor frecuencia es (4.8- 5.6)


16

Mo = 4.8 + (5 – 2)__ 0.90 = 4.8 + 0.75 (5-2) + (5-4) Interpretación: El rendimiento más frecuente es 5.55Lb

4. MEDIDAS DE DISPERSIÓN

Miden que tanto se apartan los datos u observaciones alrededor de la media

aritmética. Las medidas más útiles son la varianza y la desviación estándar

4.1 VARIANZA Y DESVIACIÓN TÍPICA O ESTÁNDAR

4.1.1 Para datos no agrupados:

La varianza tiene dos notaciones; 2 varianza poblacional y 2S varianza muestral

lpoblaciona Varianza

2

2

N

iX

muestral 1

2

2 Varianzan

Xi

XS


17

En donde:

2 = Varianza o varianza poblacional

iX = Cada uno de los datos observados

= Media poblacional

N= Tamaño de la población

2S = Varianza Muestral

X = Media Muestral

n= Tamaño Muestral

Debido a que es complejo hacer comparaciones entre la media medida lineal y la varianza

cuadratica, surgió la fórmula de la desviación estándar muestral:

2SS

Ejemplo 1. Calcular la varianza y la desviación estándar de los siguientes datos de una

muestra:

3, 1, 4, 2, 0, donde la media es X = 2

Solución

Tabla n°4.1 Cálculo de la Varianza datos muestrales. Datos no agrupados

iX

xi - X

(xi - X )2

3 1 1

1 -1 1

4 2 4


18

2 0 0

0 -2 4

210 X

iX

2

2

1

n

Xi

XS

5,24

102 S 58,15,2 S

Interpretación: la variación de los datos correspondientes a la muestra, respecto a la

media aritmética es de 1,58

4.1.2 Las fórmulas para el cálculo de la varianza y la desviación típica para datos

agrupados son los siguientes:

1

22

n

inX

iy

S ;

1

2

n

inX

iy

S

;

22

2

N

in

iy

N

in

iy

En donde:

2S = Varianza Muestral

= Sumatoria desde i = 1 hasta m = Número de intervalos.

iy = Marcas de clase

in = Frecuencias absolutas

2 = Varianza poblacional

= Desviación típica poblacional o error típico

X = Media Muestral

= Media Poblacional

Nota 1.

Varianza y desviación estándar Muestral

respectivamente.

Varianza y desviación estándar

Poblacional respectivamente.


19

Recordar, para datos no agrupados, Yi, Simboliza los valores de la variable. Para datos

agrupados, Yi, representa la marca de clase.

Ejemplo 2.

Calcular la varianza y la desviación estándar de los siguientes datos correspondientes a

una muestra tomada de las notas de los cursos de estadística de la universidad de Medellín.

Tabla n°4.2 Calificaciones de la muestra tomadas de los cursos de estadística. Datos

agrupados por intervalo

Calificaciones

Y´ï-1- Y´ï ni

# de Estudiantes Marca de

clase: Yi

Yi*ni

40 – 49 5 44.5 222.5

50 – 59 2 54.5 109

60 – 69 12 64.5 774

70 – 79 14 74.5 1043

80 – 89 9 84.5 760.5

90 – 99 6 94.5 567

∑ 48 3496

83,7248

3496X

Solución.

La fórmula para la varianza es

1

2

2

n

inX

iY

S y para su cálculo, continuamos con

la tabla 4.2, adicionando las siguientes columnas:

Yi, 2Xi

Y y i

nXi

Y2

Tabla n° 4.3 Para cálculo de la varianza. Datos agrupados


20

Aplicando la fórmula de varianza:

1

2

2

n

inX

iY

S =11231,44

48−1 =

11231,44

47 = 238,97→ Varianza

Por tanto la desviación estándar es:

S = √238,97 = 15.46

Interpretación: La tendencia de variariación por encima y por debajo, de las calificaciones

muestreadas, respecto a su media aritmética es de 15.46

4.2 COEFICIENTE DE VARIACIÓN (CV)

Es una medida porcentual, que permite la comparación entre dos o más distribuciones de

datos, con unidades de medición diferentes.

Esta medida es adimensional, es decir, carece de magnitud.

100X

SCV = %

Nota 2.

Si la media aritmética es negativa se utiliza el valor absoluto

Calificaciones

Y´í-1- Y´i

Estudiantes

ni

Frecuencia

acumulada

Ni

Marca de

clase

Yi

2Xi

Y i

fXi

Y2

40 – 49 5 5 44,5 802,59 4012,95

50 – 59 2 7 54,5 335,99 671,98

60 – 69 12 19 64,5 205,35 2464,2

70 – 79 14 33 74,5 2,79 39,06

80 – 89 9 42 84.5 136,19 1225.71

90 – 99 6 48 94.5 469,59 2817.54

∑ 48 11231.44


21

Debido a que la desviación típica y la media vienen indicadas en unidades de medición

iguales, al establecer la división, se elimina la unidad de medición.

Otras medidas relativas son los valores de las variables de las distribuciones probabilísticas.

Una de las más utilizadas son los valores Z de la distribución normal.

Ejemplo 31. Calcular la media, la mediana, la varianza y la desviación típica de los datos

siguientes:

Tabla n° 4.4 Distribución porcentual de los costos de mano de obra en la producción

de algunos pequeños animales en Colombia.

Producción

Mano de obra %

Apicultura 26,8

Avicultura huevos 2,8

Avicultura pollos 3,0

Piscicultura 15,6

Porcicultura ceba 2,6

Porcicultura cría 4,8

Suponiendo que son datos muéstrales, tenemos:

1. Cálculo de la media para datos no agrupados:

�̅� = 27,96

4,8 + 2,6 + 15.6 + 3 + 2,8 + 26,8 %

El promedio de los porcentajes de los costos de mano de obra en la producción de ciertos

animales, es del 9,27%.

2. Cálculo de la mediana

Ordenando los datos, obtenemos:

2,6 2,8 3,0 4,8 15,6 26,8

9,32

8,40,3

Me %

1 Profesor Orlando Lastra…..


22

El 50% del porcentaje de los costos de mano de obra en la producción de estos animales,

se encuentra entre 2,6 y 3,9%.

3. Cálculo de la varianza

La fórmula de la varianza para datos no agrupados es:

1

22

n

Xi

XS

Disponemos los datos en la siguiente forma:

Tabla n° 4.5 Cálculo de Varianza. Datos no agrupados Distribución porcentual de los

costos de mano de obra en la producción de algunos pequeños animales en

Colombia.

Producción

Costo

Mano de obra 2X

iX

Apicultura 26,8 307,3009

Avicultura huevos 2,8 41,8609

Avicultura pollos 3,0 39,3129

Piscicultura 15,6 40,0689

Porcicultura ceba 2,6 44,4889

Porcicultura cría 4,8 19,9809

∑ 493,0134

6,98

16

0134,493

1

22

n

Xi

XS

Cálculo de la desviación estándar.

%

Interpretación: La variación porcentual por encima y por debajo del costo de mano de

obra respecto al promedio es 9,93%

Nota 3

93,96,982 SS


23

Debemos tener en cuenta que a mayor valor de la varianza o de la desviación típica hay

mayor variabilidad de los datos, es decir, los datos son más heterogéneos.

La varianza y la desviación típica adquieren más importancia cuando hacemos

comparaciones entre grupos de datos que tienen la misma unidad de medición.

Observe también que hemos comparado la desviación típica con la media porque presentan

la misma unidad de medición; en este último ejemplo, ambas vienen indicadas en

porcentajes. No podemos hacer comparaciones con la varianza porque su medida, en este

ejemplo, es porcentaje al cuadrado, (%) . La variancia, generalmente, presenta unidades

extrañas.

Dos consideraciones para comparar grupos de datos utilizando la desviación típica:

1. Las medidas deben ser muy parecidas.

2. Las unidades de medición de la media y la desviación típica deben ser

iguales.

Ejemplo 42.

De las tres series de datos siguientes, ¿Cuál presenta mayor variabilidad?

Tabla n° 4.6 Series de datos con sus medidas de promedios y desviación estandar

Serie

i

X i

S Unidad de medición

I 800 150 Fruto/planta

II 635.483,7 2.455,39 $

III 95 5 Kg.

Solución.

Como las unidades de medición son distintas para cada una de las series, la única medida

que podemos utilizar para comparar la variabilidad, entre las tres series, es el coeficiente

de variación

%100X

SCV

%75,18100ntafrutos/pla 800

ntafrutos/pla 150

ICV

2 Profesor Orlando Lastra…


24

%3864,0%1007,483.635$

39,455.2$

IICV

%2632,5%100Kg. 95

Kg. 5

IIICV

Observe que en el cálculo de los tres coeficientes de la variación las unidades de medición

desaparecieron, por ejemplo, en CV III se eliminan los Kg. Por estar en el numerador y en

el denominador.

Vemos que la serie que presenta mayor variabilidad es la serie 1 (tiene el mayor coeficiente

de variación) y la más homogénea, es decir, la de menor variabilidad, es la serie II. Si solo

consideramos la desviación típica podríamos pensar erradamente que la serie II es la que

tiene mayor variabilidad.

4.3 PROPIEDADES DE LA MEDIA ARITMÉTICA Y LA VARIANZA

1. La varianza siempre será cero o positiva. La media puede ser negativa, cero o

positiva.

2. La varianza de una constante es cero. El promedio de una constante es la misma

constante.

3. El valor de la media siempre debe estar entre el menor y el mayor valor de los datos.

La varianza no presenta esta característica.

4. La suma de las desviaciones de los datos con respecto a la media siempre es cero.

En símbolos: 0 Xi

X

4.4 MEDIDAS DE POSICION PORCENTUAL

Son aquellas que dividen el conjunto de datos en partes o proporciones iguales,

miden la dispersión del conjunto de datos.

Cuartiles (Qa)

Qa = Dividen la información en cuatro partes iguales.


25

El cuartil dos es igual a la mediana. Q2 = Me. Es decir la mitad de las

observaciones están por debajo y la mitad están por encima.

Deciles ( Da)

Da = Dividen la información en diez partes iguales.

Percentiles (Pa)

Pa = Dividen la información en cien partes iguales.

Para su cálculo en datos no agrupados primero calculamos su ubicación y luego la

medida de interés.

4.4.1 Fórmulas para ubicarlos (Datos No Agrupados)

Cuartiles (Qa)

UQa = a(n+1)/4

Deciles (Da)

UDa = a(n+1)/10

Percentiles (Pa)

UPa = a(n+1)/100

Q1 Q2 Q3

Q1 Q2 … Q9


26

Ejemplo 5 : sean los siguientes datos ordenados de menor a mayor 3, 5,15, 30,

35, 45,50. Halle las siguientes medidas Q3, P32.

Solución:

Cálculo de cuartil 3.

Número de datos impar; n=7

Ubicamos la posición de la medida de interés

UQ3 = 3(7+1)/4 = 6

Q3=45

Interpretación: La posición es la 6 y corresponde al número 45, esto quiere decir

que el 75% de los datos está por debajo de 45% o el 75% de los datos esta entre

3 y 45.

Calculo del percentil 32

Ubicamos la posición de la medida de interés

UP32 = 32(7+1)/100 =2, 6

Tomamos el dato número 2 y al siguiente le restamos el anterior es decir (15-5)

y lo multiplicamos por el decimal es decir 0.6.

P32= 5 (15-5)0.60= 9

Interpretación: El 32% de los datos está por debajo de 9.

4.4.2 Para datos agrupados

Utilizamos las siguientes fórmulas, calculando la medida de interés en forma similar como

calculamos la mediana para datos agrupados por intervalo.

Cuartiles (Qa)

Qa = Y¨i-1 + (

𝑎𝑛

4−𝑁𝑖−1)

𝑛𝑖 ci

Deciles (Da)

Da = Y¨i-1 + (

𝑎𝑛

10−𝑁𝑖−1)

𝑛𝑖 ci


27

Percentiles (Pa)

Pa = Yï-1 + (

𝑎𝑛

100−𝑁𝑖−1)

𝑛𝑖 ci

En donde:

Yï-1 = Límite inferior del intervalo que contiene la medida porcentual de interés.

a= subíndice representa la proporción de interés

n=Tamaño de la muestra

Ci= amplitud del intervalo de clase

Ni-1 = Frecuencia acumulada anterior a la frecuencia acumulada que contiene la medida

porcentual de interés

ni= frecuencia absoluta correspondiente al intervalo que contiene la medida porcentual de

interés.

Ejemplo 6:

Del ejemplo n°2, página 3. Calcular Q3:

Aplicando la fórmula para cuartiles se tiene,

Q3 = Yï-1 + (

𝑎𝑛

4−𝑁𝑖−1)

𝑛𝑖 ci = 80 +

(3∗ 48

4−33)

9 10 = 80+

(36−33)10

9 = 83,33%

Interpretación:

El 83,33% de las calificaciones de estadística en la universidad de Medellín están por

debajo del 75%

Las demás medidas porcentuales se calculan de igual forma.

4.5 RANGO INTERCUARTÍLICO (RIQ)

Es la diferencia entre el Q3 y Q1, es decir Q3-Q1 ó P75-P25; la mitad de las observaciones se

clasifican dentro de ese rango, o lo que es igual, conformado por el 50% de la mitad de las

observaciones, eliminando el 25% inferior y el 25% superior del conjunto de datos., por lo

que implica que no está influenciada por medidas extremas.


28

Resumen

a) Media aritmética

a)Media o Promedio b)Media ponderada

a) Medidas de Tendencia central b) Mediana

c) Moda

a) Cuartiles

b) Medidas de Posición Porcentual b) Deciles

Tipos de medidas

c) Percentiles

a) Rango

c) Medidas de Dispersión b)Varianza

c) Desviación típica o estándar o error típico

Continuación del ejercicio sobre los rendimientos de las plantas de café.

(Ejercicio nº1). Aplicaremos las medidas de dispersión.


29

Cálculo de la Varianza y la desviación Estándar

Rendimientos (Lb) Y´ i-1 – Y´ i

ni (número de plantas)

hi Ni Hi Yi Marcas de clase (Lb)

2.55 - 3.45 3 0.15 3 0.15 3

3.45 - 4.35 4 0.20 7 0.35 3.9

4.35 – 5.25 6 0.30 13 0.65 4.8

5.25 - 6.15 4 0.20 17 0.85 5.7

6.15 – 7.05 3 0.15 20 1.0 6.6

20 1.00

𝒚𝒊 𝒏𝒊 (𝒚𝒊 − �̅�)2

(𝒚𝒊 − �̅�)𝟐𝒏𝒊

9 3.24 9.72

15.6 0.81 3.24

28.8 0 0

22.8 0.81 3.24

19.8 3.24 9.72

96 25.92

MEDIDAS DE TENDENCIA CENTRAL

1. Media Aritmética: �̅� =∑ 𝒚𝒊∗𝒏𝒊

𝒏

�̅� =∑ 𝒚𝒊 ∗ 𝒏𝒊

𝒏=

𝟗𝟔

𝟐𝟎= 𝟒. 𝟖 𝒍𝒃


30

MEDIDAS DE DISPERSIÓN:

1. Varianza muestral : 𝑺𝟐

Procedimiento para hallar la Varianza:

𝑺𝟐 = ∑(𝒚𝒊 − �̅�)𝟐 ∗ 𝒏𝒊

𝑛 − 1

𝑺𝟐 = 25.92

20−1=

25.92

19= 1.36Lb

2. Desviación Típica o Desviación Estándar: 𝑺

Procedimiento para hallar la Desviación típica o estándar:

𝑺 = + √∑(𝒚𝒊 − �̅�)𝟐 ∗ 𝒏𝒊

𝑛 − 1

𝑺 = + √𝟏. 𝟑𝟔 = 𝟏. 𝟏𝟔𝟔 Lb

Interpretación del resultado de la desviación estándar: 𝑺

Hay que recordar que la media aritmética nos había dado:

�̅� = 𝟒. 𝟖

El promedio de rendimiento que se obtiene en las 20 plantas de

café es de 4.8 Libras.

Para el caso de los datos tabulados correspondiente al rendimiento de las

plantas de café (20 plantas), se obtuvo una desviación estándar:

𝑺 = 𝟏. 𝟏𝟔𝟔 𝒍𝒃.

Esto indica que la mayor parte de los datos están agrupados (dentro de

𝟏. 𝟏𝟔𝟔 𝒍𝒃, por encima y por debajo de la media aritmética) entre:

�̅� − 𝒔 = 𝒚 �̅� + 𝒔 =

a. �̅� − 𝒔 = 𝟒. 𝟖 − 𝟏. 𝟏𝟔𝟔 = 𝟑. 𝟔𝟑𝟒 𝒍𝒃

b. �̅� + 𝒔 = 𝟒. 𝟖 + 𝟏. 𝟏𝟔𝟔 = 𝟓. 𝟗𝟔𝟔 𝒍𝒃


31

3. Coeficiente de variación 𝑪𝑽:

Procedimiento para hallar el Coeficiente de variación 𝑪𝑽:

𝑪𝑽 =𝑺

�̅�∗ 𝟏𝟎𝟎

𝑪𝑽 =𝟏. 𝟏𝟔𝟔

𝟒. 𝟖̅̅ ̅̅ ̅∗ 𝟏𝟎𝟎 = 𝟐𝟒. 𝟐𝟗%

NOTA: Al ser bastante cercano a cero diremos que es bastante homogénea, por lo

que la media de la distribución será bastante representativa del conjunto.

CÁLCULO DE LAS MEDIDAS PORCENTUALES

1. Primer cuartil Q1

a) Calculo del primer cuartil, considerando los datos no agrupados

Procedimiento para hallar primer cuartil

Datos no agrupados

Primero se ordenan los 20 datos dados para el estudio

3.9 3.7 5.8 5.0 4.8 4.4 5.6

7.0 5.6 5.1 3.6 6.8 5.6 3.4

7.0 4.8 2.6 2.7 4.0 4.8

2,6 2,7 3,4 3,6 3,7 3,9 4,0 4,4 4,8 4,8 4,8 5,0 5,1 5,6 5,6

5,6 5,8 6,8 7,0 7,0

Segundo utilizar la siguiente formula:

𝑸𝟏 =𝟏 ∙ (𝒏 + 𝟏)

𝟒

𝑸𝟏 =𝟏 ∙ (𝟐𝟎 + 𝟏)

𝟒= 𝟓. 𝟐𝟓 ; 𝟓 + 𝟎, 𝟐𝟓 = 𝟓, 𝟐𝟓

𝑸𝟏 = 𝟓, 𝟐𝟓 𝒆𝒔 𝒅𝒆𝒄𝒊𝒓 𝒒𝒖𝒆 𝒅𝒆𝒃𝒆 𝒆𝒔𝒕𝒂𝒓 𝒆𝒏𝒕𝒓𝒆 𝒍𝒂 𝒒𝒖𝒊𝒏𝒕𝒂 𝒚 𝒔𝒆𝒙𝒕𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏.


32

𝑺𝒊𝒆𝒏𝒅𝒐 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟑, 𝟗 𝒍𝒂 𝒔𝒆𝒙𝒕𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏

𝑺𝒊𝒆𝒏𝒅𝒐 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟑, 𝟕 𝒍𝒂 𝒒𝒖𝒊𝒏𝒕𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏

𝟔𝒂𝒑𝒐𝒔𝒊𝒄𝒊𝒐𝒏 − 𝟓𝒂𝒑𝒐𝒔𝒊𝒄𝒊𝒐𝒏 = 𝟑, 𝟗 − 𝟑, 𝟕 = 𝟎, 𝟐

𝑬𝒔𝒕𝒆 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐 "0,2" se multiplica por la fracción "0,25" 𝟎, 𝟐 ∗ 𝟎, 𝟐𝟓

= 𝟎, 𝟎𝟓

𝑨𝒉𝒐𝒓𝒂 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟎. 𝟎𝟓 𝒔𝒆 𝒍𝒆 𝒔𝒖𝒎𝒂 𝒂𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟑, 𝟕, 𝒆𝒔 𝒅𝒆𝒄𝒊𝒓:

𝑳𝒖𝒆𝒈𝒐 𝒆𝒍 𝒑𝒓𝒊𝒎𝒆𝒓 𝒄𝒖𝒂𝒓𝒕𝒊𝒍 𝒆𝒔 𝑸𝟏 = 𝟑, 𝟕 + 𝟎, 𝟎𝟓 = 𝟑, 𝟕𝟓

b) Cálculo del primer cuartil, considerando los datos agrupados

Rendimientos (Lb)

𝒚′𝒊−𝟏 − 𝒚′𝒊

(número de

plantas)

𝒏𝒊

𝑵𝒊

2.55 - 3.45 3 3 → 𝑵𝒊−𝟏

3.45 → 𝒚′𝒊−𝟏 - 4.35 4 → 𝒏𝒊 7 → 𝑵𝒊

4.35 – 5.25 6 13

5.25 - 6.15 4 17

6.15 – 7.05 3 20

20

Primero se divide el tamaño de la muestra por 4:

𝒏

𝟒=

𝟐𝟎

𝟒= 𝟓

Se busca este resultado “5” en los datos de la frecuencia absoluta

acumulada. Observamos que este valor no aparece en la columna

de las frecuencias absolutas acumuladas, por tal razón,

seleccionamos el valor inmediatamente anterior (3) como 𝑵𝒊−𝟏 y

al valor inmediatamente superior teniendo a (7) como 𝑵𝒊. Ahora

veamos la formula a aplicar :


33

𝑸𝟏 = 𝒚′𝒊−𝟏 + 𝑪 ∙ [

𝒏𝟒 − 𝑵𝒊−𝟏

𝒏𝒊]

𝑸𝟏 = 𝟑. 𝟒𝟓 + 𝟎, 𝟗 ∙ [𝟓 − 𝟑

𝟒] ≫≫ 𝑸𝟏 = 𝟑, 𝟒𝟓 + 𝟎, 𝟗 ∙ (𝟎, 𝟓) ≫≫≫ 𝑸𝟏 = 𝟑, 𝟗

2. Cálculo del tercer cuartil Q3

a) Datos no agrupados es decir desarrollando el mismo ejercicio como datos

no agrupados

Primero se ordenan los 20 datos dados para el estudio

3.9 3.7 5.8 5.0 4.8 4.4 5.6

7.0 5.6 5.1 3.6 6.8 5.6 3.4

7.0 4.8 2.6 2.7 4.0 4.8

2,6 2,7 3,4 3,6 3,7 3,9 4,0 4,4 4,8 4,8 4,8 5,0 5,1 5,6 5,6

5,6 5,8 6,8 7,0 7,0

Segundo utilizar la siguiente formula:

𝑸𝟏 =𝟑 ∙ (𝒏 + 𝟏)

𝟒

𝑸𝟏 =𝟑 ∙ (𝟐𝟎 + 𝟏)

𝟒= 𝟏𝟓, 𝟕𝟓

𝑸𝟏 = 𝟏𝟓, 𝟕𝟓 𝒆𝒔 𝒅𝒆𝒄𝒊𝒓 𝒒𝒖𝒆 𝒅𝒆𝒃𝒆 𝒆𝒔𝒕𝒂𝒓 𝒆𝒏𝒕𝒓𝒆 𝒍𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 (𝟏𝟓) 𝒚 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 (𝟏𝟔)

𝑨 𝒍𝒂 𝟏𝟓𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 𝒍𝒆 𝒄𝒐𝒓𝒓𝒆𝒔𝒑𝒐𝒏𝒅𝒆 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟓, 𝟔

𝑨 𝒍𝒂 𝟏𝟔𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 𝒍𝒆 𝒄𝒐𝒓𝒓𝒆𝒔𝒑𝒐𝒏𝒅𝒆 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝟓, 𝟔

𝟏𝟔𝒂𝒑𝒐𝒔𝒊𝒄𝒊𝒐𝒏 − 𝟏𝟓𝒂𝒑𝒐𝒔𝒊𝒄𝒊𝒐𝒏 = 𝟓, 𝟔 − 𝟓, 𝟔 = 𝟎

𝑬𝒔𝒕𝒆 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐 "0" se multiplica por la fracción "0,75" 𝟎 ∗ 𝟎, 𝟕𝟓 = 𝟎

𝑨𝒉𝒐𝒓𝒂 𝒆𝒔𝒕𝒆 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 "0" 𝒔𝒆 𝒍𝒆 𝒔𝒖𝒎𝒂 𝒂𝒍 𝒗𝒂𝒍𝒐𝒓 𝒆𝒏 𝒍𝒂 𝟏𝟓𝒂 𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏:

𝑳𝒖𝒆𝒈𝒐 𝒆𝒍 𝒕𝒆𝒓𝒄𝒆𝒓 𝒄𝒖𝒂𝒓𝒕𝒊𝒍 𝒆𝒔 𝑸𝟑 = 𝟓, 𝟔 + 𝟎 = 𝟓, 𝟔 𝑳𝒖𝒆𝒈𝒐 𝑸𝟑 = 𝟓, 𝟔


34

b) Datos agrupados

Cálculo de cuartiles

Rendimientos (Lb)

𝒚′𝒊−𝟏 − 𝒚′𝒊

(número de

plantas)

𝒏𝒊

𝑵𝒊

2.55 - 3.45 3 3

3.45 → 𝒚′𝒊−𝟏 - 4.35 4 7

4.35 – 5.25 6 13 → 𝑵𝒊−𝟏

5.25 - 6.15 4 → 𝒏𝒊 17 → 𝑵𝒊

6.15 – 7.05 3 20

20

Primero se divide el tamaño de la muestra por 4:

𝟑𝒏

𝟒=

𝟑(𝟐𝟎)

𝟒= 𝟏𝟓

Se busca este resultado “15” en los datos de la frecuencia

absoluta acumulada. Observamos que este valor no aparece en la

columna de las frecuencias absolutas acumuladas, por tal razón,

seleccionamos el valor inmediatamente anterior (13) como 𝑵𝒊−𝟏 y

al valor inmediatamente superior teniendo a (17) como 𝑵𝒊. Ahora

veamos la formula a aplicar :

𝑸𝟑 = 𝒚′𝒊−𝟏 + 𝑪 ∙ [

𝟑𝒏𝟒 − 𝑵𝒊−𝟏

𝒏𝒊]

𝑸𝟑 = 𝟓, 𝟐𝟓 + 𝟎, 𝟗 ∙ [𝟏𝟓 − 𝟏𝟑

𝟒] ≫≫ 𝑸𝟑 = 𝟓, 𝟐𝟓 + 𝟎, 𝟗 ∙ (𝟎, 𝟓) ≫≫≫ 𝑸𝟑 = 𝟓, 𝟕

3. Desarrollar el cálculo del Decil sexto, es decir D6, de igual forma

4. Desarrollar el cálculo percentil treinta y dos, es decir P32.