PORTADA 1 [Modo de compatibilidad] - … 2.pdf · Cálculo de las medidas de tendencia central para...

48
José Luis Quintero FUNDAMENTOS DE ESTADÍSTICA DESCRIPTIVA Distribución de Frecuencias Estadística Descriptiva Medidas de Tendencia Central Diagrama de Caja y Bigotes Universidad Central de Venezuela Facultad de Ingeniería Postgrado de Investigación de Operaciones Serie: Probabilidad y Estadística Medidas de Localización Medidas de Dispersión

Transcript of PORTADA 1 [Modo de compatibilidad] - … 2.pdf · Cálculo de las medidas de tendencia central para...

José Luis Quintero

FUNDAMENTOS DE ESTADÍSTICA DESCRIPTIVA

Distribuciónde

Frecuencias

EstadísticaDescriptiva

Medidas deTendencia

Central

Diagrama deCaja yBigotes

Universidad Central de VenezuelaFacultad de Ingeniería

Postgrado de Investigación de OperacionesSerie: Probabilidad y Estadística

Medidasde

Localización

Medidas de

Dispersión

José Luis Quintero

FUNDAMENTOS DE ESTADÍSTICA DESCRIPTIVA

Distribución de

Frecuencias

Universidad Central de VenezuelaAsignatura: Estadística

Caracas, Enero 2014

EstadísticaDescriptiva

Medidas de

Localización

Medidas de

Dispersión

Medidas deTendencia

Central

Diagrama deCaja y Bigotes

José Luis Quintero

ROBABILIDADES (ITEL-30205)

Tema 1. Fundamentos de Estadística Descriptiva

Distribución de frecuencias y medidas de localización

Lo malo de escribir libros es que se nos va la vida en rehacerlos

Alfonso Reyes

El presente material ha tenido un proceso de actualización permanente, iniciado ya

hace algunos años. En cada una de ellas, se han incluido nuevos temas y ejercicios, con lo cual

se ha venido enriqueciendo y mejorando su contenido, ajustándolo a las necesidades, para la

formación de profesionales y para estudiosos de la materia, que requieren de esta materia.

En esta presentación, se han mejorado sustancialmente aspectos tales como su

diagramación haciendo más agradable y hábil la presentación de los diferentes tópicos, además

en su contenido se han incluido, actualizado, revisado tanto los contenidos como los problemas

de aplicación a fin de atender a las necesidades y consultas exigidas por estudiantes,

profesionales o personas que sin formación académica requieren de su utilización.

José Luis Quintero

PROLOGO

José Luis Quintero

ROBABILIDADES (ITEL-30205)

Tema 1. Fundamentos de Estadística Descriptiva

Distribución de frecuencias y medidas de localización

• Destacar la importancia del manejo estadístico descriptivo de un conjunto de datos • Familiarizar al estudiante con la terminología empleada en la organización y la descripción de un conjunto de datos

• Construir ejemplos sencillos donde se refleje la organización de los datos en una tabla de distribución de frecuencias

• Establecer diferencias entre las principales medidas de tendencia central • Calcular los valores de las principales medidas de localización o de tendencia central tanto para el caso de agrupación por valor o uso de clases discretas como para el caso de agrupación por intervalos o uso de clases continuas

• Calcular percentiles, déciles y cuartiles para un conjunto de datos organizados en clases discretas y un conjunto de datos organizados en clases continuas

• Calcular el intervalo intercuartil para una muestra aleatoria • Calcular los valores de las principales medidas de dispersión tanto para clases discretas como para clases continuas

• Construir ejemplos sencillos donde se refleje la importancia y la utilidad de las principales medidas de dispersión

• Construir un diagrama de caja y bigotes para una muestra dada • Trabajar mediante problemas los fundamentos de la Estadística Descriptiva

OBJETIVOS A LOGRAR

José Luis Quintero

ROBABILIDADES (ITEL-30205)

Tema 1. Fundamentos de Estadística Descriptiva

Distribución defrecuencias y medidas de localización

1. Definiciones de interés

1.1. Estadística

1.2. Estadística Descriptiva

1.3. Muestra aleatoria

1.4. Mínimo valor de una muestra

1.5. Máximo valor de una muestra

1.6. Intervalo de una muestra

1.7. Clase

1.8. Histograma de una muestra

2. Medidas de tendencia central

2.1. Media de una muestra

2.2. Mediana de una muestra

2.3. Moda de una muestra

3. Ejemplos ilustrativos para datos agrupados por valor o uso de clases discretas

4. Ejemplos ilustrativos para datos agrupados por intervalos o uso de clases continuas

5. Cálculo de las medidas de tendencia central para datos agrupados por valor

6. Cálculo de las medidas de tendencia central para datos agrupados por intervalos

7. Cálculo de la media recortada al %α

7.1. Definición

7.2. Cálculo de la media recortada

7.3. Cálculo para datos no agrupados

7.4. Cálculo para datos agrupados por valor o uso de clases discretas

7.5. Cálculo para datos agrupados por intervalos o uso de clases continuas

8. Percentiles

8.1. Definición

8.2. Cálculo para datos agrupados por valor o uso de clases discretas

8.3. Cálculo para datos agrupados por intervalos o uso de clases continuas

9. Intervalo intercuartil

9.1. Definición

9.2. Cálculo para datos agrupados por valor o uso de clases discretas

9.3. Cálculo para datos agrupados por intervalos o uso de clases continuas

10. Definiciones de interés

10.1. Varianza de una muestra

10.2. Varianza corregida de una muestra

10.3. Desviación estándar de una muestra

10.4. Desviación estándar corregida de una muestra

10.5. Coeficiente de variación de una muestra

1

1

1

1

1

1

1

1

1

2

2

2

2

2

4

5

6

10

10

10

11

11

12

13

13

13

14

16

16

16

16

17

17

17

17

17

17

INDICE GENERAL

José Luis Quintero

10.6. Sesgo de una muestra

10.7. Curtosis de una muestra

11. Cálculo de las medidas de dispersión para datos agrupados por valor

11.1. Varianza de la muestra

11.2. Varianza corregida de la muestra

11.3. Desviación estándar de la muestra

11.4. Desviación estándar corregida de la muestra

11.5. Coeficiente de variación de la muestra

11.6. Sesgo de la muestra

11.7. Curtosis de la muestra

12. Cálculo de las medidas de dispersión para datos agrupados por intervalos

12.1. Varianza de la muestra

12.2. Varianza corregida de la muestra

12.3. Desviación estándar de la muestra

12.4. Desviación estándar corregida de la muestra

12.5. Coeficiente de variación de la muestra

12.6. Sesgo de la muestra

12.7. Curtosis de la muestra

13. Diagrama de caja y bigotes

13.1. Definición

13.2. Ejemplos ilustrativos

14. Problemas resueltos

15. Problemas propuestos

17

17

18

18

18

18

18

18

18

19

20

20

20

20

21

21

21

21

22

22

23

24

31

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 1

1. DEFINICIONES DE INTERÉS

Observación 1. Consideraciones

acerca de la estadística:

•••• Los orígenes de la estadística,

aunque no se sabe con exactitud

cuándo se comenzó a utilizar,

pueden estar ligados al antiguo

Egipto como a los censos chinos

que se realizaron hace unos

4.000 años, aproximadamente

•••• Sin duda, fueron los romanos,

maestros de la organización

política, quienes mejor supieron

usar la estadística. Cada cinco

años realizaban un censo de la

población, cuyos datos de

nacimientos, defunciones y

matrimonios eran esenciales para

estudiar los avances del imperio;

sin olvidar los recuentos de

ganancias y las riquezas que

dejaban las tierras •••• Los datos a trabajar se agruparán

por valor o en clases discretas o

por intervalo o en clases

continuas, considerando las

características de los datos

suministrados. En tal sentido, se

justificará la mejor manera de

agrupar los datos

1.1. Estadística. Es una rama de la matemática

que se encarga de estudiar métodos científicos

para recoger, organizar, resumir y analizar

datos, así como para sacar conclusiones

válidas y tomar decisiones razonables basadas

en tal análisis.

1.2. Estadística Descriptiva. Es la parte de la Estadística que se encarga de reunir

información cuantitativa concerniente a

individuos, grupos, series de hechos, etc

1.3. Muestra aleatoria. Grupo de resultados que

se obtienen al repetir varias veces un

experimento aleatorio, bajo las mismas

condiciones.

1.4. Mínimo valor de una muestra. El valor más

pequeño de una muestra.

1.5. Máximo valor de una muestra. El valor más

grande de una muestra.

1.6. Intervalo de una muestra. Diferencia entre

el valor más grande y el valor más pequeño de

una muestra.

1.7. Clase. Es cada uno de los intervalos que se consiguen al realizar una partición dentro del

conjunto de los números reales.

1.8. Histograma de una muestra. Es una representación gráfica en forma de barras de una

muestra.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 2

9

9

Ejemplo 1.

Tabla de distribución de frecuencias de la nota obtenida en un examen de Cálculo

Clase Dato (xi) fi Fi hi Hi

1 2.8 1 1 0.0417 0.0417

2 3.2 4 5 0.1667 0.2084

3 3.9 3 8 0.1250 0.3334

4 4.2 5 13 0.2082 0.5416

5 5.0 4 17 0.1667 0.7083

6 5.6 3 20 0.1250 0.8333

7 6.0 4 24 0.1667 1.0000

2. MEDIDAS DE TENDENCIA CENTRAL

3. EJEMPLOS ILUSTRATIVOS PARA DATOS AGRUPADOS POR VALOR O USO DE CLASES DISCRETAS

2.1. Media de una muestra. Promedio de los

valores de la muestra.

2.1. Mediana de una muestra. Valor que ocupa la

posición intermedia de la muestra ya ordenada

previamente.

2.3. Moda de una muestra. Es el valor del dato que ocurre con más frecuencia.

Observación 2. Consideraciones

acerca de las medidas de tendencia

central:

•••• También son llamadas medidas

de localización

•••• La media se ve afectada por la

presencia de valores extremos,

perdiendo representatividad

•••• La media no necesariamente

coincide con un dato muestral

•••• Por lo general, la mediana

coincide con un dato muestral

•••• La moda puede usarse para datos

cualitativos

•••• La moda pudiera no ser única en

una muestra

•••• La moda pierde representatividad

en muestras multimodales

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 3

Notación de interés:

fi = frecuencia absoluta , Fi = Frecuencia absoluta acumulada

hi = frecuencia relativa , Hi = Frecuencia relativa acumulada

Fórmulas de interés:

n = número de clases , N = número total de datos

i

i ii j i 1 i i i

j 1

f FF f F f , h , H , i 1,...,n

N N−

=

= = + = = =∑

Ejemplo 2.

Tabla de distribución de frecuencias de la duración en minutos de las llamadas

telefónicas i(x ) entre las 9 a.m. y las 10 a.m. registradas en una central telefónica

Clase Dato

(xi)

fi Fi hi Hi Clase Dato

(xi)

fi Fi hi Hi

1 1 3 3 0.06 0.06 9 9 0 45 0.00 0.90

2 2 7 10 0.14 0.20 10 10 1 46 0.02 0.92

3 3 9 19 0.18 0.38 11 11 0 46 0.00 0.92

4 4 10 29 0.20 0.58 12 12 2 48 0.04 0.96

5 5 6 35 0.12 0.70 13 13 0 48 0.00 0.96

6 6 4 39 0.08 0.78 14 14 0 48 0.00 0.96

7 7 4 43 0.08 0.86 15 15 1 49 0.02 0.98

8 8 2 45 0.04 0.90 16 16 1 50 0.02 1.00

A continuación la figura 1 visualiza el histograma para las frecuencias relativas:

Figura 1. Histograma de frecuencias relativas para la duración en minutos de las llamadas telefónicas

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 4

Ejemplo 3.

Tabla de distribución de frecuencias del pago en miles de bolívares (MBs.) del uso

del servicio telefónico i(x ) efectuado por los usuarios en un año

Clase

Inicio

Fin

Marca

de clase

(xi)

fi

Fi

hi

Hi

1 1.465 1.497 1.481 4 4 0.08 0.08

2 1.497 1.529 1.513 4 8 0.08 0.16

3 1.529 1.561 1.545 15 23 0.30 0.46

4 1.561 1.593 1.577 12 35 0.24 0.70

5 1.593 1.625 1.609 9 44 0.18 0.88

6 1.625 1.657 1.641 5 49 0.10 0.98

7 1.657 1.689 1.673 1 50 0.02 1.00

A continuación la figura 2 visualiza el histograma para las frecuencias relativas:

Figura 2. Histograma de frecuencias relativas para el pago anual del servicio telefónico

4. EJEMPLOS ILUSTRATIVOS PARA DATOS AGRUPADOS POR INTERVALOS O USO DE CLASES CONTINUAS

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 5

Ejemplo 4.

Tabla de distribución de frecuencias del pago en miles de bolívares (MBs.) del uso

del servicio telefónico i(x ) efectuado por los usuarios en dos años

Clase

Inicio

Fin

Marca

de clase

(xi)

fi

Fi

hi

Hi

1 3.62 3.70 3.66 2 2 0.02 0.02

2 3.70 3.78 3.74 7 9 0.07 0.09

3 3.78 3.86 3.82 11 20 0.11 0.20

4 3.86 3.94 3.90 11 31 0.11 0.31

5 3.94 4.02 3.98 23 54 0.23 0.54

6 4.02 4.10 4.06 22 76 0.22 0.76

7 4.10 4.18 4.14 15 91 0.15 0.91

8 4.18 4.26 4.22 5 96 0.05 0.96

9 4.26 4.34 4.30 3 99 0.03 0.99

10 4.34 4.42 4.38 1 100 0.01 1.00

5.1. Media de la muestra (M).

Notación:

ix = dato que pertenece a la clase i

fi = frecuencia del dato que pertenece a la clase i

n = número de clases

N = tamaño de la muestra n

i i

i 1

1M x f

N=

= ∑

Ejemplo de las calificaciones obtenidas:

2.8 1 3.2 4 ... 5.6 3 6.0 4 109.1

M 4.545824 24

× + × + + × + ×= = =

Ejemplo de la duración en minutos de las llamadas telefónicas:

5. CÁLCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS POR VALOR

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 6

1 3 2 7 ... 15 1 16 1 247

M 4.9450 50

× + × + + × + ×= = =

5.2. Mediana de la muestra (Me).

Notación:

ix = dato que ocupa la posición i después de estar ordenada la muestra

N = tamaño de la muestra

i

i i 1

N 1x i si N es impar

2Me

x x Ni si N es par

2 2+

+ == + =

Ejemplo de las calificaciones obtenidas:

N 24= es par, por lo tanto i 12= y

12 13x x 4.2 4.2Me 4.2

2 2

+ += = =

Ejemplo de la duración en minutos de las llamadas telefónicas:

N 50= es par, por lo tanto i 25= y

25 26x x 4 4Me 4

2 2

+ += = =

5.3. Moda de la muestra (Mo).

Ejemplo de las calificaciones obtenidas:

El dato de mayor frecuencia (igual a 5) es 4.2, por lo tanto la moda de la muestra es 4.2.

Ejemplo de la duración en minutos de las llamadas telefónicas:

El dato de mayor frecuencia (igual a 10) es 4, por lo tanto la moda de la muestra es 4.

6.1. Media de la muestra (M).

Notación:

6. CÁLCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS POR INTERVALOS

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 7

ix = marca de clase que pertenece a la clase i

fi = frecuencia de la clase i

n = número de clases

N = tamaño de la muestra n

i i

i 1

1M x f

N=

= ∑ .

Usando la expresión anterior se tendrá entonces una estimación de la media de la

muestra para datos agrupados por intervalos o uso de clases continuas.

Ejemplo del pago del uso del servicio telefónico anual:

1.481 4 1.513 4 ... 1.641 5 1.673 1 78.434

M 1.5686850 50

× + × + + × + ×= = =

Ejemplo del pago del uso del servicio telefónico en dos años:

3.66 2 3.74 7 ... 4.30 3 4.38 1 399.76

M 3.9976100 100

× + × + + × + ×= = =

6.2. Mediana de la muestra (Me).

En primer lugar se identifica la clase k donde se encuentra el dato que ocupa la

posición N/2. Esta clase es denominada clase medianal. Una vez ubicada la clase se procede

a estimar la mediana de la muestra usando la expresión N

k 12k k k

k

FMe LI (LS LI )

f

−−= + −

Notación:

kLI = Límite inferior de la clase k (clase medianal)

kLS = Límite superior de la clase k (clase medianal)

k 1F − = Frecuencia absoluta acumulada de la clase anterior a la clase medianal

kf = Frecuencia absoluta de la clase medianal

Deducción de la fórmula de la mediana para datos agrupados por intervalos

La fórmula utilizada para la estimación de la mediana se obtiene por interpolación

lineal, es decir se construye la recta que pasa por los puntos de coordenadas

k 1 k k k(F ,LI ) y (F ,LS )− . Esta recta tiene la ecuación

k kk k 1

k k 1

LS LIy LI (x F )

F F −−

−= + −

El punto de coordenadas N2( ,Me) es un punto de la recta de modo que

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 8

N

k 1k k 2Nk k 1 k k k2

k k 1 k

FLS LIMe LI ( F ) LI (LS LI )

F F f

−−

−−= + − = + −

Observación. Se suponen que los datos dentro de la clase medianal están equiespaciados y

se usa interpolación lineal para la estimación de la mediana.

Ejemplo del pago del uso del servicio telefónico anual:

N= 50 por lo tanto N/2 = 25 y la clase medianal identificada es la clase 4:

4 1.561 1.593 1.577 12 35 0.24 0.70

Calculando ahora la estimación para la mediana se tiene: 25 23 2

Me 1.561 (1.593 1.561) 1.561 (0.032) 1.566312 12

−= + − = + =

Ejemplo del pago del uso del servicio telefónico en dos años:

N = 100 por lo tanto N/2 = 50 y la clase medianal identificada es la clase 5:

5 3.94 4.02 3.98 23 54 0.23 0.54

Calculando ahora la estimación para la mediana se tiene: 50 31 19

Me 3.94 (4.02 3.94) 3.94 (0.08) 4.006123 23

−= + − = + =

6.3. Moda de la muestra (Mo).

Deducción de la fórmula de la moda para datos agrupados por intervalos

a. En primera instancia se identifica la clase con mayor frecuencia la cual se llamará clase

modal. Esta clase pudiera no ser única, y ese caso se estará en presencia de una muestra

con distribución de frecuencia multimodal.

b. Una vez identificada la clase modal, la moda se estimará bajo la premisa de que ella

estará más próxima a la clase contigua con mayor frecuencia, de modo que la distancia

entre la moda y las clases contiguas es inversamente proporcional a las frecuencias de

esas clases. El cálculo de esta estimación será de la forma kMo LI p= + , donde

posteriormente se hablará del cálculo de p.

c. Si se denotan 1 k k 1d f f −= − y 2 k k 1d f f += − , representarán las diferencias de la frecuencia

de la clase modal y la frecuencia de la clase premodal y la de la frecuencia de la clase

modal y la frecuencia de la clase postmodal respectivamente. Se deduce que a mayor

frecuencia de la clase contigua, menor será la diferencia respectiva.

d. Suponga que el intervalo de la clase modal es dividido en dos partes: una de ellas de

denota con p y la otra como k kLS LI p− − . Se establecerá la relación

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 9

1

k k 2

dp

LS LI p d=

− −.

CASO 1. 1 2d d<

Aqui la clase premodal tiene una frecuencia absoluta mayor que la de la clase postmodal, de

modo que se desea que la moda estimada esté más cerca de ella que de la clase postmodal.

Trabajando la expresión anterior:

1 1k k

k k 2 2

d dpp (LS LI p)

LS LI p d d= ⇒ = − −

− −,

lo cual permite ver que p es menor que k kLS LI p− − y la moda estimada como kMo LI p= +

estará más cerca de la clase premodal que de la clase postmodal como se deseaba.

CASO 2. 1 2d d=

Aqui la clase premodal tiene una frecuencia absoluta igual que la de la clase postmodal, de

modo que se desea que la moda estimada esté equidistante de ambas clases. Trabajando la

expresión anterior:

k kk k

k k

LS LIp1 p (LS LI p) p

LS LI p 2

−= ⇒ = − − ⇒ =

− −,

lo cual permite ver que p es igual que k kLS LI p− − y la moda estimada como kMo LI p= + se

verá de la forma

k k k kk k

LS LI LI LSMo LI p LI

2 2

− += + = + =

CASO 3. 1 2d d>

Aqui la clase premodal tiene una frecuencia absoluta menor que la de la clase postmodal, de

modo que se desea que la moda estimada esté más lejos de ella que de la clase postmodal.

Trabajando la expresión anterior:

1 1k k

k k 2 2

d dpp (LS LI p)

LS LI p d d= ⇒ = − −

− −,

lo cual permite ver que p es mayor que k kLS LI p− − y la moda estimada como kMo LI p= +

estará más lejos de la clase premodal que de la clase postmodal como se deseaba.

Visto todo lo anterior, despejando p se tiene

1 11 2 1 k k k k

k k 2 1 2

d dpp(d d ) d (LS LI ) p (LS LI )

LS LI p d d d= ⇒ + = − ⇒ = −

− − +,

calculando entonces la estimación de la moda como

1k k k

1 2

dMo LI (LS LI )

d d= + −

+

Ejemplo del pago del uso del servicio telefónico anual:

La clase modal identificada es la clase 3.

3 1.529 1.561 1.545 15 23 0.30 0.46

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 10

Las clases premodal y postmodal serán respectivamente las clases 2 y 4.

2 1.497 1.529 1.513 4 8 0.08 0.16

4 1.561 1.593 1.577 12 35 0.24 0.70

Calculando ahora la estimación para la moda se tiene

1k k k

1 2

d 15 4Mo LI (LS LI ) 1.529 (1.561 1.529) 1.5541

d d 15 4 15 12

−= + − = + − ≈+ − + −

Ejemplo del pago del uso del servicio telefónico en dos años:

La clase modal identificada es la clase 5.

5 3.94 4.02 3.98 23 54 0.23 0.54

Las clases premodal y postmodal serán respectivamente las clases 4 y 6.

4 3.86 3.94 3.90 11 31 0.11 0.31

6 4.02 4.10 4.06 22 76 0.22 0.76

Calculando ahora la estimación para la moda se tiene

1k k k

1 2

d (23 11)Mo LI (LS LI ) 3.94 (4.02 3.94) 4.0138

d d (23 11) (23 22)

−= + − = + − =+ − + −

7.2. Cálculo de la media recortada:

La notación a se lee parte entera de a y asigna como resultado la aproximación

como truncamiento del número real a. La expresión

N

, [0,50)100

× α α ∈

determina la cantidad de datos que deben eliminarse de la muestra ordenada tanto

inferiormente como superiormente. En tal sentido, la muestra recortada al %α tiene como

tamaño

7. CÁLCULO DE LA MEDIA RECORTADA AL %α

7.1. Definición (Media recortada). Se define como el promedio de los datos que quedan al

eliminar el %α inferior y superior en la muestra ordenada.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 11

N(1 ) N , con100

α− ρ − ρ ρ = .

7.3. Cálculo para datos no agrupados:

Después de ordenarlos la media recortada al %α se calcula como

N(1 )

rec( ) i

i N 1

1M x

N(1 ) N

−ρ

α

= ρ +

=− ρ − ρ ∑ .

7.4. Cálculo para datos agrupados por valor o uso de clases discretas:

n n n1 2

rec( ) i i i i i i

i 1 i n 1 i n 11 2

1 ˆ ˆM x f x f x fN(1 ) Nα

= = + = +

= + + − ρ − ρ ∑ ∑ ∑ ,

donde

if̂ =nueva frecuencia absoluta de la clase i afectada después de eliminar datos de la muestra

aleatoria.

Ejemplo de las calificaciones obtenidas:

Se desea calcular la media recortada al 5% para los datos suministrados.

Cantidad total de datos que deben eliminarse:

24 52 2

100

× × =

Tamaño de la nueva muestra: 22

Cálculo de la nueva media: 0 3

rec(5)

2.8 3.2 4 ... 5.6 3 6.0 100.3M 4.5591

22 22

× + × + + × + ×= = ≈

Observaciones.

• Las negritas se colocaron para indicar las frecuencias absolutas que fueron modificadas

• La eliminación de los 2 datos no afecta significativamente a la media anterior (4.5458) al

compararla con la nueva media (4.5591)

Ejemplo de la duración en minutos de las llamadas telefónicas:

Se desea calcular la media recortada al 5% para los datos suministrados.

Cantidad total de datos que deben eliminarse:

50 52 4

100

× × =

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 12

Tamaño de la nueva muestra: 46

Cálculo de la nueva media: 1 0 0

rec(5)

1 2 7 ... 14 0 15 16 214M 4.65

46 46

× + × + + × + × + ×= = ≈

Observación. Se puede notar la influencia de los 4 datos anteriores eliminados sobre la

media anterior (4.94) al compararla con la nueva media (4.65)

7.5. Cálculo para datos agrupados por intervalos o uso de clases continuas: n n n1 2

rec( ) i i i i i i

i 1 i n 1 i n 11 2

1 ˆ ˆM x f x f x fN(1 ) Nα

= = + = +

= + + − ρ − ρ ∑ ∑ ∑ ,

donde

ix = marca de clase que pertenece a la clase i

if̂ = nueva frecuencia absoluta de la clase i afectada después de eliminar datos de la muestra

aleatoria.

Ejemplo del pago del uso del servicio telefónico anual:

Se desea calcular la media recortada al 5% para los datos suministrados.

Cantidad total de datos que deben eliminarse:

50 52 4

100

× × =

Tamaño de la nueva muestra: 46 2 4 0

rec(5)

1.481 1.513 4 ... 1.641 1.673 72.158M 1.56865

46 46

× + × + + × + ×= = ≈

Observación. Se puede notar la poca influencia de los 4 datos eliminados sobre la media

anterior (1.56868) al compararla con la nueva media (1.56865)

Ejemplo del pago del uso del servicio telefónico en dos años:

Se desea calcular la media recortada al 5% para los datos suministrados.

Cantidad total de datos que deben eliminarse:

100 52 10

100

× × =

Tamaño de la nueva muestra: 90

0 4 4 0 0rec(5)

3.66 3.74 ... 4.22 4.30 4.38 359.72M 3.9969

90 90

× + × + + × + × + ×= = =

Observación. Se puede notar la poca influencia de los 10 datos eliminados sobre la media

anterior (3.9976) al compararla con la nueva media (3.9969)

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 13

9

8.2. Cálculo para datos agrupados por valor o uso de clases discretas:

El percentil k-ésimo k(P ) será igual a m 1x + , es

decir k m 1P x += , siempre y cuando se verifique

que

km N m 1

100< × ≤ + , con m N∈ .

Ejemplo de las calificaciones obtenidas:

Se desean encontrar los percentiles 25, 30

y 75, es decir 25P , 30P y 75P respectivamente.

Para 25P :

25 6

25m 24 m 1 m 6 m 1

100

m 5 P x 3.9

< × ≤ + ⇒ < ≤ +

⇒ = ⇒ = =

Para 30P :

30 8

30m 24 m 1 m 7.2 m 1 m 7 P x 3.9

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ = =

Para 75P :

75 18

75m 24 m 1 m 18 m 1 m 17 P x 5.6

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ = =

Ejemplo de la duración en minutos de las llamadas telefónicas:

Se desean encontrar los percentiles 25, 30 y 75, es decir 25P , 30P y 75P

respectivamente.

Para 25P :

25 13

25m 50 m 1 m 12.5 m 1 m 12 P x 3

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ = =

8. PERCENTILES

8.1. Definición (Percentil). El k-ésimo percentil de una muestra aleatoria se define como el

valor que ocupa una posición tal en la muestra ordenada que aproximadamente el k% de

los datos es menor o igual que él.

Observación 3. Consideraciones

acerca de las medidas de

localización:

•••• El percentil k-ésimo también es

llamado medida de localización

•••• La mediana es considerada como

el percentil 50 es decir 50P Me=

•••• El cuartil k-ésimo k(Q ) es una

medida de localización tal que

1 25Q P= , 2 50Q P= , 3 75Q P= ,

4 100Q P=

•••• El decil k-ésimo k(D ) es una

medida de localización tal que:

1 10 2 20 9 90D P , D P , ... , D P ,= = =

10 100D P=

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 14

Para 30P :

30 15

30m 50 m 1 m 15 m 1 m 14 P x 3

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ = =

Para 75P :

75 38

75m 50 m 1 m 37.5 m 1 m 37 P x 6

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ = =

8.3. Cálculo para datos agrupados por intervalos o uso de clases continuas:

El percentil k-ésimo k(P ) será igual a m 1x + , es decir k m 1P x += , siempre y cuando se

verifique que k

m N m 1100

< × ≤ + , con m N∈ .

En primer lugar se identifica la clase j donde está el dato que ocupa la posición

encontrada anteriormente. Una vez ubicada la clase se procede a estimar el percentil k-

ésimo de la muestra usando la expresión k

j 1100k j j j

j

N FP LI (LS LI )

f

−× −= + −

La fórmula utilizada para la estimación del percentil se obtiene también por

interpolación lineal, con el mismo basamento empleado para la fórmula de estimación de la

mediana discutido anteriormente.

Ejemplo del pago del uso del servicio telefónico anual:

Se desean encontrar los percentiles 25, 30 y 75, es decir 25P , 30P y 75P

respectivamente.

Para 25P :

25 13

25m 50 m 1 m 12.5 m 1 m 12 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

La clase donde se encuentra 25P es la clase 3:

3 1.529 1.561 1.545 15 23 0.30 0.46

Calculando ahora la estimación para 25P se tiene:

25100

25

50 8 4.5P 1.529 (1.561 1.529) 1.529 (0.032) 1.5386

15 15

× −= + − = + =

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 15

Para 30P :

30 15

30m 50 m 1 m 15 m 1 m 14 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

La clase donde se encuentra 30P es la clase 3:

3 1.529 1.561 1.545 15 23 0.30 0.46

Calculando ahora la estimación para 30P se tiene:

30100

30

50 8 7P 1.529 (1.561 1.529) 1.529 (0.032) 1.5439

15 15

× −= + − = + =

Para 75P :

75 38

75m 50 m 1 m 37.5 m 1 m 37 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

La clase donde se encuentra 75P es la clase 5:

5 1.593 1.625 1.609 9 44 0.18 0.88

Calculando ahora la estimación para 75P se tiene:

75100

75

50 35 2.5P 1.593 (1.625 1.593) 1.593 (0.032) 1.6019

9 9

× −= + − = + =

Ejemplo del pago del uso del servicio telefónico en dos años:

Se desean encontrar los percentiles 25, 30 y 75, es decir 25P , 30P y 75P .

Para 25P :

25 25

25m 100 m 1 m 25 m 1 m 24 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

La clase donde se encuentra 25P es la clase 4:

4 3.86 3.94 3.90 11 31 0.11 0.31

Calculando ahora la estimación para 25P se tiene:

25100

25

100 20 5P 3.86 (3.94 3.86) 3.86 (0.08) 3.8964

11 11

× −= + − = + ≈

Para 30P :

30 30

30m 100 m 1 m 30 m 1 m 29 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 16

La clase donde se encuentra 30P es la clase 4:

4 3.86 3.94 3.90 11 31 0.11 0.31

Calculando ahora la estimación para 30P se tiene:

30100

30

100 20 10P 3.86 (3.94 3.86) 3.86 (0.08) 3.9327

11 11

× −= + − = + =

Para 75P :

75 75

75m 100 m 1 m 75 m 1 m 74 P x

100< × ≤ + ⇒ < ≤ + ⇒ = ⇒ =

La clase donde se encuentra 75P es la clase 6:

6 4.02 4.10 4.06 22 76 0.22 0.76

Calculando ahora la estimación para 75P se tiene:

75100

75

100 54 21P 4.02 (4.10 4.02) 4.02 (0.08) 4.0964

22 22

× −= + − = + =

9

9.2. Cálculo para datos agrupados por valor o uso de clases discretas:

Intervalo intercuartil de la muestra Q(I ). Q 3 1I Q Q= −

Ejemplo de las calificaciones obtenidas: Q 3 1I Q Q 5 3.2 1.8= − = − =

Ejemplo de la duración en minutos de las llamadas telefónicas: Q 3 1I Q Q 6 3 3= − = − =

9.3. Cálculo para datos agrupados por intervalos o uso de clases continuas:

Intervalo intercuartil de la muestra Q(I ). Q 3 1I Q Q= −

Ejemplo del pago del uso del servicio telefónico anual:

9. INTERVALO INTERCUARTIL

9.1. Definición (Intervalo intercuartil). Es el intervalo de la muestra que resulta al

considerar solamente aquellos datos que están entre el primer cuartil y el tercero.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 17

Q 3 1I Q Q 1.6019 1.5386 0.0633= − = − =

Ejemplo del pago del uso del servicio telefónico en dos años:

Q 3 1I Q Q 4.0964 3.8964 0.2= − = − =

9

10. DEFINICIONES DE INTERÉS

10.1. Varianza de una muestra. Promedio

aritmético de los cuadrados de las diferencias

de cada valor en la muestra y la media de la

muestra.

10.2. Varianza corregida de una muestra. Cociente que resulta de dividir la suma de los

cuadrados de las diferencias de cada dato en

la muestra y la media de la muestra, entre el

número de datos menos uno.

10.3. Desviación estándar de una muestra. Es

la raíz cuadrada positiva de la varianza de la

muestra.

10.4. Desviación estándar corregida de una muestra. Es la raíz cuadrada positiva de la

varianza corregida de la muestra.

Observación 4. Consideraciones

acerca de las medidas de dispersión:

•••• Para conocer la varianza de la

muestra, previamente se debe

conocer la media de la muestra

•••• La justificación de la fórmula de

la varianza corregida de la

muestra se halla en el estudio de

estimadores insesgados en

Estadística

•••• La desviación estándar de la

muestra posee las mismas

unidades que tienen los datos de

la muestra

•••• El coeficiente de variación, el

sesgo y la curtosis de la muestra

son adimensionales, es decir, no

poseen unidades

•••• El sesgo y la curtosis

proporcionan información acerca

de la forma de la distribución de

la muestra

10.5. Coeficiente de variación de una muestra. Es la relación entre la desviación estándar de

la muestra y el valor absoluto de la media de

la muestra.

10.6. Sesgo de una muestra. Es la relación entre

el promedio aritmético de las diferencias entre

cada dato y la media de la muestra elevadas

al cubo, y el cubo de la desviación estándar.

10.7. Curtosis de una muestra. Es la relación entre el promedio aritmético de las diferencias

entre cada dato y la media de la muestra elevadas a la cuatro, y el cuadrado de la

varianza de la muestra.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 18

9

11.1. Varianza de la muestra 2(S ) .

Sean n = número de clases , N = tamaño de la muestra

Una fórmula para su cálculo: n

2 2i i

i 1

1S f(x M)

N=

= −∑

Otra fórmula para su cálculo:

n n n

2 2 2 2 2 2i i i i i i i i i i

i 1 i 1 i 1

n n n n

2 2 2 2 2 2 2i i i i i i i

i 1 i 1 i 1 i 1

1 1 1S f(x M) f (x 2xM M ) (fx 2fxM fM )

N N N

1 2 1 1fx fxM fM fx 2M M M M

N N N N

= = =

= = = =

= − = − + = − +

= − + = − + = −

∑ ∑ ∑

∑ ∑ ∑ ∑

11.2. Varianza corregida de la muestra 2c(S ) .

n n

2 2 2 2c i i i i

i 1 i 1

1 N 1 NS f(x M) . f (x M) .S

N 1 N 1 N N 1= =

= − = − =− − −∑ ∑

11.3. Desviación estándar de la muestra (S). 2S S= +

11.4. Desviación estándar corregida de la muestra c(S ) .

2c cS S= +

11.5. Coeficiente de variación de la muestra (CV).

SCV

M=

11.6. Sesgo de la muestra (SE). n

3i i3

i 1

1SE f(x M)

NS=

= −∑

11. CÁLCULO DE LAS MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS POR VALOR

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 19

11.7. Curtosis de la muestra (K). n

4i i4

i 1

1K f(x M)

NS=

= −∑

Ejemplo de las calificaciones obtenidas:

• Varianza de la muestra 2(S ) .

n 7= , N 24= , M 4.5458=

Primera forma para su cálculo:

2 2 2 2 21S (2.8 4.5458) 4(3.2 4.5458) ... 3(5.6 4.5458) 4(6 4.5458)

24

24.75961.0317

24

= − + − + + − + −

= =

Segunda forma para su cálculo:

2 2 2 2 2 2 21 520.71S (2.8) 4(3.2) ... 3(5.6) 4(6) (4.5458) (4.5458) 1.0317

24 24 = + + + + − = − =

• Varianza corregida de la muestra 2c(S ) .

2 2c

N 24S .S 1.0317 1.0766

N 1 23= = × ≈

• Desviación estándar de la muestra (S). 2S S 1.0157= + ≈

• Desviación estándar corregida de la muestra c(S ) . 2S S 1.0376= + ≈

• Coeficiente de variación de la muestra (CV). S 1.0157

CV 0.22344.5458M

= = ≈

• Sesgo de la muestra (SE). n

3i i3 3

i 1

1 0.1047SE f(x M) 0.0042

NS 24 (1.0157)=

= − = =×∑

• Curtosis de la muestra (K). n

4i i4 4

i 1

1 44.7672K f(x M) 1.7526

NS 24 (1.0157)=

= − = =×∑

Ejemplo de la duración en minutos de las llamadas telefónicas:

• Varianza de la muestra 2(S ) .

n 16= , N 50= , M 4.94=

Primera forma para su cálculo:

2 2 2 2 21 538.82S 3(1 4.94) 7(2 4.94) ... 1(15 4.94) 1(16 4.94) 10.7764

50 50 = − + − + + − + − = =

Segunda forma para su cálculo:

2 2 2 2 2 2 21 1759S 3(1) 7(2) ... 1(15) 1(16) (4.94) (4.94) 10.7764

50 50 = + + + + − = − =

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 20

• Varianza corregida de la muestra 2c(S ) .

2 2c

N 50S .S 10.7764 10.9963

N 1 49= = × =

• Desviación estándar de la muestra (S). 2S S 3.2827= + =

• Desviación estándar corregida de la muestra c(S ) . 2c cS S 3.3161= + =

• Coeficiente de variación de la muestra (CV). S 3.2827

CV 0.66454.94M

= = ≈

• Sesgo de la muestra (SE). n

3i i3 3

i 1

1 2866SE f(x M) 1.6204

NS 50 (3.2827)=

= − = =×∑

• Curtosis de la muestra (K). n

4i i4 4

i 1

1 32463K f(x M) 5.5911

NS 50 (3.2827)=

= − == =×∑

9

12.1. Varianza de la muestra 2(S ) .

Sean

ix = marca de clase que pertenece a la clase i

n = número de clases

N = tamaño de la muestra

Una fórmula para su cálculo: n

2 2i i

i 1

1S f(x M)

N=

= −∑

Otra fórmula para su cálculo: 2 2 2S M M= −

12.2. Varianza corregida de la muestra 2c(S ) .

2 2c

NS .S

N 1=

12.3. Desviación estándar de la muestra (S). 2S S= +

12. CÁLCULO DE LAS MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS POR INTERVALOS

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 21

12.4. Desviación estándar corregida de la muestra c(S ) . 2c cS S= +

12.5. Coeficiente de variación de la muestra (CV). S

CVM

=

12.6. Sesgo de la muestra (SE).

n

3i i3

i 1

1SE f(x M)

NS=

= −∑

12.7. Curtosis de la muestra (K). n

4i i4

i 1

1K f(x M)

NS=

= −∑

Ejemplo del pago del uso del servicio telefónico anual:

• Varianza de la muestra 2(S ) . n 7= , N 50=

Primera forma de cálculo:

2 2 2 21S 4(1.481 1.56868) 4(1.513 1.56868) ... 1(1.673 1.56868) 0.0021

50 = − + − + + − =

Segunda forma de cálculo: 2 2 2 2S M M 2.4628 (1.56868) 0.0021= − = − =

• Varianza corregida de la muestra 2c(S ) .

2 2c

N 50S .S 0.0021 0.0021

N 1 49= = × ≈

• Desviación estándar de la muestra (S). 2S S 0.0458= + =

• Desviación estándar corregida de la muestra c(S ) . 2c cS S 0.0458= + =

• Coeficiente de variación de la muestra (CV). S 0.0458

CV 0.02921.56868M

= = ≈

• Sesgo de la muestra (SE). n

53

i i3 3

i 1

1 3.7434 10SE f(x M) 0.0078

NS 50 (0.0458)

=

×= − = =×∑

• Curtosis de la muestra (K). n

44

i i4 4

i 1

1 5.5862 10K f(x M) 2.5391

NS 50 (0.0458)

=

×= − = =×∑

Ejemplo del pago del uso del servicio telefónico en dos años:

• Varianza de la muestra 2(S ) . n 10= , N 100=

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 22

Primera forma de cálculo:

2 2 2 21S 2(3.66 3.9976) 7(3.74 3.9976) ... 1(4.38 3.9976) 0.02209

100 = − + − + + − =

Segunda forma de cálculo: 2 2 2 2S M M 16 (3.9976) 0.02= − = − =

• Varianza corregida de la muestra 2c(S ) .

2 2c

N 100S .S 0.02 0.0202

N 1 99= = × ≈

• Desviación estándar de la muestra (S). 2S S 0.1414= + =

• Desviación estándar corregida de la muestra c(S ) . 2c cS S 0.1421= + =

• Coeficiente de variación de la muestra (CV). S 0.1414

CV 0.03543.9976M

= = ≈

• Sesgo de la muestra (SE). n

3i i3 3

i 1

1 0.0260SE f(x M) 0.0920

NS 100 (0.1414)=

= − = − = −×∑

• Curtosis de la muestra (K). n

4i i4 4

i 1

1 0.1340K f(x M) 3.3520

NS 100 (0.1414)=

= − = =×∑

9

La figura 3 revela toda la información que se puede representar en un diagrama de caja.

Figura 3. Diagrama de caja y bigotes

13. DIAGRAMA DE CAJA Y BIGOTES

13.1. Definición (Diagrama de caja y bigotes). Un diagrama de caja y bigotes busca

representar los tres cuartiles y los valores mínimo y máximo de la muestra con la

finalidad de definir la ubicación de algunos valores de la muestra que no tienen un

comportamiento típico o esperado y perfectamente podrían deberse a errores en la

recolección y manipulación de la muestra.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 23

13.2. Ejemplos ilustrativos.

Ejemplo 1. Suponga que de una muestra dada se tiene la siguiente información:

1 2 3Q 9.586 , Q 10.1825 , Q 10.448= = =

Construya el diagrama de caja y bigotes correspondiente.

Solución. Cálculo del rango intercuartil: Q 3 1I Q Q 10.448 9.586 0.862= − = − =

Cálculo de la distancia Q1.5I 1.5 0.862 1.293= × =

Cálculo de los límites inferior y superior de los bigotes:

Límite inferior: i 1 Qa L Q 1.5I 9.586 1.293 8.293= = − = − =

Límite superior: s 3 Qd L Q 1.5I 10.448 1.293 11.741= = + = + =

Finalmente el diagrama de caja y bigotes se visualiza en la figura 4.

Figura 4. Diagrama de caja y bigotes del ejemplo

Ejemplo 2. La figura 5 representa un diagrama de caja por cada mes que muestra los

niveles de precipitación de los últimos 38 años en la estación de San Fernando de Apure.

ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC

010

020

030

040

050

0

DIAGRAMAS DE CAJA MESES DE SAN FERNANDO

PR

EC

IPIT

AC

IÓN

(mm

)

Figura 5. Niveles de precipitación por mes medidos en la estación de San Fernando

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 24

SOLUCIÓN.

a. Obtenga el salario promedio del grupo de obreros

SOLUCIÓN.

1 1 2 2 3 3 4 4 5 5 6 6 7 7f x f x f x f x f x f x f xM

60

8 22 11 27 4 32 7 37 12 42 9 47 9 52 225537.583

60 60

+ + + + + +=

× + × + × + × + × + × + ×= = ≈

b. Determine el porcentaje de obreros que tienen salarios mayores o iguales a 25.000 Bs pero

igual o menor a 44.000 Bs

SOLUCIÓN.

2 3 4 5f f f f 11 4 7 12 34Porcentaje 100 100 100 56.67%

60 60 60

+ + + + + += × = × = × ≈

c. Calcule la moda

SOLUCIÓN.

Clase modal:

Salario (Bs/sem)

Punto medio

Frecuencia absoluta

Frecuencia absoluta acumulada

Frecuencia relativa

Frecuencia relativa acumulada

[40,44] 42 12 42 12/60 42/60

14. PROBLEMAS RESUELTOS

PROBLEMA 1.

Se toma una muestra de 60 obreros de una fábrica y se quiere hacer un estudio del salario

semanal (en miles de bolívares). Se obtuvo la siguiente información presentada en el cuadro

adjunto.

Salario

(Bs/sem)

Punto

medio

Frecuencia

absoluta

Frecuencia absoluta

acumulada

Frecuencia

relativa

Frecuencia relativa

acumulada

[20,24] 22 8 8 8/60 8/60

[25,29] 27 11 19 11/60 19/60

[30,34] 32 4 23 4/60 23/60

[35,39] 37 7 30 7/60 30/60

[40,44] 42 12 42 12/60 42/60

[45,49] 47 9 51 9/60 51/60

[50,54] 52 9 60 9/60 60/60

a. Obtenga el salario promedio del grupo de obreros

b. Determine el porcentaje de obreros que tienen salarios mayores o iguales a 25.000 Bs pero

igual o menor a 44.000 Bs

c. Calcule la moda

d. Calcule el recorrido intercuartil

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 25

12 7 5 20 340

Moda 40 4 40 4 40 42.512 7 12 9 8 8 8

−= + × = + × = + = =− + −

d. Calcule el recorrido intercuartil SOLUCIÓN.

25 6025 25 15100

Clase P :14 15 14 15 15 P x×< ≤ ⇒ < ≤ ⇒ =

Salario (Bs/sem)

Punto medio

Frecuencia absoluta

Frecuencia absoluta acumulada

Frecuencia relativa

Frecuencia relativa acumulada

[25,29] 27 11 19 11/60 19/60

25

15 8 7 28 303P 25 4 25 4 25 27.55

11 11 11 11

−= + × = + × = + = ≈

75 6075 75 45100

Clase P : 44 45 44 45 45 P x×< ≤ ⇒ < ≤ ⇒ =

Salario (Bs/sem)

Punto medio

Frecuencia absoluta

Frecuencia absoluta acumulada

Frecuencia relativa

Frecuencia relativa acumulada

[45,49] 47 9 51 9/60 51/60

75

45 42 3 12 417P 45 4 45 4 45 46.33

9 9 9 9

−= + × = + × = + = ≈

Finalmente

Q 3 1 75 25I Q Q P P 46.33 27.55 18.78= − = − = − =

SOLUCIÓN. f3

3 360h 0.1 0.1 f 6= ⇒ = ⇒ = .

F33 360

H 0.3 0.3 F 18= ⇒ = ⇒ = .

3 2 3 2 2F F f 18 F 6 18 F 12= + = ⇒ + = ⇒ = . 4 3 4 4 4F F f 48 18 f 48 f 30= + = ⇒ + = ⇒ = .

Clase medianal: clase 4 N

324 4 4 4 4 4 4 4 4

4

F 30 18Me LI (LS LI ) 26 LI (LS LI ) 26 LI 0.4(LS LI )

f 30

− −= + − ⇒ = + − ⇒ = + −

Ubicando el percentil 80:

80P : 80 48

80m 60 m 1 m 47 P x 38

100< × ≤ + ⇒ = ⇒ = =

PROBLEMA 2.

60 datos han sido agrupados en una distribución de frecuencias de 6 clases de igual amplitud.

Se dispone de la siguiente información acerca de esa distribución de frecuencias: • La mediana es 26

• El 20% de los datos es superior a 38 • 3H 0.3=

• 3h 0.1=

• 4F 48=

• 11 5 62f f f= =

Halle la distribución de frecuencias.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 26

El percentil 80 se ubica en la clase 4.

80 803100 100

80 4 4 4 4 4 44

4 4 4

60 F 60 18P LI (LS LI ) 38 LI (LS LI )

f 30

38 LI (LS LI )

× − × −= + − ⇒ = + −

⇒ = + −

Resolviendo el sistema lineal:

4 4 4 4 4 4

4 4 4 4 4

LI 0.4(LS LI ) 26 0.6LI 0.4LS 26 LI 18

LI (LS LI ) 38 LS 38 LS 38

+ − = + = =⇒ ⇒

+ − = = =

1 2 3 4 5 6 1 2 5 6 1 2 5 6

1 2 5 6 1 2 1 2 1

1 2 1 1 5

f f f f f f 60 f f 6 30 f f 60 f f 36 f f 60

f f f f 24 4f f 24 4f F f 24

3f F 24 3f 12 f 4 f 4 f

+ + + + + = ⇒ + + + + + = ⇒ + + + + =⇒ + + + = ⇒ + = ⇒ + − =⇒ + = ⇒ = ⇒ = ⇒ = ⇒ 6 8=

Finalmente 1 2 2 2 2 1f f F f F f 12 4 8+ = ⇒ = − = − =

A continuación se muestra la distribución de frecuencias de los datos:

Clase

Inicio

Fin

Marca de

clase

(xi)

fi

Fi

hi

Hi

1 -42 -22 -32 4 4 4/60 4/60

2 -22 -2 -12 8 12 8/60 12/60

3 -2 18 8 6 18 6/60 18/60

4 18 38 28 30 48 30/60 48/60

5 38 58 48 4 52 4/60 52/60

6 58 78 68 8 60 8/60 1

SOLUCIÓN.

Distribución simétrica:

1 2 3 4 5 6 1 2 3 3 2 1 1 2 3f f f f f f 300 f f f f f f 300 f f f 150+ + + + + = ⇒ + + + + + = ⇒ + + =

Relaciones entre las frecuencias:

2 1 3 1 1 1 1 1 6 2 5 3 4f 3f , f 2f f 3f 2f 150 f 25 f , f 75 f , f 50 f= = ⇒ + + = ⇒ = = = = = =

Información de la mediana: Clase medianal: clase 3 N

223 3 3 3 3 3 3

3

F 150 100Me LI (LS LI ) 25 LI (LS LI ) LS

f 50

− −= + − ⇒ = + − =

Información del percentil: Ubicación:

91.667P : 91.667 275

91.667m 300 m 1 m 274 P x 35

100< × ≤ + ⇒ = ⇒ = =

PROBLEMA 3. Considere un lote de 300 muestras distribuidas en forma simétrica en seis intervalos de igual

amplitud. Se dispone de la siguiente información acerca de esa distribución de frecuencias:

• La mediana es 25

• El percentil 91.667 es 35

• 2 1f 3f=

• 3 1f 2f=

Halle la distribución de frecuencias.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 27

El percentil 91.667 se ubica en la clase 5.

491.667 5 5 5 5 5 5

5

5 5 5 5

275 F 275 200P LI (LS LI ) 35 LI (LS LI )

f 75

35 LI (LS LI ) 35 LS

− −= + − ⇒ = + −

⇒ = + − ⇒ =

Amplitud (d) del intervalo de clase: 5 32d LS LS 35 25 10 d 5= − = − = ⇒ =

A continuación se muestra la distribución de frecuencias de los datos:

Clase

Inicio

Fin

Marca

de clase

(xi)

fi

Fi

hi

Hi

1 10 15 12.5 25 25 25/300 25/300

2 15 20 17.5 75 100 75/300 100/300

3 20 25 22.5 50 150 50/300 150/300

4 25 30 27.5 50 200 50/300 200/300

5 30 35 32.5 75 275 75/300 275/300

6 35 40 37.5 25 300 25/300 1

SOLUCIÓN.

Información suministrada:

4 6 1 5 3 4 5 6 2 1 6f 2f , f f , f 25 , f f f 19 , f 3f , LI 20= = = + + = = =

Se sabe que

1 2 3 4 5 6 1 1 1 1f f f f f f 60 f 3f 25 19 60 4f 16 f 4+ + + + + = ⇒ + + + = ⇒ = ⇒ =

Por lo tanto:

2 5f 12 , f 4= = .

Por otro lado

4 5 6 6 6 4f f f 19 3f 4 19 f 5 f 10+ + = ⇒ + = ⇒ = ⇒ =

Hasta ahora se tiene la siguiente información:

PROBLEMA 4.

Para estudiar la cantidad de errores ortográficos cometidos por un conjunto de 60 estudiantes

al tomar un dictado, se organizaron los datos en una tabla de distribución de frecuencias de

seis clases de igual amplitud. De dicha distribución solo se conoce la siguiente información:

a. en la cuarta clase se tiene el doble de datos que en la sexta clase b. las clases uno y cinco tienen igual número de datos

c. la clase tres tiene la mayor cantidad de datos igual a 25

d. la mediana de los datos es igual a 10.24 e. el extremo inferior de la clase 6 es 20

f. por encima de la clase tres hay 19 datos

g. el número de datos de la clase dos triplica al número de datos de la clase uno

Construya la distribución de frecuencias para esos datos.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 28

Clase Inicio Fin fi Fi hi Hi

1 a a d+ 4 4 4/60 4/60

2 a d+ a 2d+ 12 16 12/60 16/60

3 a 2d+ a 3d+ 25 41 25/60 41/60

4 a 3d+ a 4d+ 10 51 10/60 51/60

5 a 4d+ 20 4 55 4/60 55/60

6 20 a 6d+ 5 60 5/60 1

Información suministrada: mediana 10.24=

Clase medianal: 3. Entonces N

223 3 3

3

F 30 16mediana LI (LS LI ) a 2d d 10.24

f 25

64a d 10.24 25a 64d 256

25

− −= + − = + + =

⇒ + = ⇒ + =

Por otro lado se tiene que a 5d 20+ =

Construyendo y resolviendo el sistema se obtiene

25a 64d 256a 0,d 4

a 5d 20

+ =⇒ = = + =

Finalmente la tabla de distribución de frecuencias de los datos se muestra a continuación:

Clase Inicio Fin fi Fi hi Hi

1 0 4 4 4 4/60 4/60

2 4 8 12 16 12/60 16/60

3 8 12 25 41 25/60 41/60

4 12 16 10 51 10/60 51/60

5 16 20 4 55 4/60 55/60

6 20 24 5 60 5/60 1

SOLUCIÓN.

PROBLEMA 5. Se tienen los datos correspondientes al peso (en Kg.) de 200 productos, organizados en una

distribución de frecuencias formada por 6 intervalos de clases de igual amplitud, con las

características siguientes: • La diferencia entre el percentil 90 y el percentil 2 es 0.88

• Si se elimina el 5% inferior de los datos y el 10% superior de los datos, el peso promedio es

de 0.5776 Kg • La primera clase contiene el 5% de los datos • La mediana es el límite superior de la tercera clase • La frecuencia acumulada absoluta de la segunda clase es 40 • 4 3F F 64− =

• 6 55f 4f=

Halle la distribución de frecuencias de estos datos.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 29

Información suministrada:

90 2P P 0.88− = , 1f 10= , 3Me LS= , 2F 40= , 4 3F F 64− =

Cálculos

2 1 2 2 2F 40 f f 40 10 f 40 f 30= ⇒ + = ⇒ + = ⇒ =

4 3 3 4 3 4F F 64 F f F 64 f 64− = ⇒ + − = ⇒ =

3 3 3 3 33 3

100 40 100 40Me LS LI (LS LI ) 1 f 60

f f

− −= = + − ⇒ = ⇒ =

Ubicando el percentil 2 y el percentil 90:

2P :

2 4

2m 200 m 1 m 3 P x

100< × ≤ + ⇒ = ⇒ =

90P :

90 180

90m 200 m 1 m 179 P x

100< × ≤ + ⇒ = ⇒ =

2 20100 100

2 1 1 1 1 1 1 1 1 11

200 F 200 0P LI (LS LI ) LI (LS LI ) LI 0.4(LS LI )

f 10

× − × −= + − = + − = + −

90 904100 100

90 5 5 5 5 5 5 5 5 55

200 F 200 164P LI (LS LI ) LI (LS LI ) LI 0.8(LS LI )

f 20

× − × −= + − = + − = + −

90 2 5 1 5 5 1 1P P (LI LI ) 0.8(LS LI ) 0.4(LS LI ) 4d 0.4d 0.88 d 0.2− = − + − − − = + = ⇒ =

5 5 5

i i i i 2 3 4 5

i 2 i 2 i 2

1fx 0.5776 fx 98.192 30x 60x 64x 16x 98.192

170

15(2a d) 30(2a 3d) 32(2a 5d) 8(2a 7d) 98.192

170a 3 18 32 11.2 98.19

= = =

= ⇒ = ⇒ + + + =

⇒ + + + + + + + =⇒ + + + + =

∑ ∑ ∑ 2 170a 64.2 98.192

a 0.2

⇒ + =⇒ ≈

Finalmente la tabla de distribución de frecuencias de los datos se muestra a continuación:

Clase

Inicio

Fin

Marca

de clase

(xi)

fi

Fi

hi

Hi

1 0.0 0.2 0.1 10 10 0.05 0.05

2 0.2 0.4 0.3 30 40 0.15 0.20

3 0.4 0.6 0.5 60 100 0.30 0.50

4 0.6 0.8 0.7 64 164 0.32 0.82

5 0.8 1.0 0.9 20 184 0.10 0.92

6 1.0 1.2 1.1 16 200 0.08 1.00

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 30

SOLUCIÓN.

Codificación de la información suministrada:

50 1 2 3 5 6 7 6 2 3 5

7 7 2 10 1 2 3 4 5 6 7

Me P 20 ; f f f 10 ; f f f 25 ; f f f ; f 11

f 6 ; f 2f ; P 10 ; f f f f f f f 50

= = + + = + + = = + == = = + + + + + + =

Usando algunas de las anteriores relaciones se tiene que

7 2 5 6 3 1 4f 6 f 3 ; f 11 f 8 f 5 f 2 f 15= ⇒ = = ⇒ = ⇒ = ⇒ = ⇒ =

Se tiene hasta ahora la siguiente distribución de frecuencias:

Clase

Inicio

Fin

Marca de clase (xi)

fi

Fi

hi

Hi

1 a a + d a + d/2 2 2 0.04 0.04

2 a + d a + 2d a + d + d/2 3 5 0.06 0.10

3 a + 2d a + 3d a + 2d + d/2 5 10 0.10 0.20

4 a + 3d a + 4d a + 3d + d/2 15 25 0.30 0.50

5 a + 4d a + 5d a + 4d + d/2 11 36 0.22 0.72

6 a + 5d a + 6d a + 5d + d/2 8 44 0.16 0.88

7 a + 6d a + 7d a + 6d + d/2 6 50 0.12 1.00

De la distribución anterior se observa que la clase medianal es la clase 4 y se puede inferir que 20

es el límite superior de la clase 4, por lo tanto se tiene que a 4d 20+ = . Por otro lado se puede

inferir también que el percentil 10 está en la clase 2 y 10 es su límite superior. Este hecho genera

la ecuación a 2d 10+ = . De las dos ecuaciones se tiene que a 0 ; d 5= = . Por lo tanto

Clase Inicio Fin Marca de clase (xi) fi Fi Hi Hi

1 0 5 2.5 2 2 0.04 0.04

2 5 10 7.5 3 5 0.06 0.10

3 10 15 12.5 5 10 0.10 0.20

4 15 20 17.5 15 25 0.30 0.50

5 20 25 22.5 11 36 0.22 0.72

6 25 30 27.5 8 44 0.16 0.88

7 30 35 32.5 6 50 0.12 1.00

PROBLEMA 6.

Se desea distribuir en 7 clases los datos de la vida útil, medida en meses, de 50 baterías para

automóviles. Para ello se dispone de la siguiente información acerca de esa distribución: •••• La mediana de la vida útil de las baterías es de 20 meses

•••• Las tres primeras clases contienen un total de 10 datos

•••• La mitad de los datos está en las tres últimas clases

•••• La suma de los datos de las clases 2 y 3 es igual al número de datos de la clase 6

•••• En la clase 5 hay 11 datos y en la clase 7 hay 6 datos

•••• 7 2f 2f= y 10P 10=

Obtenga la distribución de frecuencias de la vida útil de las 50 baterías.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 31

1. Coloque al lado de cada proposición la letra V o F según sea verdadera o falsa

respectivamente.

a. Los datos discretos sólo se pueden expresar con números enteros

b. Un histograma es una serie de rectángulos, cada uno proporcional en ancho al número de

elementos que caen dentro de una clase específica de datos

c. Todos los valores de los datos se toman en cuenta cuando se calcula la mediana del

conjunto

d. La desviación estándar se mide en las mismas unidades que las observaciones del conjunto

de datos

2. Subraye la respuesta que considere correcta.

a. ¿Cuál de las afirmaciones siguientes acerca de los rectángulos de un histograma es

correcta?

i. Los rectángulos tienen una altura proporcional al número de elementos de las clases

ii. Por lo general existen cinco rectángulos en cada histograma

iii. El área de un rectángulo depende sólo del número de elementos de la clase en

comparación con el número de elementos de todas las demás clases

iv. Todas las anteriores b. ¿Cuál es la principal suposición que se hace cuando se calcula la media de datos

agrupados?

i. Todos los valores son discretos

ii. Cada valor de una clase es igual a su punto medio

iii. Ningún valor se presenta más de una vez

iv. Cada clase contiene exactamente el mismo número de valores

c. ¿En cuál de estos casos sería la moda más útil como indicador de la tendencia central?

i. Cada valor de un conjunto de datos se presenta solamente una vez

ii. Todos los valores de un conjunto de datos, excepto tres, se presentan sólo una vez. Los tres valores se presentan 100 veces cada uno

iii. Todos los valores de un conjunto de datos se presentan 100 veces cada uno

iv. Todas las observaciones de un conjunto de datos tienen el mismo valor

d. El cuadrado de la varianza de un conjunto de datos representa

i. La desviación estándar

ii. La media

iii. El alcance

iv. Ninguna de las anteriores

e. ¿Por qué es necesario elevar al cuadrado las diferencias con respecto a la media cuando se

calcula la varianza de la población?

i. Para que los valores extremos no afecten el cálculo

ii. Porque es posible que el tamaño de la población sea pequeño

15. PROBLEMAS PROPUESTOS

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 32

iii. Algunas de las diferencias serán positivas y otras negativas

iv. Ninguna de las anteriores

3. Halle la media y la mediana de los primeros n números naturales.

4. Halle la media y la mediana de los cuadrados de los primeros n números naturales.

5. Halle la varianza muestral y la varianza muestral corregida de los primeros n números

naturales.

6. Se toma una muestra de 60 obreros de una fábrica y se quiere hacer un estudio del salario

semanal (en miles de bolívares). Se obtuvo la siguiente información presentada en el cuadro

adjunto.

Salario

(Bs/sem)

Punto

medio

Frecuencia

absoluta

Frecuencia absoluta

acumulada

Frecuencia

relativa

Frecuencia relativa

acumulada

[20,24] 22 8 8 8/60 8/60

[25,29] 27 11 19 11/60 19/60

[30,34] 32 4 23 4/60 23/60

[35,39] 37 7 30 7/60 30/60

[40,44] 42 12 42 12/60 42/60

[45,49] 47 9 51 9/60 51/60

[50,54] 52 9 60 9/60 60/60

a. Obtenga el salario promedio del grupo de obreros

b. Determine el porcentaje de obreros que tienen salarios mayores o iguales a 25.000 Bs

pero igual o menor a 44.000 Bs

c. Calcule la moda

d. Calcule el recorrido intercuartil

7. 60 datos han sido agrupados en una distribución de frecuencias de 6 clases de igual amplitud.

Se dispone de la siguiente información acerca de esa distribución de frecuencias: • La mediana es 26

• El 20% de los datos es superior a 38 • 3H 0.3=

• 3h 0.1=

• 4F 48=

• 11 5 62f f f= =

Halle la distribución de frecuencias.

8. Considere un lote de 300 muestras distribuidas en forma simétrica en seis intervalos de igual

amplitud. Se dispone de la siguiente información acerca de esa distribución de frecuencias:

• La mediana es 25

• El percentil 91.667 es 35

• 2 1f 3f=

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 33

• 3 1f 2f=

Halle la distribución de frecuencias.

9. Para estudiar la cantidad de errores ortográficos cometidos por un conjunto de 60 estudiantes

al tomar un dictado, se organizaron los datos en una tabla de distribución de frecuencias de

seis clases de igual amplitud. De dicha distribución solo se conoce la siguiente información:

a. en la cuarta clase se tiene el doble de datos que en la sexta clase

b. las clases uno y cinco tienen igual número de datos c. la clase tres tiene la mayor cantidad de datos igual a 25

d. la mediana de los datos es igual a 10.24

e. el extremo inferior de la clase 6 es 20 f. por encima de la clase tres hay 19 datos

g. el número de datos de la clase dos triplica al número de datos de la clase uno

Construya la distribución de frecuencias para esos datos.

10. Se tienen los datos correspondientes al peso (en Kg.) de 200 productos, organizados en una

distribución de frecuencias formada por 6 intervalos de clases de igual amplitud, con las

características siguientes:

• La diferencia entre el percentil 90 y el percentil 2 es 0.88

• Si se elimina el 5% inferior de los datos y el 10% superior de los datos, el peso promedio

es de 0.5776 Kg

• La primera clase contiene el 5% de los datos

• La mediana es el límite superior de la tercera clase • La frecuencia acumulada absoluta de la segunda clase es 40 • 4 3F F 64− =

• 6 55f 4f=

Halle la distribución de frecuencias de estos datos.

11. En un torneo de fútbol se conoce que el 15% de los jugadores ha anotado más de 5 goles.

Hay dos jugadores que se disputan el liderato del torneo con 8 goles. El 30% de los jugadores

ha anotado 4 ó 5 goles, sabiendo además que la cantidad de jugadores es la misma para

ambas categorías. La cuarta parte de los jugadores anotó un gol y el número de jugadores

que anotó 2 goles es el doble del número que anotó 3 goles. Por otro lado, se sabe que sólo

un jugador ha anotado 7 goles. Los datos anteriores son relativos a aquellos jugadores que

anotaron al menos un gol y estos representan el 60% del total de 100 jugadores en el torneo.

Obtenga la tabla de frecuencias para estos datos.

12. Un complejo Sistema de Telecomunicaciones GSM está formado por 1000 nodos. El

Departamento de Estadística Operativa que monitorea al Sistema de Telecomunicaciones se

encargó de recopilar las fallas que se presentaron en cada uno de los nodos durante un año.

Los datos obtenidos corresponden a aquellos nodos que presentaron al menos una falla, que

representan el 90% del total de los nodos. Los resultados fueron los siguientes:

• El número de nodos que presentaron 2 fallas es el mismo que el cuádruple del número de

nodos que sufrieron 4 fallas

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 34

• Solo el 20% de los nodos han presentado más de 5 fallas

• Una cuarta parte de los nodos han presentado 3 ó 5 fallas

• Solo el 20% de los nodos presentó una falla

• El mismo número de nodos que presentaron 4 fallas también presentaron 7 fallas

• El 70% de los nodos presentaron menos de 5 fallas

• Sólo 30 nodos presentaron un máximo de 8 fallas cada uno

a. Halle la distribución de frecuencias de los datos

b. Calcule media, moda y mediana para la distribución anterior

13. En una liga de béisbol aficionado sólo 30 bateadores batearon por encima de 300 puntos. Los

1200 jugadores con turnos legales para ser tomados en cuenta han sido distribuidos en seis

clases de igual ancho donde el percentil 97,5 coincide con el límite superior de la clase cinco.

Por otro lado, el tercer cuartil es 270 y coincide con el borde inferior de la clase cuatro. El

número de jugadores en la primera clase es el triple del número en la tercera clase mientras

que en la segunda clase hay el doble de jugadores que en la tercera. Finalmente, se conoce

que el 14,5% de los jugadores pertenece a la cuarta clase. Halle la distribución de

frecuencias.

14. Una prestigiosa compañía ha decidido contratar a una compañía de recursos humanos para

que gestione la contratación de varios ingenieros para el próximo proyecto que se va a licitar.

Esta compañía de recursos humanos tiene las calificaciones de una prueba técnica presentada

por 800 ingenieros logrando distribuir en clases esta información. La información que se tiene

es la siguiente:

• Las notas están distribuidas en 7 clases de igual amplitud

• El 10% superior de las notas supera el valor 96

• La mitad de los datos está por debajo de 60

• La clase 4 es una clase modal y contiene el 30% de los datos

• Por encima de esa clase modal esta el 20% de las notas

• La primera y la última clase contienen cada una 80 datos

• La segunda clase contiene la tercera parte de los datos de la tercera clase

• El percentil 85 es 84 puntos

a. Obtenga la tabla de distribución de frecuencias b. Determine el rango intercuartílico

15. Pensando en la selección de estudiantes para su ingreso al Sistema de Educación Superior, se

han escogido los 5000 mejores estudiantes de aquellos que solicitan estudiar la carrera de

Ingeniería Eléctrica. Para la escogencia de estos 5000 aspirantes se tomó en cuenta el

promedio de sus asignaturas cursadas y aprobadas en los primeros cuatro años de estudios de

educación media. Se sabe que el promedio de notas de esta muestra de 5000 estudiantes es

de 15.94. Los promedios de notas para estos 5000 estudiantes han sido distribuidos en 8

clases de igual amplitud. De esta distribución de frecuencias se conoce además lo siguiente:

• El primer cuartil es 15 y coincide con el borde inferior de la quinta clase

• El percentil 90 es 18 y coincide con el borde superior de la séptima clase

• El número de datos en la clase 4 es igual a la suma de los datos de las clases 2 y 3

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 35

• Las clases 5 y 6 tienen cada una 4 veces el contenido de la primera clase

• La séptima clase tiene 1250 datos

Obtenga la tabla de distribución de frecuencias

16. Una máquina produce tornillos cuya longitud nominal es de 10 cm de largo. Se considera que

un tornillo está en especificaciones si su longitud difiere menos de 2 mm de la longitud

nominal. La producción de una hora correspondiente a 1500 tornillos, se ha distribuido en 7

clases de igual amplitud, con las características siguientes:

• En las clases uno y siete hay igual cantidad de tornillos

• El total de tornillos por encima de la clase cinco excede al total de la clase dos por cinco

• En las dos primeras clases hay un total de 180 tornillos

• Hasta la clase seis hay 1450 tornillos acumulados

• El 37% de los tornillos cae en la cuarta clase

• El percentil 27,33, igual a 9,95 cm, coincide con el límite superior de la clase tres

• La longitud promedio de los 1500 tornillos es de 10,033 cm

a. Obtenga la tabla de distribución de frecuencias

b. ¿Qué porcentaje de tornillos está en especificaciones?

17. A continuación se presentan unos diagramas de cajas para los datos de precipitación por mes

de la estación meteorológica de San Fernando en el estado Apure.

ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC

010

020

030

040

050

0

DIAGRAMAS DE CAJA MESES DE SAN FERNANDO

PR

EC

IPIT

AC

IÓN

(mm

)

Analice el siguiente gráfico considerando los siguientes aspectos de interés: media aritmética y

mediana por mes, datos atípicos, rango intercuartílico y comportamiento de la precipitación.

18. Una empresa productora de antenas satelitales tiene tres máquinas dedicadas a la producción

de antenas cuyo radio de pantalla debe ser de 11 cm. Debido a desperfectos en las máquinas

el radio de cada pantalla varía dificultando la calidad de las antenas producidas. Por esta

razón, el Departamento de Control de Calidad de la empresa ha decidido tomar una muestra

de 11 antenas de cada máquina para verificar su radio. La tabla siguiente presenta los

resultados obtenidos de las muestras tomadas.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 36

N° de la muestra Máquina 1 Máquina 2 Máquina 3

1 11,6 12,2 11,8

2 11,2 11,7 11,2

3 11,3 11,7 11,5

4 11,8 12,0 11,5

5 11,7 11,9 11,6

6 11,0 11,5 11,2

7 9,6 11,4 10,4

8 10,1 11,4 10,2

9 10,2 11,2 11,2

10 9,5 11,4 10,7

11 9,6 11,3 10,4

Radios dados en centímetros

Con base en los diagramas de caja y bigotes para las 3 máquinas, ¿qué podría decir usted acerca

de la calidad del lote de producción analizado? Tome en cuenta localización y dispersión de la

muestra en su respuesta.

19. Se desea distribuir en 7 clases los datos de la vida útil, medida en meses, de 50 baterías para

automóviles. Para ello se dispone de la siguiente información acerca de esa distribución:

•••• La mediana de la vida útil de las baterías es de 20 meses

•••• Las tres primeras clases contienen un total de 10 datos

•••• La mitad de los datos está en las tres últimas clases

•••• La suma de los datos de las clases 2 y 3 es igual al número de datos de la clase 6

•••• En la clase 5 hay 11 datos y en la clase 7 hay 6 datos

•••• 7 2f 2f= y 10P 10=

Obtenga la distribución de frecuencias de la vida útil de las 50 baterías.

20. Construya el diagrama de caja y bigotes para los datos del ejercicio anterior.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 37

RESPUESTAS

1. a. F b. F c. F d. V 2. a.i b.ii c.ii d.iv e.iii 3. n 1

M Me2

+= =

4.

2

2

n 1n impar

2(n 1)(2n 1)M , Me

6 n 1 1n par

2 4

+ + + = = + +

5. 2

2 2c

n 1 n(n 1)S , S

12 12

− += =

6. a. 37.583 b. 56.67 c. 42.5 d. 18.78 7.

Clase

Inicio

Fin

Marca de

clase

(xi)

fi

Fi

hi

Hi

1 -42 -22 -32 4 4 4/60 4/60

2 -22 -2 -12 8 12 8/60 12/60

3 -2 18 8 6 18 6/60 18/60

4 18 38 28 30 48 30/60 48/60

5 38 58 48 4 52 4/60 52/60

6 58 78 68 8 60 8/60 1 8.

Clase

Inicio

Fin

Marca

de clase

(xi)

Fi

Fi

hi

Hi

1 10 15 12.5 25 25 25/300 25/300

2 15 20 17.5 75 100 75/300 100/300

3 20 25 22.5 50 150 50/300 150/300

4 25 30 27.5 50 200 50/300 200/300

5 30 35 32.5 75 275 75/300 275/300

6 35 40 37.5 25 300 25/300 1 9.

Clase Inicio Fin fi Fi hi Hi

1 0 4 4 4 4/60 4/60

2 4 8 12 16 12/60 16/60

3 8 12 25 41 25/60 41/60

4 12 16 10 51 10/60 51/60

5 16 20 4 55 4/60 55/60

6 20 24 5 60 5/60 1

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 38

10.

Clase

Inicio

Fin

Marca

de clase

(xi)

fi

Fi

hi

Hi

1 0.0 0.2 0.1 10 10 0.05 0.05

2 0.2 0.4 0.3 30 40 0.15 0.20

3 0.4 0.6 0.5 60 100 0.30 0.50

4 0.6 0.8 0.7 64 164 0.32 0.82

5 0.8 1.0 0.9 20 184 0.10 0.92

6 1.0 1.2 1.1 16 200 0.08 1.00 11.

12.

MEDIA = 3.31 MEDIANA = 3 MODA = 2

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 39

13.

14.

RANGO INTERCUARTIL = 20 15.

Probabilidad y Estadística Fundamentos de Estadística Descriptiva

José Luis Quintero 40

16.

PORCENTAJE EN ESPECIFICACIONES: 70%

19.

Clase

Inicio

Fin

Marca de

clase

(xi)

fi

Fi

hi

Hi

1 0 5 2.5 2 2 0.04 0.04

2 5 10 7.5 3 5 0.06 0.10

3 10 15 12.5 5 10 0.10 0.20

4 15 20 17.5 15 25 0.30 0.50

5 20 25 22.5 11 36 0.22 0.72

6 25 30 27.5 8 44 0.16 0.88

7 30 35 32.5 6 50 0.12 1.00

José Luis Quintero

ROBABILIDADES (ITEL-30205)

Tema 1. Fundamentos de Estadística Descriptiva

Distribución defrecuencias y medidas de localización

[1] CANAVOS, GEORGE. Probabilidad y Estadística. Aplicaciones y Métodos. Mc Graw Hill (1995)

[2] DEVORE, JAY. Probabilidad y Estadística para Ingeniería y Ciencias. Quinta edición.

Thomson Learning (2001)

[3] DÍAZ, RAFAEL. Introducción a la Probabilidad y a los Procesos Estocásticos en Ingeniería.

Disponible en Módulo 7 Universidad Católica Andrés Bello (2011)

[4] HINES, WILLIAM y MONTGOMERY, DOUGLAS. Probabilidad y Estadística para Ingeniería. Tercera edición. CECSA (1999)

[5] LÓPEZ, RAFAEL. Cálculo de Probabilidades e Inferencia Estadística con tópicos de

Econometría. Quinta edición. Publicaciones UCAB (2009)

[6] MARTÍNEZ, CIRO. Estadística y Muestreo. Ecoe Ediciones (2003)

[7] MEYER, PAUL. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley Iberoamericana

(1986)

[8] MONTGOMERY, DOUGLAS y RUNGER, GEORGE. Probabilidad y Estadística aplicadas a la Ingeniería. Mc Graw Hill (1998)

[9] NIEVES, ANTONIO y DOMÍNGUEZ, FEDERICO. Probabilidad y Estadística para Ingeniería.

Un enfoque moderno. Mc Graw Hill (2010)

[10] ORTEGA, JOAQUIN y WSCHEBOR, MARIO. Introducción a la Probabilidad. Universidad

Nacional Abierta (1993)

[11] SPIEGEL, MURRAY; SCHILLER, JOHN y SRINIVASAN, ALU. Probabilidad y Estadística. Segunda edición. Serie Schaum (2001)

[12] TRIOLA, MARIO. Probabilidad y Estadística. Novena edición. Pearson Addison Wesley

(2004)

[13] WACKERLY, DENNIS; MENDENHALL; WILLIAM y SCHEAFFER, RICHARD. Estadística

Matemática con Aplicaciones. Séptima edición. Cengage Learning Editores (2010)

[14] WALPOLE, RONALD; MYERS, RAYMOND; MYERS, SHARON y YE, KEYING. Probabilidad y Estadística para Ingeniería y Ciencias. Onceava edición. Pearson (2012)

BIBLIOGRAFÍA GENERAL

José Luis Quintero

Ingeniero de Sistemas (I.U.P.F.A.N.) – Magister Scientiarum enInvestigación de Operaciones (U.C.V.) – Doctor en Ciencias dela Computación: Área de interés: Cálculo Numérico yOptimización (U.C.V.). Postdoctor en Ciencias Gerenciales(U.N.E.F.A.). Actualmente se encuentra culminando el(U.N.E.F.A.). Actualmente se encuentra culminando elDoctorado en Ingeniería: Área de interés: Estadística (U.S.B.).Investigador y profesor de pregrado y postgrado de la Facultadde Ingeniería de la Universidad Central de Venezuela. Profesorde la Escuela de Ingeniería de Telecomunicaciones de laUniversidad Católica Andrés Bello.

Fundamentos de Estadística Descriptiva reúne en unsolo material los puntos de interés de este segundo tema parael curso de Estadística que forma parte del conjunto deasignaturas del programa de estudios del Postgrado enInvestigación de Operaciones. Aspectos de interés comoorganización de los datos en tablas de distribución defrecuencias, medidas de tendencia central, medidas delocalización, medidas de dispersión y diagramas de caja y

http://www.joseluisquintero.com/

localización, medidas de dispersión y diagramas de caja ybigotes forman parte del contenido del tema. Se resuelven yproponen problemas a distintos niveles que buscan ilustrancon situaciones sencillas los aspectos teóricos desarrolladosen el tema. Determinados gráficos están generados con elprograma MATLAB.

El presente material se encuentra disponible para descargarde forma gratuita del sitio web