Estadistica I 02

27
1 UCV/FACES/EAC Estadísticas I Distribuciones de Frecuencia y Gráficas Prof. Leonardo Simmons

description

Construcción de distribuciones de frecuencia y sus gráficas

Transcript of Estadistica I 02

Page 1: Estadistica  I 02

1

UCV/FACES/EACEstadísticas I

Distribuciones de Frecuencia y GráficasProf. Leonardo Simmons

Page 2: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

2

DISTIBUCIONES DE FRECUENCIA

Uno de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de los resultados, es decir, recoger la información de la muestra o población resumida en una tabla, que denominaremos distribución de frecuencias. en la que cada valor de la variable se le asocian sus frecuencias absolutas, relativas y acumuladas.

Las distribuciones de frecuencias varían en sus columnas dependiendo del nivel de agrupación de las observaciones de la variable estudiada y si ésta corresponde a una variable cualitativa, a una variable discreta o a una variable continua.

Page 3: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

3

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

Caso: Variable Cualitativa (Atributo)

La estructura de una DFDNA para una variable cualitativa es como sigue:

Donde:

Xi = es el i-ésimo valor de la variable de estudio

fi = es la frecuencia del i-ésimo valor de la variable

Hi y %hi = son la respectivas frecuencias relativas

1001.00n = N

%hkhkfkxk

::::

%h2h2f2x2

%h1h1f1x1

%hhfX

Page 4: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

4

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

P.ej: Se preguntó a un grupo de alumnos de Ingeniería Industrial su materia preferida y estas fueron sus respuestas:

mat eco adm inv indmat inv ind prob ecoprob mat mat adm inveco mat prob ind probmat prob ind ind inveco prob mat adm indmat ind mat inv indadm prob mat ind probmat eco adm ind probprob mat ind adm inv

P.ej: Organicemos estas repuestas en una DFDNA:

Materia Preferida (x) #Estudiantes (f) h %hAdministracion 6 0,12 12,00Ing. Económica 5 0,10 10,00Ing. Industrial 11 0,22 22,00Inv. de operaciones 6 0,12 12,00Matematicas 12 0,24 24,00Prob. y estadísticas 10 0,20 20,00

50 1,00 100,00

Page 5: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

5

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

De la tabla se pueden extraer conclusiones como:

2. La materia “más preferida” por los estudientes en la muestra es matemáticas con 24% y en segundo lugar Ing. Industrial con 22%

3. La materia “menos preferida” es Ing. Económica con 10%

4. La proporción de alumnos que prefieren Prob. Y estadísticas es 0,20

Se puede representar gráficamente la información contenida en la DFDNA:

Distibución de las Materias Preferidas

12%10%

22%12%

24%

20%Administracion

Ing. Económica

Ing. Industrial

Inv. de operaciones

Matematicas

Prob. y estadísticas

Distibución de las Materias Preferidas

02468

101214

Admin

istra

cion

Ing.

Eco

nóm

ica

Ing.

Indus

trial

Inv. d

e op

eracio

nes

Mat

emat

icas

Prob. y

estadí

stica

s

Materias

No

. E

stu

dia

nte

s

Fuente: Encuesta Fuente: Encuesta

Page 6: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

6

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

Caso: Variable Cuantitativa (Discreta)

La estructura de una DFDNA para una variable cuantitativa (Discreta)

es como sigue:

%Hk

:

%H2

%H1

%H

Hk

:

H2

H1

H

Fk

:

F2

F1

F

1001.00n = N

%hkhkfkxk

::::

%h2h2f2x2

%h1h1f1x1

%hhfX

Page 7: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

7

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

P.ej: Una encuesta entre un grupo de madres-solteras, para analizar los problemas económicos que enfrentan, en determinada comunidad; arrojó los siguientes resultados acerca del número de niños (menores de 12 años) en el hogar:

1 4 2 3 5 3 5 3 3 51 1 2 1 4 1 2 1 4 12 1 1 2 1 2 3 2 3 33 1 3 4 1 1 3 5 4 22 5 1 4 2 3 1 2 5 1

No. Niños (X ) No.Hogares (f) h %h F H %H1 16 0,32 32 16 0,32 322 11 0,22 22 27 0,54 543 11 0,22 22 38 0,76 764 6 0,12 12 44 0,88 885 6 0,12 12 50 1 100

50 1,00 100

Page 8: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

8

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

Gráficas asociadas…..

HistogramasDistribución del Porcentaje de Niños por Hogares

0

20

40

60

80

100

120

1 2 3 4 5

No. de Niños

%H

og

ares

1 2 3 4 5%

Ho

gar

es

5

15

20

25

30

10

35

No. de Niños

Distribución del Porcentaje de Niños por Hogares

Fuente: Encuesta de HogaresFuente: Encuesta de Hogares

Page 9: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

9

DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)

Gráficas asociadas…..

Ojiva Ascendente CircularDistribución del Porcentaje de Niños por

Hogares

222%

322%

412%

512%

132%

Fuente: Encuesta de Hogares

1 2 3 4 5

% H

og

ares

20

60

80

100

30

40

35

No. de Niños

Distribución Acumulada del Porcentaje de Niños por Hogares

Fuente: Encuesta de Hogares

Page 10: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

10

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

La distribución de frecuencia de datos agrupados (DFDA) por lo general se usa para organizar los valores poblacionales o muestrales de una variable cuantitativa continua.

Las observaciones de la variable se agrupan en clases o intervalos de tal manera que las frecuencias hacen referencia a la clase o intervalo de valores de la variable y no a un valor en particular como en el caso de la DFDNA.

A continuación se detalla el procedimiento para construir una DFDA:

4. Ordenar los datos

5. Determinar el Rango (R) de la variable: R = Xmax - Mmin

6. Determinar el número de clases o intervalos (K) de la distribución:

• Empíricamente

• Método de 2K: K es el exponente de 2 tal que 2K≥ n

• Formula de Sturges: K = parte entera (1+ 3,32 Log (n))

Page 11: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

11

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

1. Calcular el rango de las clases o intervalos (C) de la distribución:

C = R/K

3. Asiganar los limites de las clases o intervalos con la siguiente regla:

l1= Xmin , donde l1 = Limite inferior de la clase 1

L1= l1 + C, donde L1 = Limite superior de la clase 1

l2= L1, donde l2 = Limite inferior de la clase 2

L2= l2 + C …..y así sucesivamente hasta llegar a que Lk = Xmax

8. Clasificar cada observación de la variable en una y solo una de las clases, usando la siguiente regla:

• Las primeras K-1 clases son [) – cerradas en el limite inferior y abiertas en el limite superior

• La última clase (K) es [] – cerrada en ambos limites

9. Determinar las frecuencias relativas y acumuladas; además de la marca de clases:

Xi =(Li + li)/2

Page 12: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

12

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)

P.ej: La tienda CABRERA’S Y ASOCIADOS esta interesada en efectuar un análisis de sus cuentas por cobrar. Uno de los factores que más interesaba a la administración de la tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en Miles de Bs.F) como sigue:

7,42 8,15 11,1 12,18 12,98 13,02 17,64 17,97 20,64 21,125,68 29,75 32,67 34,40 38,74 43,13 43,66 43,66 43,97 51,69

53,4 60,94 68,13 70,15 77,97 79,61 81,59 89,19 90,99 93,91

1. Determinar el Rango (R) de la variable: R = Xma- Mmin= 93,91–7,42= 86,49

2. Determinar el número de clases o intervalos (K) de la distribución:• Método de 2K: K= 5 ya que 25 = 32 ≥ 30

• Formula de Sturges: K = parte entera (1+ 3,32 Log (30)) =parte entera (5,9069=5

Page 13: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

13

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

1. Calcular el rango de las clases o intervalos (C) de la distribución:

C = R/K = 86,49/5 = 17,298 *

Nota (*): como la variable se midío con 2 decimales redondeamos el valor calculado de C con la misma cantidad de decimales, es decir:

C = 17,30

5. Asiganar los limites de las clases o intervalos con la siguiente regla:

l1= Xmin = 7,42 ; L1= l1 + C = 7,42 + 17,30 = 24,72; ..y así sucesivamente

7. Clasificar cada observación de la variable en una y solo una de las clases, usando la siguiente regla:

• Las primeras K-1 clases son [) – cerradas en el limite inferior y abiertas en el limite superior

• La última clase (K) es [] – cerrada en ambos limites

8. Determinar las frecuencias relativas y acumuladas; además de la marca de clases:

Xi =(Li + li)/2

Page 14: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

14

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

Resultando la siguiente DFDA:

No. Cuentas (f)

Marca de

Clase (X) h %h F H %H

7,42 - 24,72 10 16,07 0,3333 33,3333 10 0,3333 33,333324,72 - 42,02 5 33,37 0,1667 16,6667 15 0,5000 50,000042,02 - 59,32 6 50,67 0,2000 20,0000 21 0,7000 70,000059,32 - 76,62 3 67,97 0,1000 10,0000 24 0,8000 80,000076,62 - 93,92 6 85,27 0,2000 20,0000 30 1,0000 100,0000

30 1,000 100,000

Saldo (Miles BsF)

Page 15: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

15

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

7,42 24,72 42,02 59,39 76,62 93,92

Saldo de la Cuentas por Cobrar (Miles Bs.F)

5

10

15

20

25

30

35

% C

uen

tas

po

r C

ob

rar

Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)

Cabrera & Asociados

Fuente: Archivos de Cabrera & Asociados

Grafica asociada a la DFDA: Histograma

Page 16: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

16

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

Grafica asociada a la DFDA:

Polígono de Frecuencia

7,42 24,72 42,02 59,39 76,62 93,92

Saldo de la Cuentas por Cobrar (Miles Bs.F)

5

10

15

20

25

30

35

% C

uen

tas

po

r C

ob

rar

Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)

Cabrera & Asociados

Fuente: Archivos de Cabrera & Asociados

16,07 33,37 50,57 67,97 85,27

Page 17: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

17

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

Grafica asociada a la DFDA:

Histograma

+

Polígono de Frecuencia

(Integrados)

7,42 24,72 42,02 59,39 76,62 93,92

Saldo de la Cuentas por Cobrar (Miles Bs.F)

5

10

15

20

25

30

35

% C

uen

tas

po

r C

ob

rar

Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)

Cabrera & Asociados

Fuente: Archivos de Cabrera & Asociados

Page 18: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

18

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)

Grafica asociada a la DFDA: Ojiva Ascendente

7,42 24,72 42,02 59,39 76,62 93,92

Saldo de la Cuentas por Cobrar (Miles Bs.F)

20

40

60

80

100

% C

uen

tas

po

r C

ob

rar

Distribución Acumulada de los Saldo de las Cuentas por Cobrar (Miles Bs.F)

Cabrera & Asociados

Fuente: Archivos de Cabrera & Asociados

Page 19: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

19

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)

Ejemplo de interpretación de los resultados contenidos en la tabla:

2. f1 : Diez (10) de las cuentas investigadas tienen saldo entre 7,42 y 24,72 miles BsF, lo cual representa el 10% – h1 – de la muestra.

3. H3 : 0,70 es la proporción de cuentas por pagar de la muestra con un saldo menor que 59,32 BsF.

4. %H3 : El 70% de las cuentas investigadas presentan saldo de a lo sumo 59,32 BsF.

5. X3 : La cantidad 50,67 BsF es el saldo que representa a todas las cuentas con saldo entre 42,02 y 59,32 BsF.

Page 20: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

7,42 24,72 42,02 59,39 76,62 93,92

Saldo de la Cuentas por Cobrar (Miles Bs.F)

20

40

60

80

100

% C

uen

tas

po

r C

ob

rar

Distribución Acumulada de los Saldo de las Cuentas por Cobrar (Miles Bs.F)

Cabrera & Asociados

Fuente: Archivos de Cabrera & Asociados

20

DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)

Con ayuda de las gráficas podemos responder a preguntas como:

¿Que porcentaje aproximadamente de cuentas tienen saldos entre 30 y 65 BsF?

Como se aprecia 30 y 65 BsF no son limites de clases por eso no podemos responder directamente con la tabla esta pregunta y nos tenemos que valer de la gráfica de frecuencias acumuladas (ojiva) para ello:

-Aprox. el 40% de las cuentas tienen saldo ≤ a 30 Mil BsF

-Aprox. el 73% de las cuentas tienen saldo ≤ a 65 Mil BsF

Luego: 73%-40% = 33% entonces: aprox. El 33% de las cuentas tienen saldo entre 30 y 65 miles BsF

3065

40

73

Page 21: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

21

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

Las técnicas del análisis exploratorio de datos consiste en operaciones aritméticas sencillas y gráficas fáciles de trazar, que pueden emplearse para resumir con rapidez los datos de una muestra.

La técnica conocida como diagrama tallo y hoja se usa para mostrar en forma simultanea el orden del rango y la forma de un conjunto de datos. Persigue los siguientes objetivos:

• Representación visual de la información

• Descubrir un patrón de comportamiento de los datos, es decir, qué distribución pueden seguir los datos

• Identificar si hay valores extremos o datos anormales en la muestra

Es aplicables a variables cuantitativas de valores formados por al menos dos cifras.

Principio: Cada número se divide en dos partes, una que llamaremos "Tallo" y la otra denominada " ramas u Hojas".

Page 22: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

22

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

Ejemplo: Considere los siguientes números: 65, 57, 79, 69, 53, 63, 71. Los tallos serán las decenas, y las hojas serán las unidades, de la siguiente manera, luego:

Resto de los números (cifras secundarias) ubicadas a la derechaHoja

Formado por uno o más dígitos principales (cifras mas significativas), ubicados a la izquierda del número.

Tallo

197

3596

375

RamasTallo

Procedimiento:1. Se define cómo se van a dividir los números en tallos y hojas, es decir, se identifican cuales van a ser los tallos, y cuales va a ser las hojas. 2. En una columna se listan los tallos en orden ascendente.3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo al tallo que tengan y se ordenan en forma creciente

Page 23: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

23

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

Ejemplo: Considere la siguiente información sobre duración de baterías de carro, en años. Se pide:• Construir el diagrama de tallos y hojas usando como tallos la parte entera. • Construir el diagrama de tallos y hojas partiendo cada tallo en dos.

3.54.23.0 3.9 2.6 3.23.8 4.7

3.41.9 4.1 3.2 4.4 3.7 3.13.3

3.13.9 3.3 2.9 3.6 3.4 4.3 2.5

3.74.7 3.13.8 3.3 3.1 1.6 3.4

2.63.0 3.73.2 4.53.5 4.12.2

Duración de baterías (en años)

Page 24: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

24

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

• Usando como tallos la parte entera Tallos: Dígitos principales (Parte entera); Hojas: Dígitos secundarios (Parte decimal)

40Total

9 1 1 2 3 4 5 6 7 74

250 0 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 6 7 7 7 8 8 9 93

52 5 6 6 92

19 1

FrecuenciaHojasTallo

• Partiendo cada tallo en dos

En este caso el tallo 1 únicamente tendría la parte superior, y el tallo 4 tendría tanto la parte inferior como la superior

Page 25: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

25

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

40Total

45 6 7 74 S

51 1 2 3 44 I

105 5 6 7 7 7 8 8 9 9 3 S

150 0 1 1 1 1 2 2 2 3 3 3 4 4 4 3 I

45 6 6 92 S

122 I

191 S

FrecuenciaRamasTallo

Page 26: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

26

ANALISIS EXPLORATORIO DE DATOS

Diagrama de Tallo y Hoja

Observaciones:

• Se recomienda que el número de tallos esté entre 5 y 20.

• A veces, de acuerdo con la información que se tenga, pueden resultar muy pocos tallos, con lo cual las ramas quedan muy concentradas, y realmente no se obtiene mucha información. En estos casos, puede ser conveniente partir los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las hojas menores que 5), y un tallo superior (que tenga las hojas mayores o iguales a cinco).

Así, por ejemplo, el tallo 6 puede dividirse en 6I, para los valores entre 60 y 64, y el tallo 6S, para los valores entre 65 y 69.

• Cuando se parten los tallos en dos, todos los tallos deben partirse en dos. Solamente el primero y el último tallo podrían dejarse sin partir, en caso de que en el primer tallo sólo haya información para el tallo superior, y cuando para el último tallo sólo haya información para el tallo inferior.

Page 27: Estadistica  I 02

Prof. Leonardo Simmons Estadísticas I -02

27

TAREA No. 2

2. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 1 al 10 (pag. 28 al 30)

3. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 11 al 21 (pag. 36 al 39)

4. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 22 al 28 (pag. 42 al 43)

5. Si usted trabaja identifique al una variable cuantitativa importante que corresponda con algún proceso administrativo en el que usted interviene, p.ej: ventas, inventario, personal, etc. Recolecte una muestra de al menos 50 observaciones de dicha variable y construya una DFDA y sus respectivas gráficas. Saque algunas conclusiones