Estadística I

42
Universidad Peruana de Integración Global Asignatura: Estadística I Ingº Blanca Yaya Gómez 1 Universidad Peruana de Integración Global Facultad: Ingeniería de Sistemas e Informática Asignatura: Estadística I Ciclo: II Docente: Ingº Blanca Yaya Gómez Turno: Mañana/Noche Lima Noviembre 2014

Transcript of Estadística I

Page 1: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 1

Universidad Peruana de Integración Global

Facultad: Ingeniería de Sistemas e Informática

Asignatura: Estadística I

Ciclo: II

Docente: Ingº Blanca Yaya Gómez

Turno: Mañana/Noche

Lima Noviembre 2014

Page 2: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 2

INTRODUCCIÓN

El uso de la Estadística se ha generalizado en los últimos años no sólo como herramienta de análisis de problemas de economía, sino como auxiliar en el estudio y valoración de cualquier investigación. El propósito es proporcionar a los estudiantes de Ingeniería de Sistemas, el material exigido en el curso de Estadística I, incluyendo algunas de sus aplicaciones.

La estadística es en la Ingeniería de Sistemas busca implementar los procesos probabilísticos y estadísticos de análisis e interpretación e datos o características de un conjunto de elementos al entorno industrial, a efectos de ayudar en la toma de decisiones y en el control de los procesos industriales y organizacionales

El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística, sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos de excelente calidad, como el SAS, SPSS, SCA, STATGRAPHICS, otros, que "corren" en un ordenador sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes de información y de variables.

Page 3: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 3

UNIDAD I

Describir la importancia y el uso de la Estadística y su relación con otras ciencias; dar

un concepto general de la metodología de la investigación Estadística.

El estudiante será capaz de recopilar, presentar, describir, analizar y elaborar gráficos e interpretar compilaciones de datos, asimismo podrá presentar conclusiones sobre uno o dos elementos de información que caractericen la totalidad de éstos, con el fin de identificar la medida en que los datos se agrupan o dispersan en torno a un valor central

Page 4: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 4

CONTENIDO

INTRODUCCIÓN ...................................................................................................................2

UNIDAD I .............................................................................................................................3

ESTADÍSTICA ....................................................................................................................5

DEFINICION .....................................................................................................................5

UTILIDAD E IMPORTANCIA ..........................................................................................5

NOMENCLATURA ESTADÍSTICA ................................................................................5

ELEMENTOS BÁSICOS DE LA ESTADÍSTICA: ..........................................................6

ETAPAS DE LA INVESTIGACION ................................................................................7

La Fuentes De Datos .......................................................................................................8

EJERCICIOS: ...................................................................................................................9

ORGANIZACIÓN DE DATOS....................................................................................... 10

TABLAS ESTADISTICAS ............................................................................................. 10

EXPLICACION DE LA ELABORACIÓN DE LA TABLA ............................................. 11

ELEMENTOS DE LA TABLA DE DISTRIBUCION DE FRECUENCIAS PARA DATOS AGRUPADOS .................................................................................................. 13

EJERCICIOS: ................................................................................................................. 14

LOS GRAFICOS ESTADISTICOS ............................................................................... 15

ESTADIGRAFOS DE TENDENCIA CENTRAL ................................................................ 19

LA MEDIA ARITMETICA ............................................................................................... 19

Ejercicios: ....................................................................................................................... 21

LA MEDIANA O EL VALOR MEDIANO ....................................................................... 22

LA MODA ........................................................................................................................ 24

OTRAS MEDIDAS DE TENDENCIA CENTRAL ........................................................ 26

MEDIDAS DE POSICIÓN................................................................................................... 28

ESTADIGRAFO DE DISPERSION ..................................................................................... 34

Rango o recorrido (r) ..................................................................................................... 34

Desviación media (D.M.) ............................................................................................... 34

Recorrido Semi Intercuartil (Q) ..................................................................................... 35

Varianza (s2) ................................................................................................................... 36

Desviación Estándar o Típica (S) ................................................................................. 37

Coeficiente de variación (CV) ....................................................................................... 37

FORMA DE UNA DISTRIBUCIÓN .................................................................................... 38

LA ASIMETRÍA Y SU MEDIDA .................................................................................... 38

LA CURTOSIS Y SU MEDIDA ..................................................................................... 39

BIBLIOGRAFIA: ................................................................................................................. 42

Page 5: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 5

SEMANA 01

ESTADÍSTICA

DEFINICION

Es la ciencia mediante el cual se desarrolla y aplica técnicas específicas para recopilar, consolidar y analizar información representativa, suficiente, confiable y oportuna con el fin de evaluar la incertidumbre en el proceso de la toma de decisiones. El proceso de análisis estadístico comprende a dos campos complementarios: La estadística descriptiva y la estiptica inferencial.

Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales. Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.

UTILIDAD E IMPORTANCIA

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.

NOMENCLATURA ESTADÍSTICA

1. Población o Universo: Es un conjunto (finito o infinito) de unidades de análisis que

conforman a la población que se desea describir simplemente o sobre la cual se desea

hacer inferencias y conocer sus parámetros característicos.

Población Finita: Es el conjunto finito de unidades de análisis donde se puede identificar

a un elemento inicial y/o a un elemento final. Por ejemplo: población de Constructoras en

la ciudad de lima, Departamentos construido en la ciudad de lima en el año 2013.

Población Infinita: Conjunto infinito de elementos donde no se podría identificar a una

unidad inicial ni a la final. Por ejemplo: la población de peces del mar, los arboles de la

selva peruana, etc.

2. Muestra.- Es un subconjunto de unidades de análisis extraída de la población objetivo

buscando que las unidades seleccionadas sean representativas con el fin de permitir que

a través de la información recabada con la muestra se realicen inferencias para toda la

población.

Page 6: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 6

Muestra No probabilística: Corresponde a un subconjunto de observaciones elegidas siguiendo aquellos criterios de representatividad que fueran establecidos arbitrariamente por el investigador.

Muestra probabilística: Corresponde a las observaciones realizadas en unidades que han sido elegidas siguiendo un criterio probabilístico, esto es, a cada unidad de la población se asigna probabilidad conocida (puede ser igual) para estar incluida como parte de la muestra, por tanto, las unidades de la muestra son elegidas de la población respetando estrictamente estas probabilidades que les han sido asignadas. La muestra probabilísticas permiten aplicar los métodos de la estadística inferencial y construir límites de confianza para las estimaciones de los parámetros que se desean estudiar. La representatividad de estas muestras se sustenta en el hecho que son las leyes de las probabilidades las que determinan si una unidad será incluida o no en la muestra.

3. Unidad de análisis.- Es el elemento que conforma a la población objetivo y de la cual se

extrae la información que se estudiar.

Ejemplos: Se desea estudiar la capacidad hotelera en la ciudad de lima y se define la unidad de análisis “hotel”, en cada uno de los hoteles de la ciudad, se solicita la siguiente información.

Número de habitaciones.

Número de empleados.

Total de clientes atendidos durante el mes de julio.

Ingresos totales en el mes de julio.

Tiene servicio de agencia de viaje (Sí=1 ; No=0)

Tiene servicio de restaurante de viaje (Sí=1 ; No=0)

4. Observación.- Es un valor particular que toma variable estudiada en la unidad de análisis

í-ésima.

5. Parámetro.- Es el indicador resultante de consolidar toda la información referida a la

población que se está estudiando, por tanto corresponde a un resultado de una

enumeración completa.

ELEMENTOS BÁSICOS DE LA ESTADÍSTICA:

Después de la conceptualización de Estadística y la utilidad, es fácil advertir que en el trabajo estadístico existen tres elementos básicos como son: la población o muestra (unidad de análisis), las variables o características, y los datos.

VARIABLE.- Es una característica que el investigador desea estudiar. Puede ser cuantitativa

o cualitativa.

CLASIFICACIÓN DE LAS VARIABLES: Las variables, considerando su naturaleza, se dividen en cuantitativas y cualitativas

a. Variables CUALITATIVAS.- Cuando las observaciones representan una determinada cualidad o propiedad de la variable que no pueden expresarse numéricamente. También se les llama atributo.

Las variables cualitativas a su vez pueden ser nominales y jerarquizadas. Nominales: Cuando no se puede establecer un orden en las cualidades o

atributos.

Ejemplos:

Profesional (Ingeniero, docente, medico, biólogo) Color (Verde, Rojo, Amarillo) Estado civil (Soltero, casado, viudo, divorciado) Sexo (Masculino, femenino) Marcas de gaseosas.

Page 7: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 7

Ordinales, jerárquicas o jerarquizadas: Cuando es posible establecer un orden en las alternativa.

Ejemplos:

Grado de instrucción (Primaria, secundaria, superior) Categoría como docente (Profesor auxiliar, principal, asociado).

b. Variables CUANTITATIVAS.- Cuando las observaciones se pueden representar en

forma numérica; es decir son susceptibles de ser medida o contabilizadas. A la variable cuantitativa también se le llama valor.

Las variables cuantitativas pueden ser continuas y discretas. Las variables cuantitativas DISCRETAS, Cuando admiten valores enteros. Las

observaciones se realizan por conteo.

Ejemplos:

El número de alumnos. El número de hijos por familia. La cantidad de empleados en una empresa. El número libros vendidos. El número de habitantes por distritos. El número de docentes de un instituto.

Las variables cuantitativas CONTINUAS, Cuando pueden admitir cualquier

valor dentro de un intervalo de la recta real. Los registros se realizan utilizando instrumento de medición o cualquier operación

Ejemplos:

El peso de los alumnos. La estatura de los alumnos. Los ingresos de los docentes de la UPIG. El tiempo de servicio en la UPIG.

ETAPAS DE LA INVESTIGACION

La investigación estadística por su naturaleza, es fundamental de tipo descriptiva; se preocupa de la confiabilidad, validez y significación de los datos, de las muestras así como de los métodos y técnicas de recolección de y análisis estadístico.

La investigación estadística es un proceso donde se distinguen cinco etapas:

1. Planeamiento o preparación 2. Recolección de los datos 3. Organización y presentación de datos 4. Análisis e interpretación de los datos 5. Formulación de inclusión y preparación del informe.

1. Planeamiento o preparación: La planificación no se realizará adecuadamente si antes

no se ha definido claramente la naturaleza y objetivos de la investigación así como la evaluación de los conocimientos que se tienen sobre el problema y de las hipótesis que se han formulado para explicarlo.

a. Planteamiento del problema.

b. Determinar los objetivos de la investigación.

c. Formulación de Hipótesis.

d. Fundamento e importancia de la investigación. e. Identificación de las Fuentes de Información.

2. Recolección de datos: La recopilación o recolección de datos es el momento en el cual

el investigador se pone en contacto con los objetos o elementos sometidos a estudio, con

el propósito de obtener los datos o respuestas de las variables consideradas; a partir de

Page 8: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 8

estos datos se prepara la información estadística, se calculan medidas de resumen e

indicadores para el análisis estadístico.

El trabajo de recolección de datos, en general, se puede realizar mediante dos modalidades:

a) La técnica de investigación documental o bibliográfica. b) La técnica de trabajo de campo.

Por su parte, el trabajo de campo puede realizarse de dos maneras: b.1. la observación y la exploración en el terreno, que consiste en el contacto directo

de investigador con el objeto de estudio.

b.2. La encuesta y entrevista, que consiste en el acopio de testimonios orales y escritos de personas vivas.

La fase de recolección de datos es unos de los puntos principales de la investigación, en consecuencia, debe dotarse de ciertas garantías para que los datos científicos puedan ser confiables y comparables, evitar las desviaciones y la falta de representatividad.

La Fuentes De Datos

La fuente de datos es el lugar, la institución, las personas o elementos donde están o que poseen los datos que se necesitan para cada una de las variables o aspectos de la investigación o estudio.

En general se puede disponer de cinco tipos de fuentes de datos:

1. Las oficinas de estadística, Como instituciones responsables de recopilar, procesar y publicar las estadísticas sociales o nacionales.

2. Archivo o registros administrativo, Como registros civil, registro electoral, escalafón

de personal, padrón de contribuyente, etc. Estos registros no tienen fines estadísticos, su función es de tipo legal y administrativo, sin embargo pueden utilizarse como fuente de datos estadístico.

3. Documentos, Boletines e informes estadísticos, que son publicaciones o estudios que

preparan los organismos especializados.

4. Encuestas o censos, son fuentes directas y especiales, que se constituyen en un

momento determinado, recopilando datos de una parte o de la totalidad de una población.

5. Los elementos o sujetos de una población sometida a estudio, que pueden ser

personas, instituciones o simplemente objetos.

3. Organización de Datos: Etapa que implica la revisión cuidadosa de la información

recogida para resumirla y presentarla convenientemente.

Se consideran los siguientes aspectos:

Revisión y corrección de la información recogida etapa labor es llamada: Consistencia.

Presentación de la información mediante cuadros, tablas y gráfico.

4. Análisis e Interpretación de Resultados: Se interpreta y compara los resultados de los

indicadores estadísticos o estadígrafos.

Si el estudio fue realizado conforme a lo que se había planificado y con los resultados a la vista se concluirá si las hipótesis ha sido verificadas o no, proponiéndose las recomendaciones pertinentes.

5. Resultados y Conclusiones: Finalmente exponer los principales resultados de acuerdo

a los objetivos. Indicar lo más importante, si se acepta o se rechaza las hipótesis.

Page 9: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 9

EJERCICIOS:

1. Indica que variables son cualitat ivas y cuales cuantitat ivas :

Profesión que te gusta.…………………………………………

Número de goles marcados por tu equipo favorito en la última temporada …………………………………………

Número de alumnos del aula…………………………………………

El color de los ojos de tus compañeros de clase…………………………………………

Coeficiente intelectual de tus compañeros de clase………………………………………

2. De las siguientes variables indica cuáles son discretas y cuales continúas .

Número de acciones vendidas cada día en la Bolsa………………………………………

Temperaturas registradas cada hora en un observatorio…………………………………………

Período de duración de un automóvil…………………………………………

Número de hijos de 50 familias…………………………………………

Censo anual de los estudiantes…………………………………………

3 . Clas i f icar las s igu ientes variables en cualitat ivas y cuantitat ivas discretas o continuas .

La nacionalidad de una persona…………………………………………

Número de litros de agua contenidos en un depósito……………………………………

Número de libro en un estante de librería…………………………………………

Suma de puntos tenidos en el lanzamiento de un par de dados…………………………………………

La profes ión de una persona …………………………………………

Page 10: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 10

SEMANA 02-03

ORGANIZACIÓN DE DATOS

El objetivo de la organización de datos es ordenar un conjunto de datos en forma útil para revelar sus características esenciales y simplificar cierto análisis. A través de este ordenamiento se agrupan las observaciones en un número determinado de categorías o clases excluyentes, por medio de las tablas de frecuencias.

TABLAS ESTADISTICAS

Las tablas frecuencias, llamadas también distribución de frecuencias, se utilizan para resumir la información.

Se puede construir tablas de frecuencias para datos cualitativos o cuantitativos. En un conjunto de datos está agrupado en varias clases.

Las tablas frecuencias deben explicarse por sí misma, es decir, al ser observadas por cualquier investigador, inmediatamente muestran en forma sencilla y entendible el comportamiento de los datos de la investigación Toda tabla presenta las siguientes partes.

1. El título: nos muestra brevemente el contenido de la información y debe ser preciso, claro y conciso para evitar confusiones.

2. El encabezamiento: se encuentra en la primera fila y nos indica la naturaleza del contenido de cada columna con las unidades correspondientes.

3. El cuerpo: está formado por un conjunto e filas y columnas y nos presenta la información de la investigación.

4. La fuente: está ubicado al final de la tabla y nos indica a la entidad responsable de donde se obtuvieron los datos.

5. Las notas y los comentarios: son colocados al pie del cuadro y sirven para realizar aclaraciones.

Titulo

Fuente Existen dos tipos generales de tablas de frecuencias para representar un archivo de datos:

a) Tablas de frecuencias para datos no agrupados (tablas sin intervalos) b) Tablas de frecuencias para datos agrupados (tablas con intervalos)

a) ORGANIZACIÓN DE DATOS NO AGRUPADOS (V. Cualitativa)

En este tipo de organización de datos se utilizan las llamadas tablas de frecuencias para datos no agrupados, donde cada clase tiene la frecuencia correspondiente. Además, en esta forma de organización no hay presencia no hay intervalos. Se recomienda seguir la siguiente secuencia:

Se recoge la información. Se ordena y representa la información de acuerdo a la naturaleza de la variable. Se elabora la tabla de frecuencias. Se construye los gráficos.

Encabezado

Cuerpo

Page 11: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 11

Ejemplo: Se desea estudiar el grado de instrucción de los padres de familia de una comunidad educativa (Analfabeto, Primaria, Secundaria, Superior). Se seleccionó una muestra de 80 padres y se obtuvo los siguientes resultados: 20 analfabetos, 30 primaria, 20 secundaria, 10 superior. Población : Todos los padres de familia de dicha comunidad.

Muestra : Los 80 padres seleccionados.

Unidad estadística : Cada padre de familia.

Variable : El grado de instrucción de los padres de familia de dicha comunidad educativa.

Tipo de Variable : Cualitativa ordinal.

Elaboración de la tabla de frecuencias:

Distribución de los padres según su grado de instrucción

Clase (K)

Variable (X)

Frecuencia absoluta (fi)

Frecuencia relativa

(hi)

Frecuencia absoluta

acumulada (Fi)

Frecuencia relativa

acumulada (Hi)

1 Analfabeto 20 0.250 20 0.250

2 Primaria 30 0.375 50 0.625

3 Secundaria 20 0.250 70 0.875

4 Superior 10 0.125 80 1.000

N=80 1.000

EXPLICACION DE LA ELABORACIÓN DE LA TABLA

1. Frecuencia absoluta (fi), la frecuencia (f) de una característica es el número de veces que aparece dicha característica en una colección de datos. Con respecto a la tabla, la frecuencia absoluta es el número de observaciones que se registran en cada clase.

2. Frecuencia relativa (hi), la frecuencia relativa es la proporción de observaciones en cada clase. Esta frecuencia se calcula dividiendo cada frecuencia absoluta correspondiente entre el tamaño de la muestra, es decir:

fi Frecuencia absoluta o repetición

n Número de observaciones

i=1, 2, 3, etc.

3. Frecuencia absoluta acumulada (Fi), Es la acumulación ordenada de cada una de

las frecuencias. Además, la última frecuencia absoluta acumulada es siempre igual al número de elemento.

F1=f1 F2=f1+ f2 =F1+f2 F3=f1+ f2+ f3 = F2+f3 F4=f1+ f2 +f3+ f4 = F3+f4

……….. Fm=f1+ f2+ f3+……+ fm = Fm-1+fm=n

4. Frecuencia relativa acumulada (Hi), Es la acumulación de cada frecuencia relativa.

Además, la última frecuencia relativa acumulada es siempre igual a la unidad.

H1=h1 H2=h1+ h2 =H1+h2 H3=h1+ h2+ h3 = H2+h3 H4=h1+ h2 + h3+ h4 = H3+h4

H5=h1+ h2 + h3+ h4 + h5 = H4+h5

………..

hi = =

Page 12: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 12

Hm=h1+ h2+ h3+……+ hm = Hm-1+hm=1

b) ORGANIZACIÓN DE DATOS NO AGRUPADOS (V. Cuantitativa)

En este tipo de organización de datos se utilizan las tablas de frecuencias agrupadas, donde se presentan las frecuencias de acuerdo al número de valores obtenidos en cada intervalo, dichos intervalo se encuentran presentes en la tabla. Estas tablas se usan comúnmente para resumir grandes cantidades de datos continuos. Cualquier tabla de frecuencias con datos agrupados en intervalos debe presentar las siguientes características:

Uniformidad: cada clase debe tener la misma magnitud Unicidad: dos clases no se superponen. Completitud: cada uno de los datos pertenece a alguna clase.

Se recomienda seguir la siguiente secuencia: Se recoge la información. Se elabora la tabla de frecuencias. Se construyen los gráficos.

Ejercicio: Durante el mes de julio, en una ciudad se han registrado las siguientes

temperaturas máximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

Construir la tabla de frecuencias.

xi fi Fi hi Hi

27 1 1 0.032 0.032

28 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.516

31 8 24 0.258 0.774

32 3 27 0.097 0.871

33 3 30 0.097 0.968

34 1 31 0.032 1

31 1

Page 13: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 13

ELEMENTOS DE LA TABLA DE DISTRIBUCION DE FRECUENCIAS PARA DATOS AGRUPADOS

Ejemplo: Un estadístico desea determinar en un colegio de educación primaria el número de horas semanales que los niños de 7 años edad dedican a ver programas de televisión. Una muestra de 25 niño arrojo los siguientes resultados (número de horas semanales): 10, 19, 25, 19, 26, 16, 19, 27, 27, 25, 23, 22, 17, 12, 20, 15, 21, 23, 26, 14, 18, 25, 23, 24, 21.

a) Rango o amplitud (r)

Es la diferencia entre los datos de mayor y menor valor. Rango=Xmax - Xmin

Ejemplo r=27-10=17

b) Intervalo de clase

Es una clasificación de los datos en subgrupos.

c) Límite de clase

Son los valores extremos del intervalo de clase Es decir en el intervalo [Li,Ls>, Li es el límite inferior y Ls es el límite superior.

d) Ancho de clase o amplitud del intervalo (W)

Es la diferencia entre el límite superior e inferior de cada intervalo. Es decir en el intervalo [Li,Ls> el ancho de clase o amplitud es: W=Ls-Li

e) Marca de Clase (X')

Es el punto medio de cada intervalo, es decir es la semisuma de los límites de cada intervalo.

X'=2

LL si

Observaciones:

1. LA REGLA DE STURGES

No existe regla fija para determinar el número de clases (k), el cual si es muy pequeño originaria la pérdida de información y si fuese muy grande produciría irregularidades. Por eso, para obtener el valor adecuado (aproximado) del número de clases (k) usaremos la regla de Sturges, la cual es una de las formas más usuales en la estadística descriptiva.

K= 1+3.3logn

Donde n es el tamaño de la muestra o número de datos.

2. ANCHO DE CLASE COMUN

Para considerar un ancho de clase común, este se determina de la siguiente manera:

W'=KclasesN

r

º

rango

Page 14: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 14

EJERCICIOS:

1. Se realiza una encuesta a un conjunto de 16 familias sobre el número de hijos. Los resultados en el orden obtenido son:

X1=2, X2=1, X3=3, X4=1, X5=2, X6=1, X7=3, X8=0, X9=2, X10=1, X11=2, X12=3, X13=4, X14=1, X15=1, X16=2.

Construya una tabla de distribución de frecuencias absolutas para estos datos. Interprete cada frecuencia absoluta.

2. En una entrevista a una muestra de 20 personas sobre su preferencia de bebidas gaseosas por 3 colores: negro(N), rojo(R), blanco(B) se han obtenido los siguientes resultados.

B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.

Construya una tabla de distribución de frecuencias absolutas para estos datos.

3. A continuación se presenta información sobre la categoría ocupacional de los padres de familia de una comunidad educativa en abril del 2008: independientes 8, obrero 34, empleados 16, desempleados 15, estudiantes 5.

Ordene la información Analice algunos valores de las frecuencias.

4. En la tabla de frecuencias que se da a continuación faltan algunos datos. Complétela.

K fi hi Fi Hi

0 2

1 5

2 9

3 14 0.70

4 0.2

5

5. Construir la distribución de frecuencias con 8 intervalos de los ingresos quincenales e 45 personas si los datos recopilados son:

63 89 36 49 56 64 59 35 78 43 53 70

57 62 43 68 62 26 64 72 52 51 62 60

71 61 55 59 60 67 57 67 61 67 51 81

53 64 76 44 73 56 62 63 60

6. Una muestra de 20 pequeñas empresas considerar el número de trabajadores por empresa. Con estos datos, determinar la distribución (tabla de frecuencia) de las empresas según el número de trabajadores.

X 1 = 6 X2 = 5 X 3 = 4 X4 = 4 X 5 = 3 X6 = 3 X7 = 4 X 8 = 4 X9 = 5 X 10 = 5 X 11 = 4 X12 = 5 X 13 = 6 X14 = 2 X 15 = 4 X 16 = 3 X17= 4 X 15 = 6 X18 = 5 X 20 = 3

7. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa Pirámide S.A. en el año 1995 son los siguientes:

440 560 335 587 613 400 424 466 565 393

453 650 407 376 470 560 321 500 528 526

570 430 618 537 409 600 550 432 591 428

440 340 558 460 560 607 382 667 512 492

450 530 501 471 660 470 364 634 580 450

574 500 462 380 518 480 625 507 645 382

Construir la distribución de frecuencias

Page 15: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 15

SEMANA 04

LOS GRAFICOS ESTADISTICOS

El grafico o diagrama es una representación pictórica (figuras geométricas, de superficie o volumen) con el objeto de ilustrar los cambios o dimensiones de una variable.

Los gráficos de una sola variable sirven para fines competitivos de cantidades absolutas, tasas, proporciones, etc. Pueden tener la forma de barras, superficies, punto o líneas.

Los gráficos de dos variables, se construye en el plano rectangular o de coordenadas cartesianas, donde hay dos ejes, X e Y. En el eje Y (ordenada) se colocan los valores de la variable dependiente y X (abscisa) la variable independiente, siendo y=f(x)

PRINCIPALES PARTES DE UN GRAFICO

Título, como en los cuadros, es una descripción del contenido del grafico; debe indicar

claramente la naturaleza del fenómeno representativo.

Los diagramas, está dado por el propio dibujo del gráfico, y como en el cuerpo del gráfico, están representados los datos indicados en el título.

Escala y/o leyenda, son indicadores donde se precisa la correspondencia entre los

elementos del gráfico y la naturaleza de las medidas representadas.

Fuente de los datos estadísticos representados.

PRINCIPALES TIPOS DE GRAFICOS

a. Gráficos lineales

a.1. En coordenadas rectangulares: a.1.1 Distribución de frecuencia

Diagrama de frecuencia

Gráfico de frecuencia acumulada

Histograma de frecuencia

Polígono de frecuencia

Polígono de frecuencia acumulada a.1.2 Series cronológicas a.1.3 Nube de puntos y líneas de regresión a.1.4 Tasas específicas

a.2. En coordenadas polares (Diagrama de telaraña)

b. Gráficos de superficie b1. De barras (rectangulares)

b.1.1 Simples b.1.2 Compuestas Verticales y horizontales

b2. Sectores circulares (en forma de torta) b3. Coronas circulares (bandas concéntricas) b4. Pirámides.

c. Pictograma o dibujo

d. Mapas estadísticos o cartogramas

e. Grafico de dimensiones

e.1 De área (dos dimensiones) e.2 De volumen (tres dimensiones)

Page 16: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 16

GRAFICOS DE BARRAS

Son aquellos en los cuales se presentan un conjunto de rectángulos, barras o paralelepípedos, horizontales o verticales. Se utilizan generalmente para representar variables cualitativas y cuantitativas discretas. Ejemplos:

GRAFICOS CIRCULARES

Se usan generalmente para datos cualitativos y representan sólo las partes de una total, siendo muy utilizados para visualizar información presupuestal. Ejemplos:

Especialidad Nº de alumno

Inicial 40

Primaria 24

Secundaria 16

HISTOGRAMAS

Son diagramas de barras o rectángulo unidos que representan la información de una tabla de frecuencias.

Pueden construirse para distribuciones de frecuencias de datos no agrupados (sin intervalos) y para datos agrupados (con intervalos).

HISTOGRAMAS DATOS NO AGRUPADOS

Generalmente se considera lo siguiente:

En el eje de las X se representa a la variable en estudio y en el eje Y a las frecuencias absolutas o relativas.

Cada frecuencia se representa por una barra cuya área es proporcional a ella. Generalmente el ancho de la barra es 1 y el área de la barra es igual a la frecuencia de la medida.

Ejemplo:

Especialidad Nº de alumno

Inicial 40

Primaria 24

Secundaria 16

Inicial, 40,

50%

Primaria,

24, 30%

Secundari

a, 16, 20%

40

2416

0

10

20

30

40

Page 17: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 17

Año Nº de alumnos Desaprobados

1º 15

2º 10

3º 12

4º 8

5º 4

HISTOGRAMAS DATOS AGRUPADOS

En este caso las bases de los rectángulos representan a los intervalos de clase y las alturas a las frecuencias absolutas o relativas. Generalmente se considera lo siguiente:

Se organizan los datos en una tabla de frecuencias para datos agrupados en intervalos de clase.

Se construyen los gráficos de barras, considerando los límites de los intervalos para colocarlos en el eje de las X y las frecuencias para indicar las alturas de las barras en el eje de las Y.

Los ejes X e Y deben comenzar de cero con interrupciones de la escala si son necesarios.

Se deja un espacio, de la mitad del tamaño completo del intervalo de clase, en cada extremo del eje X.

Algunas veces se coloca el valor medio de cada clase (marca de clase) en el centro de la base para cada barra.

Ejemplo:

15

7

12

3

0

2

4

6

8

10

12

14

16

K Intervalos Frecuencias

1 [2 – 4> 15

2 [4 – 6> 7

3 [6 – 8> 1

4 [8 – 10> 2

5 [10 – 12> 3

2 4 6 8 12 10

0

5

10

15

20

1º 2º 3º 4º 5º

Page 18: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 18

POLIGONO DE FRECUENCIAS

Se construyen usando una tabla de frecuencias para datos agrupados en intervalos de clase. Un polígono de frecuencias nos da la impresión de que las frecuencias cambian más suavemente, mientras que en un histograma se observa que las frecuencias cambian abruptamente.

Los polígonos de frecuencias absolutas o relativas, se obtienen uniendo los puntos medios de las bases superiores de los rectángulos en el histograma de frecuencias absolutas o relativas respectivamente.

Cerramos el polígono al prolongar los segmentos de recta de los extremos de tal manera que encuentren al eje horizontal en el punto medio de la clase anterior a la primera y posterior a la última.

OJIVA

Son curvas construidas a partir de tablas de frecuencias acumuladas (absolutas o relativas). En estas curvas las abscisas son los limites superiores de los intervalos de clases y las ordenadas son las frecuencias absolutas acumuladas o relativa acumuladas (esta puede expresar en forma decimal o porcentual). Se agrega una clase con frecuencia cero antes de la primera clase. A este tupo de ojiva se le conoce como ojiva menor o creciente.

4

12

26

35

46

54

60

0

10

20

30

40

50

60

320 370 420 470 520 570 620

Poligono Acumulativo Frecuencias(Ojiva)

320

370

420

470

520

620

570

670

5

30

22

15

10

22

5

0

5

10

15

20

25

30

6 9 7 111

13 15 17 19 21

9 7 111

13 15 17

Page 19: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 19

SEMANA 05

ESTADIGRAFOS DE TENDENCIA CENTRAL

Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa una distribución de frecuencia alrededor de un valor de la variable.

Los estadígrafos son valores que de manera condensada representan en un solo valor, a una serie de datos y además describen resumidamente al conjunto de observaciones. Los estadígrafos de posición de uso más frecuente son: La media aritmética, La mediana, Las cuartilas, las decilas, los percentiles y la moda; existen además la media geométrica, la media armónica etc.

LA MEDIA ARITMETICA

Es el estadígrafo de posición más importante. La media aritmética se denomina simplemente MEDIA y comúnmente se le conoce como promedio.

La media aritmética se define y calcula dividiendo la suma de los valores de la variable entre el número de observaciones o valores. Media= Suma de valores de la variable

Numero de valores Para una variable Xi la media se puede simbolizar como:

X : M(x);

Para la población

N

xxxx n......321 =

N

xn

i

i1

N: Tamaño de la población : La media de la población (parámetro)

Para la muestra

Xn

xxxx n......321 =

n

xn

i

i1

n: Tamaño de la población

X : La media de la población (estadígrafo)

Ejemplo: Supongamos que los puntajes obtenidos de 5 exámenes parciales de

estadísticas son: 12; 15; 10; 16; 08 La nota promedio o media aritmética de las notas es:

x5

54321 xxxxx

5

5

1

i

ix

x5

0816101512 =12.5

Page 20: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 20

a. Media Aritmética Simple. Para datos no agrupados (tabla sin intervalos)

k

i

i

k

i

ii

f

fx

x

1

1_

)(xM =

x n

nn

ffff

fxfxff xx

....

......

321

332211

Entonces

Ejemplo: Calcule la media a partir de la información que se muestra en la siguiente tabla:

Calculo de la media:

x 18.322

70

22

1*810*25*42*54*3

Para datos agrupados (tabla con intervalos)

n

fxk

i

ii

x 1

X´: marca de clase

Ejemplo: la siguiente tabla corresponde al ingreso mensual promedio (en soles) de cierto

número de familias. Halle la media.

Calculo de la mediana:

x100

650*10550*15450*35350*40

x 445100

44500

100

650082501575014000

k xi fi xifi

1 3 4 12

2 5 2 10

3 4 5 20

4 2 10 20

5 8 1 8

22 70

Li fi X´

[300 – 400> 40 350

[400 – 500> 35 450

[500 – 600> 15 550

[600 – 700> 10 650

100

Page 21: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 21

Ejercicios:

1. Sean los siguientes pesos de n=50 personas, de peso alto, expresado en kilogramos.

73 102 90 97 98 106 108 93 87 88 100 87 104

85 90 95 80 98 82 98 104 112 90 98 101 94

105 98 93 82 91 84 93 88 97 103 84 105 92

96 100 104 96 101 75 93 82 100 95 114

Construir una tabla de distribución de frecuencia Calcular la media aritmética.

2. Durante 30 días se ha observado el número de d pasajeros que viajan de lima a Ica, siendo los resultados siguientes:

36 30 34 38 39 40 30 35 36 37

30 39 38 31 37 32 39 38 30 38

38 39 40 40 38 33 31 35 35 32

3. Las remuneraciones mensuales, en dólares de 80 trabajadores de una empresa de transporte, son los siguientes:

260 190 130 135 220 155 225 230 93 180 120 215

230 235 230 265 120 91 115 185 255 233 190 160

170 130 105 217 95 190 175 190 140 220 185 195

125 92 240 140 115 205 125 140 155 170 190 190

233 185 145 185 145 230 170 220 165 288 95 120

135 160 145 222 170 195 210 135 180 173 153 178

164 173 156 170 182 190 177 210

Calcular la media aritmética.

Page 22: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 22

LA MEDIANA O EL VALOR MEDIANO

La mediana (Me) es el valor de la variable que divide al total de las “n” observaciones, debidamente ordenadas o tabuladas en dos partes de igual tamaño. Esto signif ica que a uno y otro lado de este valor mediano (Me) Se encuentre no más del 50% del total de las observaciones. Es decir, que no más de la mitad de las observaciones (n/2) sean menores que Me, y que no más de la mitad sean mayores que Me. Se presentan dos casos:

Cuando se tiene un número impar de datos

Entonces la mediana es igual al valor del término central. Ejemplo: Sean los valores 130,12, 3, 39, 45. Halle la mediana. 1º ordenamos: 3, 12, 29, 45, 130.

2º Hallamos el lugar L= 32

1

n => Me=29

Cuando se tiene un número par de datos Entonces la mediana es igual al promedio de los 2 términos centrales. Ejemplo: Sean las edades de 8 docentes de la UPIG son las siguientes: 30, 23, 45, 27, 34, 48, 28, 48. Halle la mediana. 1º ordenamos: 23, 27, 28, 30, 34, 41, 45, 48

2º Hallamos el lugar L= 5.42

1

n => Me=

2

3430 32

Se observa que hay 4 docentes cuya edad es menor de 32 años.

a. La mediana de datos no agrupados (tabla sin intervalos)

Ejemplo: la tabla muestra l número de hijos por familia. Halle la mediana.

Hallamos el lugar que ocupa la mediana y luego su valor:

El lugar de la median es L= 5.122

1

n, la mediana se encuentra en la tercera clase, luego

Me=2.

Ejercicio: La tabla corresponde a la distribución de 40 alumnos, según el puntaje obtenido en

el examen de Estadística. Halle la mediana.

Nota Nº de Alumnos Fi

09 2 2

10 7 9

11 11 20

12 13 33

13 4 37

14 2 39

15 1 40

Nº de hijos Nº de familia Fi

0 2 2

1 4 6

2 8 14

3 4 18

4 6 24

Page 23: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 23

b. La mediana se datos agrupados

Me= ljm+w

m

m

f

Fn

12

Donde: m = Número de la clase en que se encuentra la mediana. lj = Límite inferior de la clase considerada. n = Tamaño de la muestra.

1mF = Frecuencia acumula absoluta de la clase anterior a m.

W = Tamaño del intervalo de clase. fm = Frecuencia absoluta de la clase m.

Ejemplo: Consideramos los datos:

K [LI-LS> fi FI

1 [92.3-94.8> 2 2

2 [94.8-97.3> 6 8

3 [97.3-99.8> 9 17

4 [99.8-102.3> 15 32

5 [102.3-104.8> 10 42

6 [104.8-107.3> 5 47

7 [107.3-109.8> 3 50

Lugar L= 5.252

1

n

La mediana se encuentra en la clase 4.

Me= lim+w

m

m

f

Fn

12

Me= 99.8+2.5

15

172

50

=101.13 Kg.

Page 24: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 24

LA MODA

La moda (Mo), simplemente es el valor más frecuente que se le da a una variable. La moda de un conjunto de observaciones es “el valor de la variable que se presenta con más frecuente en la distribución”. Es el valor de la variable que le corresponde la mayor frecuencia absoluta. (ni o fi. La moda también se llama modo, valor modal o Promedio Típico, se simboliza con Mo, otros autores usan Md. Ejemplo

a) El conjunto: 2, 2, 5,7, 9, 9, 9, 10, 10, 11, 13 tiene la moda como Mo=9

b) El conjunto: 3, 5, 8, 10, 12, 16, 18 no tiene moda.

c) El conjunto: 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7 es una distribución

”bimodal”

CALCULO DE LA MODA a) Tablas sin intervalo

Una vez agrupados los datos en una tabla frecuencia, el valor modal será el valor de la variable que más se repite o que tiene la mayor frecuencia. La mayor frecuencia de denotará con nj

Ejemplo: Calcular la moda en la distribución de la familias según el número de miembros indicado en el cuadro.

Número de personas

por familia Xi

Número de familia

fi

x1=2 x2=3 x3=4 x4=5 x5==6 x6=7 y más

f1=16 f2=24 f3=52 f4=76 f5=40 f6=12

Total N=220

Se observa de la mayor frecuencia es n4=76 que corresponde al cuarto valor de la variable (y4=5), luego el valor modal es 5. Máx fj=76 entonces Mo=x4=5

El resultado significa que es más frecuente hallar familias integradas por 5 miembros o personas cada una. El tamaño más frecuente es 5 personas por familia.

b) Tablas con intervalos

Cuando se tiene una tabla con intervalos, al igual que la mediana se determina el intervalo Modal (Mo), que es el intervalo que corresponde a la mayor frecuencia (nj). Para calcular la moda (Mo) existen diversas fórmulas tales como:

Mo= Li+W

21

1

dd

d

d1= 1 ff d2= 1 ff

Dónde:

= Numero de la clase que tiene la mayor frecuencia (f i)

Li = Límite inferior de la clase modal () c = Amplitud del intervalo de clase.

fj Mo

Page 25: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 25

Ejemplo: Consideramos los datos:

K [LI-LS> fi FI

1 [92.3-94.8> 2 2

2 [94.8-97.3> 6 8

3 [97.3-99.8> 9 17

4 [99.8-102.3> 15 32

5 [102.3-104.8> 10 42

6 [104.8-107.3> 5 47

7 [107.3-109.8> 3 50

Como f4=15 es mayor frecuencia entonces =4

Mo= Li+W

11

1

ffff

ff

Mo= Li+W

11

34

ffff

ff

Mo= 99.8+2.5

1015915

915

Mo= 101.16 kg.

Ejercicios: Considerar la tabla más frecuente del cuadro y calcular el valor modal

moda o sueldo más frecuente en los 80 trabajadores.

Interpretación de Mo: La moda indica que el sueldo más frecuente en los 80 trabajadores es

de: dólares, o también que la mayoría de trabajadores tienen sueldos aproximadamente de: dólares.

[Li-Ls) fi

90-120 120-150 150-180 180-210 210-240 240-270 270-300

f1=11 f2=13 f3=20 f4=17 f5=15 f6=3 f7=1

n=80

Page 26: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 26

OTRAS MEDIDAS DE TENDENCIA CENTRAL

La media, mediana y moda son las medidas de tendencia central más importantes, de mayor aplicación y más fáciles de calcular. Sin embargo, en ciertas circunstancias son útiles otras medidas de tendencia central y aunque su uso no sea frecuente, es conveniente conocerlas; estas son:

LA MEDIA GEOMETRICA (MG)

Es una medida de tendencia central que puede utilizarse para mostrar los cambios porcentuales en una serie de números positivos. Llamada también promedio geométrico. Se dé define:

Para Datos Agrupados

Sea el conjunto de n cantidades: X1, X2, X3….Xn entonces la MG se obtiene de la siguiente manera:

MG= nnxxxx *.....** 321

Ejemplo: Halle la MG de 12,32 y 36

MG= 3 36*32*12

Para Datos Agrupados

La MG la calculamos utilizando la siguiente expresión:

MG= n f

k

fff kxxxx ´*.....*´*´*´ 321

321

Donde nfk

i

i 1

´

i es marca de clase

f1, f2, f3,…….. fk son las frecuencias absolutas k es el número de clases

Ejemplos: Halle la MG a partir de la información de la siguiente tabla:

MG= 10 1232219*17*15*13*11

K [li- ls> fi X´

i

1 [10-12 > 2 11

2 [12-14 > 2 13

3 [14-16 > 3 15

4 [16-18 > 2 17

5 [18-20 > 1 19

Page 27: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 27

LA MEDIA ARMONICA (MH)

Llamada también promedio armónico. Se dé define:

Para Datos no Agrupados Sea el conjunto de n cantidades: X1, X2, X3….Xn entonces la MH de datos no agrupados que define como la inversa de la media aritmética de las inversas de las n cantidades. Es decir:

MH=

nxxxx

1..........

111

1

321

También se puede expresar como: MH=

n

i i

n

i i x

n

n

x 11

11

1

Ejemplo: Halle la MH de 2, 4 y 6

MH= 273.311

36

12

236

3

6

1

4

1

2

1

3

Para Datos Agrupados

La MH de datos agrupados se define como la inversa del promedio aritmético de las inversas de las marcas de clases ponderadas por las frecuencias absolutas. Es decir.

MH=

k

iiii

fx

fx

fx

fx

'3'2'1'

1..........

111

1

También se puede expresar como:

MH=

k

i

i

i

k

i

i

i

fx

n

n

fx 1

'1

'

11

1

Donde X'

i : es la marca de clase

K : Es el número de clase

f i : Son las frecuencias absolutas.

Ejemplos: Halle la MH a partir de la información de la siguiente tabla:

MH=

119

12

17

13

15

12

13

12

11

1

10

K [li- ls> fi X´

i

1 [10-12 > 2 11

2 [12-14 > 2 13

3 [14-16 > 3 15

4 [16-18 > 2 17

5 [18-20 > 1 19

Page 28: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 28

MEDIDAS DE POSICIÓN

Las medidas de posición se utilizan para describir la posición que un dato específico posee en relación con el resto de los datos cuando están en orden por categorías. Cuartiles, deciles y percentiles son las medidas de posición más populares.

CUARTILES, DECILES, PERCENTILES

Los cuarteles, deciles y percentiles son estadígrafo de posición que dividen al total de los datos, previamente ordenados o tabulados, en proporciones. Se usan frecuentemente pata describir el comportamiento de una población. Los valores se expresan en forma porcentual.

CUARTILES: (Q1) Los cuartiles son estadígrafos de posición que dividen al total de las observaciones,

debidamente ordenados o tabulados, en cuatro partes de igual tamaño. Esto significa que entre dos cuartilas consecutivas se encuentren no más del 25% del total "n" observaciones.

Supongamos que se ubican ordenadamente, en línea recta, los "n" valores de la variable X¡ y termina en el mayor valor de X¡.

0% 25% 50% 75% 100% El problema es dividir los datos ordenados en cuatro subconjunto iguales gráficamente dividir el segmento ﴾Xmax, Xmin﴿ en cuatro partes iguales. Para lograr este objetivo s e requiere definir tres puntos, Los valores de estos puntos definen las cuartilas. Entonces existen 3

cuartilas.

a) Primera Cuartila o Cuartila Inferior Q1

Es un valor que supera a no más del 25% de las n observaciones y que es superado por no más del 75% de las n observaciones. En otras palabras, el 25% de las observaciones tienen valores inferiores o iguales a Q1, en tanto que el 75% restante tienen valores superiores a Q1.

25% de n _____Q1_____75% de n

b) Segunda Cuartila o Cuartila Mediana Q2 =Me

Es un valor que está en el centro, y por lo tanto coincide con la mediana

Q2=Me

c) Tercera Cuartila o Cuartila Superior Q3 =Me

Es un valor que supera a no más del 75% de las n observaciones y que es superado por no más del 25% de las n observaciones. Es decir, que el 75% de las observaciones

tienen valores inferiores o iguales a Q3 y el 25% restante tienen valores superiores a Q3.

75%______ de n ____Q3_____25% d en

4

n

4

3n

24

2 nn

Q1 Q2=Me Q3

Page 29: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 29

CALCULO DE LAS CUARTILAS El procedimiento que se emplea para calcular las cuartilas es similar al seguido para la

mediana, con la diferencia que en vez de considerar 2

n se reemplaza por:

4

n Para Q1 y

4

3n para Q3

Estos son los valores de referencia para determinar: Nj, Nj-1 ,Lj , C. Trabajando con tablas de frecuencia con intervalos, Las fórmulas para las cuartilas son: CUARTILA INFERIOR Q1

Q1= li+W

c

c

f

Fni

14

*

Dónde: n = Número total de observaciones o datos Fc-1 = Frecuencia absoluta acumulada de la clase anterior a la

clase donde se encuentra el cuartel. fc = Es la frecuencia absoluta que corresponde a la clase

donde se encuentra el cuartel.

Li = Extremo inferior del intervalo cuartil-uno (Q1) W = Amplitud del intervalo cuartil-uno. C = Es la clase donde se encuentra el cuartel.

CUARTILA SUPERIOR Q3

Q3= li+W

c

C

f

Fn

14

*3

Dónde: n = Número total de observaciones o datos

FC = Es una Fc inmediata superior a 4

3n

FC-1 = Es una FC inmediata inferior a 4

3n

Li = Extremo inferior del intervalo cuartil-tres (Q3)

W = Amplitud del intervalo cuartil-tres. Ejemplo:

Seguimos considerando la distribución de los 80 trabajadores según sus sueldos. Ahora interesa calcular las cuartilas inferiores (Q1) y la superior (Q3) Cálculo de Q1:

1. Calcular 4

n y determinar los valores FC y FC-1

En este caso 4

n

4

80=20, valor que se compara con las frecuencias absolutas

acumuladas (FC), se observa que 20 está entre 11 y 24.

11 2024

Fc-1 4

nFc

Page 30: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 30

Luego: Fc-1=11 y FC=24

2. Ubicar el intervalo cuartel-uno (Q1)

Es el intervalo que corresponde a FC=24, es decir Q1=(120-150) donde Li=120; W=30.

3. Reemplazando valores obtenidos en la fórmula de Q1:

Q1= li+W

c

c

f

Fni

14

*

Resultando: Q1= 120+30

13

1120 =140.769 dólares.

Cálculo de Q3:

1. Calcular 4

3n y determinar los valores FC y FC-1

En este caso 4

3n

4

803=60, valor que se compara con las frecuencias absolutas

acumuladas (Fc), se observa que 60 está entre F4=61 y F3=44.

446061

FC-1 4

3nFC

Luego: FC-1=44 y FC=61

2. Ubicar el intervalo cuartel-tres(Q3)

Es el intervalo que corresponde a FC=61, es decir Q3=(180-120) donde Li=180; W=30.

3. Reemplazando valores obtenidos en la fórmula de Q3:

Q3= Lj+W

C

C

f

Fn

14

*3

Resultando: Q1= 180+30

17

4460

Q1=208.20 dólares.

Interpretación de Q3: Del total de trabajadores, el 75% es decir 60 trabajadores, tienen

sueldos inferiores o iguales a 208.20 dólares, y el 25% restante tienen sueldos superiores a los 208.20 dólares.

(Li-Ls> ni=fi Ni=Fi

90-120 120-150 150-180 180-210 210-240 240-270 270-300

n1=11 n2=13 n3=20 n4=17 n5=15 n6=3 n7=1

N1=11 N2=24 N3=44 N4=61 N5=76 N6=79 N7=80

n=80

Page 31: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 31

LAS DECILAS: Dr Las decilas son estadígrafos de posición que dividen al total de las observaciones, en 10

partes iguales, tal que entre dos decilas consecutivas se encuentre no más del 10% del total de las observaciones. Se observa además entre dos deciles consecutivos, se encuentran aproximadamente el 10% del total de observaciones.

D1: Este valor corresponde al 10% de los datos menores o iguales a D1 y al 90% de los datos superiores a D1.

D2: Corresponde al 20% de los datos menores o iguales a D2 y al 80% de los datos superiores a D2.

D3: Corresponde al 30% de los datos menores o iguales a D3 y al 70% de los datos superiores a D3.

.

.

D9: Corresponde al 90% de los datos menores o iguales a D9 y al 10% de los datos superiores a D9.

Procedimiento para el cálculo de los deciles (para datos agrupados en tablas con intervalos) Para calcular los deciles D1, D2, D3, D4, D5, D6, D7, D8, D9 (D5= Mediana) seguiremos el siguiente procedimiento.

Se calcula 10

* ni donde i=1,2,3,……,9

Cuando i=5 corresponde a la mediana.

Se identifica la clase y el intervalo que contiene a Di. Esto por medio de las frecuencias absolutas y acumuladas, a través, de la siguiente desigualdad.

Fd-1≤ 10

* niFd

Se aplica la siguiente expresión (similar a la que se utiliza para calcular la mediana).

D1= li+W

d

d

f

Fni

110

*

Dónde: d = Es la clase donde se encuentra el decil. Li = Extremo inferior del intervalo que contiene el decil i. n = Numero de datos. Fd-1 = Frecuencia absoluta acumulada de la clase anterior a la

clase donde se encuentra el decil. Fd = Es la frecuencia absoluta que corresponde a la clase

donde se encuentra el decil. W = Tamaño del intervalo de clase.

Ejemplo: Determine los deciles D2 y D7 a partir de la siguiente información que corresponde

a las notas de matemática de 50 alumnos.

0% 100%

10

n

D1

10

2n

10

3n

10

4n

10

5n

10

6n

10

7n

10

9n

10

8n

D2 D3 D4 D5 D6 D7 D8 D9

Page 32: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 32

Calculo de D2

1. Se calcula 10

* ni= 10

10

50*2

2. Se identifica el intervalo que contiene a D2:

Fd-1≤ 10

* niFd

4≤1014 F3=14, d=2 y f2=10 Entonces D2 se encuentra en la segunda clase cuyo intervalo es [4-8> y el W=8-4=4

3. Se calcula D2

D2=4+4

10

410=6.4

Calcular D7 LAS QUINTILAS: k5 Las quintilas son estadígrafos de posición que dividen al total de las observaciones, en 5 partes iguales, es decir que entre dos quintilas consecutivas se encuentre no más del 20% del total de las observaciones. Existen 4 quintilas: Las fórmulas para calcular las quintilas con datos agrupados, son similares a las decilas, cuartilas, etc. Por ejemplo para K3 se tiene:

K3= Li+W

j

j

f

Fn

15

*3

y para un quintil cualquiera: Kr= Li+C

j

j

f

Fni

15

*

K [Li-Ls> fi Fi

1 2 3 4 5

[0-4> [4-8> [8-12>

[12-16> [16-20>

4 10 15 18 3

4 14 29 47 50

n=50

0% 100% 5

n

K1

5

2n

5

3n

5

4n

K2 K3 K4

Page 33: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 33

LOS PERCENTILES: Pi

Los percentiles son estadígrafos de posición que dividen a la totalidad de observaciones,

en 100 partes iguales; es un estadígrafo que da una idea porcentual de la distribución de datos. Los percentiles se aplican cuando existen numerosos valores de la variable con una alta frecuencia total.

Existen 99 percentiles, cuyo cálculo se realiza de igual manera que la mediana, cuartilas, etc. Para calcular P62 se tendría:

P62= Li+w

j

j

f

Fn

1100

*62

En general un percentil cualquiera es:

Pr= li+W

j

j

f

Fni

1100

*

Page 34: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 34

SEMANA 06

ESTADIGRAFO DE DISPERSION

Son aquellas que miden cuánto se alejan de la media cada uno de los valores de la variable.

Los estadígrafos de dispersión de mayor uso son:

1. Rango o recorrido (R) 2. Desviación media (D.M.) 3. Recorrido Semi Intercuartil (QD) 4. Varianza (s2) 5. Desviación Estándar o Típica (S) 6. Coeficiente de variación (CV)

Rango o recorrido (r)

El rango, amplitud o recorrido es la medida de dispersión más fácil del calcula, ya que depende única y exclusivamente de los dos valores extremos del conjunto de datos con que estamos trabajando. El rango se define como la diferencia entre el valor máximo y el valor mínimo de las observaciones es decir:

r=Xmáx -Xmin

Ejemplo: 424, 424.50, 424, 423.50 Valor máximo= 424.50 Valor mínimo= 423.50

Desviación media (D.M.)

La desviación media es una medida de dispersión bastante objetiva, es decir mientras más dispersos están los datos mayor es la desviación media, pero no muestra si están bajo X, ya que tomamos su valor absoluto.

a. La desviación media o desviación promedio de un conjunto de observaciones X1, X2, X3,…,Xn se define por:

D.M.=n

xxn

i

i

1

Donde

x es la media aritmética y

xxi es el valor absoluto de las

desviaciones de ix respecto a

ix .

Ejemplos: Hallar la desviación media del número de personas en 5 viviendas: 2, 3, 6, 8, 11.

65

30

5

118632

x

D.M.=5

61168666362

D.M.= 8.25

52034

personas

Page 35: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 35

b. Datos agrupados: Si las x '

1 , x '

2 , x '

3…, x '

m ocurre con frecuencia f1, f2, f3,…,fm

respectivamente, la desviación media se obtiene.

D.M.=n

fxxn

i

ii

1

'

Ejemplo:

xn

fxi

ii

5

1

'

= 4.17480

13950

D.M.=n

fxxn

i

ii

1

'

=80

2925.20= 36.565

Recorrido Semi Intercuartil (Q)

El recorrido semi intercuartil o desviación cuartil de un conjunto de datos está definido por:

𝐐𝐃=2

13 QQ

Donde Q1 y Q3 son el primer y tercer cuartil de los datos. A veces se usa el “Recorrido Intercuartil Q3-Q1”.

El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50% de los datos centrales.

Ejemplo:

Considerando los sueldos de los 80 trabajadores, se tiene:

Q1=140.80 Q3=208.20 Q=2

80.14020.208 =33.70

Li-Ls x '

i fi x '

i f¡

xxi

'

xxi

' fi

90-120

120-150

150-180

180-210

210-240

240-270

270-300

x =105

x =135

x =165

x =195

x '

5 =225

x '

6 =255

x '

7 =285

f1=11

f2=13

f3=20

f4=17

f5=15

f6=3

f7=1

xf1=1155

x f2=1755

x f3=3300

x f4=3315

x '

5f5=3375

x '

6f6=765

x '

7 f7=285

69.40

39.40

9.40

20.60

50.60

80.60

110.60

763.40

512.20

188.00

350.20

759.00

241.80

110.60

TOTAL k=7 N=80 13950 2925.20

i

i

i fx

5

1

'

'

1

'

2

'

3

'

4

'

2

'

3

'

4

Page 36: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 36

Varianza (s2)

La varianza es el estadígrafo de dispersión más importante, que asociados a la media aritmética se constituye en los pilares fundamentales del edificio de la estadística. Se define como la media aritmética de los cuadrados de las desviaciones con respecto a la media.

n

xx

sxV

n

i

i

1

2

2

)(

)(

También se denota por: s2, o2

Calculo de la varianza

a. Método directo, a partir de la definición:

a.1) Para datos no agrupados (datos originales xi), se obtiene como la expresión:

n

xx

sxV

n

i

i

1

2

2

)(

)(

Ejemplo:

X1=10, X2=13, X3=10, X4=14, X5=13, las edades de cinco alumnos. Aquí

x =12

n

xx

s

n

i

i

1

2

2

)(

=

8.25

17

5

1221222222

años al cuadrado

a.2) Para datos agrupados en tabla de frecuencia: n

fxx

s

n

i

ii

1

2'

2

)(

Ejemplo: Calcular la varianza de los sueldos del conjunto de los 80

trabajadores que se viene considerando; donde

x =174.40

40.190380

9.152269)(

1

2'

2

n

fxx

s

n

i

ii

40.19032 s Dólares al cuadrado

Li-Ls x fi

ii xx '

2

'

ii xx

2

'

ii xx fi

90-120

120-150

150-180

180-210

210-240

240-270

270-300

x =105

x'

2 =135

x'

3 =165

x'

4 =195

x'

5 =225

x'

6 =255

x'

7 =285

f1=11

f2=13

f3=20

f4=17

f5=15

f6=3

f7=1

-69.40

-39.40

-9.40

20.60

50.60

80.60

110.60

4816.36

1552.36

88.36

424.36

2560.36

6496.36

12232.36

52980.0

20181.7

1767.2

7214.1

38405.4

19489.1

12232.4

TOTAL k=7 N=80 152269.9

'

i

'

1

Page 37: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 37

Desviación Estándar o Típica (S)

La desviación estándar o típica, se define como la raíz cuadrada de la varianza.

)(xvs

Es uno de los estadígrafos de dispersión de mayor uso, en el cual las unidades de variable ya no están elevadas al cuadrado.

La desviación estándar, al igual que la varianza, es no negativa (s0), puesto que es la raíz cuadrada positiva de la varianza. A mayor dispersión le corresponderá una mayor desviación estándar.

Nota: En general, los estadígrafos de dispersión se usan para comparar dos o más

distribuciones o poblaciones con variables de la misma naturaleza. A mayor dispersión o heterogeneidad entre los valores o elementos de una población, le corresponde un valor mayor para el estadígrafo de dispersión.

El cálculo de la desviación estándar es muy simple, si se conoce la varianza. La desviación estándar de los sueldos de los 80 trabajadores es:

40.19030s =43.60 dólares.

Coeficiente de variación (CV)

Está definido por la extensión:

aritmética Media

estándar DesviaciónVariación de eCoeficient

Este estadígrafo de dispersión se expresa en unidades independiente de la naturaleza de la variable. El valor se puede expresar en términos porcentuales.

Es un estadígrafo que se utiliza para comparar dos o más distribuciones cuando las unidades de media de las variables están expresadas en diferentes unidades o escalas de madia. Por ejemplo, comparar sueldo expresados en soles y en dólares; extensiones o superficies medidas en metros cuadrados, etc.

-

x

sC.V

Ejercicio:

Las notas de 80 exámenes se tabularon en una distribución de frecuencias de cuatro intervalos de amplitud iguales a cuatro, siendo el dato mínimo igual a cuatro y las frecuencias relativas primera y tercera respectivamente 0.15 y 0.35. Calcule la varianza de las distribuciones si la media aritmética es 13.3.

K [li-ls>

1 [4-8>

2 [8-12>

3 [12-16>

4 [16-20]

Page 38: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 38

SEMANA 07

FORMA DE UNA DISTRIBUCIÓN

Cuando dos distribuciones coinciden en sus medidas de posición y dispersión, no tenemos datos analíticos para ver si son distintas. Una forma de compararlas es mediante su forma. Bastará con comparar la forma de sus histogramas o diagramas de barras para ver si se distribuyen o no de igual manera.

En particular, es conveniente estudiar si la variable en cuestión está más o menos apuntada que la Normal. Y si es más o menos simétrica que ésta, para lo que se definen los conceptos de Asimetría y Curtosis, y sus correspondientes formas de medida.

LA ASIMETRÍA Y SU MEDIDA

El objetivo de la medida de la asimetría es, sin necesidad de dibujar la distribución de frecuencias, estudiar la deformación horizontal de los valores de la variable respecto al valor central de la media. Las medidas de forma pretenden estudiar la concentración de la variable hacia uno de sus extremos.

Una distribución es simétrica cuando a la derecha y a la izquierda de la media existe el mismo número de valores, equidistantes dos a dos de la media, y además con la misma frecuencia.

a. Una distribución es simétrica cuando a la derecha y a la izquierda de la media existe el mismo número de valores, equidistantes dos a dos de la media, y además con la

misma frecuencia. Una distribución es Simétrica si �̅�=Me=Mo

En caso contrario, decimos que la distribución es

Asimétrica, y entonces puede ser de dos tipos:

b. Asimétrica a la derecha. Es el caso en que �̅�>Me> Mo

que �̅� < c. Asimétrica a la izquierda. Es el caso en Me< Mo

Page 39: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 39

Coeficiente de asimetría de Pearson Se basa en el hecho de que en una distribución simétrica, la media coincide con la moda. A partir de este dato se define el coeficiente de asimetría de Pearson como:

AP =X̅ − Mo

S

Donde: �̅�= Media aritmética. Md = Mediana. S = desviación típica o estándar.

Si AP > 0, la distribución es asimétrica positiva o a la derecha. Si AP = 0, la distribución es simétrica. Si AP < 0, la distribución es asimétrica negativa o a la izquierda. Ejemplo:

En la distribución de los sueldos de los 80 trabajadores, se conoce:

x =174.40, Mo=167 s=43.60

0170.043.60

167-174.40A p

AP es positivo, por tanto tiene Asimetría Positiva, es decir hay un ligero predominio de sueldos menores.

LA CURTOSIS Y SU MEDIDA

El concepto de curtosis o apuntamiento de una distribución surge al comparar la forma de dicha distribución con la forma de la distribución Normal. De esta forma, clasificaremos las distribuciones según sean más o menos apuntadas que la distribución Normal. Coeficiente de Curtosis de Fischer.- El Coeficiente de Curtosis o Apuntamiento de Fischer

pretende comparar la curva de una distribución con la curva de la variable Normal, en función de la cantidad de valores extremos e la distribución. Basándose en el dato de que en una distribución normal se verifica que:

34

4 xs

m

Se define el Coeficiente de Curtosis de Fisher como:

33

)(

4

4

4

1

4

2

xx

n

i

ii

S

m

S

n

xwf

gk

Una distribución es Mesocúrtica si la distribución de sus datos es la misma que la de la

variable Normal. En ese caso, su coeficiente de curtosis es cero.

Page 40: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 40

g2 = 0 Distribución Mesocúrtica

La distribución es Leptocúrtica si está más apuntada que la Normal. En ese caso, su

coeficiente de curtosis es positivo.

g2 > 0 Distribución Leptocúrtica. Si la distribución está menos apuntada que la Normal, entonces es Platicúrtica, y su coeficiente de Fisher es negativo.

g2 < 0 Distribución Platicúrtica Ejemplo:

Donde: M4= Cuarto momento respecto a la media, S=Desviación típica.

Li- Ls fi Fi Wi Wifi

ii xW iii fxw

3

iii fxw

4

45 - 55 6 6 50 300 -19,4 -43808,304 849881,098

55 - 65 10 16 60 600 -9,4 -8305,84 78074,896

65 - 75 19 35 70 1330 0,6 4,104 2,4624

75 - 85 11 46 80 880 10,6 13101,176 138872,466

85 - 95 4 50 90 360 20,6 34967,264 720325,638

50 3470 -4041,6 1787156,56

= 4.69

50

3470

Mo= 70.24

S= 11.029

3

)029.11(

50

1787156,56

3

)(

42

1

4

1

x

n

i

ii

S

n

xwf

k

K= 0.58431795

Page 41: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 41

Ejercicios: 1. Calcular el coeficiente de asimetría a partir de los siguientes datos obtenidos de una

muestra.

5 3 1 3 3 3 3 4 3 2 3 3

1 2 3 2 3 2 2 4 2 2 2 2

1 2 1 4 2 2 3 2 3 1 2 3

1 5 6 3 2 1 1 1 2 3 2 1

2. Calcular e interpretar el coeficiente de asimetría y Curtosis para los siguientes datos

(realizar histograma).

101,16 100,42 96,58 99,96 96,22 100,26 99,46 98,28

102,63 97,40 102,69 101,36 102,72 99,13 101,63 100,00

99,19 98,28 104,63 98,39 97,56 99,80 99,83 102,06

102,06 100,87 97,64 99,16 99,25 101,74 100,33 103,55

103,55 99,45 102,68 98,81 99,82 100,74 104,63 98,39

104,14 103,51 100,87 100,13 97,08 101,31 97,64 99,16

3. Calcular e interpretar el coeficiente de asimetría y Curtosis para los siguientes datos

(realizar gráfico de barra o histograma).

4. Calcular e interpretar el coeficiente de asimetría y Curtosis a partir del siguiente gráfico

de ojiva

2 13 4 5 11 8 7 7 4 5 6 4 2 7

6 5 8 7 9 4 5 4 5 6 7 6 5 7

3 7 3 4 10 6 6 3 8 8 6 3 7 11

5 6 5 11 2 8 6 9 6 9 9 9 6 3

3 2 8 8 7 2 8

Page 42: Estadística I

Universidad Peruana de Integración Global Asignatura: Estadística I

Ingº Blanca Yaya Gómez 42

BIBLIOGRAFIA:

CORDOVA, Estadística descriptiva e inferencial: aplicaciones. 5º Ed.

Ediciones Moshera. Lima: 2007.

MONTGOMERY. Diseño y análisis de experimentos. 2º Ed. Editorial Limusa.

Madrid: 2008.

DEVORE, Probabilidad y estadística para Ingeniería y ciencias: México, D.F:

Cengage Learning, 2008

SPIEGEL, Estadística. 4º Ed. Editorial McGraw-Hill. México: 2009.

WALPOLE y MYERS. Probabilidad y estadística. 6º Ed. Editorial Pearson. México: 2006.

MONTERO, Problemas resueltos de estadística descriptiva para ciencias sociales: Madrid: Thomson, 2008.