ESTADISTICA_DESCRIPTIVA_2009

40
INSTITUTO DE ESTUDIOS BANCARIOS 1 GUILLERMO SUBERCASEAUX PROFESOR : PEDRO ROJAS F. ESTADISTICA DESCRIPTIVA ¿Qué es la Estadística? La Estadística es una ciencia que consta de un conjunto de procedimientos, que nos permite recoger información, analizarla y posteriormente extraer conclusiones, ayudándonos a comprender y modelar el comportamiento de una situación real. Aunque la palabra Estadística tiene un significado particular dependiendo del área que uno se desarrolle, en general se le asocia a información, o más bien a un conjunto de cifras. Por ejemplo: Periodista deportivo ............. goles, tiros arco etc. Director escuela ................... ausentismo escolar Investigador médico ............. consecuencia de una droga Todas estas personas están usando correctamente la palabra estadística, sin embargo, cada una le da un significado ligeramente diferente y lo usa para un propósito un poco distinto. Pero por Estadística debe entenderse algo mucho más elaborado, por una parte y más susceptible de tratamiento científico por otra. Se observa en las cifras del consumo de combustible de los buses intercomunales es muy parecido día tras día. También se mantiene la relación de automóviles y buses que transitan por una calle, o la carga transportada por ferrocarril presenta valores de similar magnitud. Pese a que existen algunas variaciones en las cifras, estas se mantienen dentro de ciertos rangos que permiten mantener alguna uniformidad en algunas oportunidades, o al menos estos se repiten con cierta periodicidad. Los métodos estadísticos nos ayudan a tomar decisiones respecto de un conjunto grande de elementos, en base a la información recopilada en un grupo más pequeño, que pertenece a este grupo mayor. En la empresa moderna, los gerentes aplican algunas técnicas estadísticas prácticamente en todas las ramas de su organización, los científicos necesitan de esta ciencia para probar sus hipótesis, y nosotros mismos en la vida diaria sin darnos cuenta estamos ocupando algunas técnicas estadísticas. Estas técnicas son tan diversas que suelen agruparse en dos categorías generales: Estadística Descriptiva y Estadística Inferencial. Estadística Descriptiva. Consiste en la recopilación de datos a partir de la observación de muestras con el propósito de descubrir las características del fenómeno estudiado. Los datos se resumen y se analizan sobre la base de tablas y gráficos, sin pretender sacar conclusiones de tipo mas general.

Transcript of ESTADISTICA_DESCRIPTIVA_2009

Page 1: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 1 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

ESTADISTICA DESCRIPTIVA

¿Qué es la Estadística?

La Estadística es una ciencia que consta de un conjunto de procedimientos, que nos permite recoger información, analizarla y posteriormente extraer conclusiones, ayudándonos a comprender y modelar el comportamiento de una situación real.

Aunque la palabra Estadística tiene un significado particular dependiendo del área que uno se desarrolle, en general se le asocia a información, o más bien a un conjunto de cifras. Por ejemplo:

Periodista deportivo .............goles, tiros arco etc. Director escuela ...................ausentismo escolar Investigador médico.............consecuencia de una droga

Todas estas personas están usando correctamente la palabra estadística, sin embargo, cada una le da un significado ligeramente diferente y lo usa para un propósito un poco distinto. Pero por Estadística debe entenderse algo mucho más elaborado, por una parte y más susceptible de tratamiento científico por otra. Se observa en las cifras del consumo de combustible de los buses intercomunales es muy parecido día tras día. También se mantiene la relación de automóviles y buses que transitan por una calle, o la carga transportada por ferrocarril presenta valores de similar magnitud. Pese a que existen algunas variaciones en las cifras, estas se mantienen dentro de ciertos rangos que permiten mantener alguna uniformidad en algunas oportunidades, o al menos estos se repiten con cierta periodicidad. Los métodos estadísticos nos ayudan a tomar decisiones respecto de un conjunto grande de elementos, en base a la información recopilada en un grupo más pequeño, que pertenece a este grupo mayor.

En la empresa moderna, los gerentes aplican algunas técnicas estadísticas prácticamente en todas las ramas de su organización, los científicos necesitan de esta ciencia para probar sus hipótesis, y nosotros mismos en la vida diaria sin darnos cuenta estamos ocupando algunas técnicas estadísticas. Estas técnicas son tan diversas que suelen agruparse en dos categorías generales: Estadística Descriptiva y Estadística Inferencial.

Estadística Descriptiva. Consiste en la recopilación de datos a partir de la observación de muestras con el propósito de descubrir las características del fenómeno estudiado. Los datos se resumen y se analizan sobre la base de tablas y gráficos, sin pretender sacar conclusiones de tipo mas general.

Page 2: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 2 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Estadística Inferencial. Consiste en aplicar resultados de estudios de una muestra a la población y emitir juicios y conclusiones sobre la población en general.

La Estadística, el método científico. El método de investigación para el conocimiento de la realidad observable, que consiste en formularse interrogantes sobre esa realidad, con base en la teoría ya existente, tratando de hallar soluciones a los problemas planteados. El método científico (mtc) se basa en la recopilación de datos, su ordenamiento y su posterior análisis.

Pasos del Método Científico: Observación: el primer paso es la observación de una parte limitada del universo o población que constituye la muestra. Anotación de lo observable, posterior ordenamiento, tabulación y selección de los datos obtenidos, para quedarse con los más representativos. Hipótesis: se desarrolla en esta etapa, el planteamiento de las hipótesis que expliquen los hechos ocurridos (observados). Este paso intenta explicar la relación causa – efecto entre los hechos. Para buscar la relación causa – efecto se utiliza la analogía y el método inductivo. La HP debe estar de acuerdo con lo que se pretende explicar (atingencia) y no se debe contraponer a otras HP generales ya aceptadas. La HP debe tener matices predictivos, si es posible. Cuanto más simple sea, mas fácilmente demostrable (las HP complejas, generalmente son reformulables a dos o más HP simples). La HP debe poder ser comprobable experimentalmente por otros investigadores, o sea ser reproducible. Experimentación: la hipótesis debe ser comprobada en estudios controlados, con autentica veracidad. Hipótesis en Investigación: Hipótesis significa literalmente “lo que se supone”. Está compuesta por enunciados teóricos probables, referentes a variables o relaciones entre ellas. En el campo de la investigación, la hipótesis, supone soluciones probables al problema de estudio. El proceso estadístico se basa en la comprobación de hipótesis (HP). Existen dos tipos de HP, a saber: HP. Alterna o Científica: es la HP que pretende comprobar el investigador en su muestra de pacientes. Básicamente significa que la media de una característica o propiedad de un grupo es diferente a la media del otro grupo o grupos, o que la distribución y frecuencia de un evento en un grupo es diferente del otro. H1 : grupo 1 grupo 2 HP. Nula: es lo contrario de la anterior, o sea que no existen diferencias entre dos o más grupos o muestras. H0 : grupo 1 = grupo 2 El valor de p es entonces la medida de la evidencia contra la H0.Cuanto menor sea el valor de p, menor será la posibilidad de que la HP. Nula sea cierta, por lo cual se rechazará, aceptando a la HP. Científica como verdadera.

Page 3: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 3 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Los datos son colecciones de un número cualquiera de observaciones relacionadas entre sí. Podemos reunir la cantidad de teléfonos que varios trabajadores instalan en un día determinado o que uno de ellos instala por día durante un período de varios días; a los resultados podemos llamarlos datos. Una colección de varios datos recibe el nombre de conjunto de datos, y se da el nombre de punto de datos a una sola observación.

Los datos ayudan en la toma de decisiones, a hacer conjeturas bien fundamentadas acerca de las causas, y por tanto, sobre los efectos probables de ciertas características en algunas ocasiones. Por lo demás, el conocimiento de las tendencias adquirido con la experiencia permite conocer los posibles resultados y planear con anticipación. Nuestra investigación del mercado quizás revele que producto es preferido por mujeres mayores de 35 años. Entonces el mensaje publicitario deberá dirigirse a esta audiencia neta.

Cuando los datos se organizan en forma compacta y útil, los encargados de la toma de decisiones consiguen información confiable del medio en que se desenvuelven, y se valen de ella para llegar a decisiones inteligentes.

En el momento actual las computadoras permiten reunir enormes volúmenes de observaciones y condensarlas instantáneamente en tablas, gráficas números, pero se debe tener mucho cuidado y asegurarse que los datos que se están utilizando se basan en suposiciones e interpretaciones correctas. Para poder confiar en la interpretación de unos datos cualesquiera, antes se prueban formulando las siguientes preguntas.

¿ De dónde proceden los datos? ¿ Apoya o contradicen los datos la otra evidencia con que contamos? ¿ Existen datos que ignoramos y que nos harían llegar a una conclusión diferente? ¿ Representan a todos los grupos que queremos estudiar? ¿ Es lógica la conclusión? ¿Hemos sacado conclusiones en base solamente de los datos obtenidos?

Población y Muestra

La población(o universo) es una colección de todos los elementos que estamos estudiando de los cuales intentamos extraer conclusiones. Debemos definirla, de manera que quede claro si un elemento es o no miembro de ella.

La muestra es una colección de algunos de los elementos que componen una población.

Page 4: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 4 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Es muy común observar en los supermercados, secciones en donde se realicen degustaciones de los productos que allí se venden. Generalmente se prueba un trozo de queso, por ejemplo antes de adquirirlo, del cual se deducen todos los parámetros de gusto del trozo mayor. De igual forma un catador prueba solamente una copa de vino para poder medir el sabor del tonel completo.

Si el catador tuviera que tomarse todo el tonel o el comprador se comiera todo el queso no quedaría nada para venderse.

El tiempo es a menudo otro factor importante cuando se desea tomar alguna decisión rápida. Pongamos el caso de una máquina, que automáticamente clasifica miles de cartas. ¿Para qué tener que esperar todo el proceso de un día para verificar si la máquina está funcionando bien? En este caso se toman muestras a distintos horarios para verificar si la máquina está funcionando correctamente.

Desde el punto de vista matemático, podemos obtener de la población y de la muestra las diferentes medidas definidas previamente como el promedio, la mediana, la varianza, etc. Cuando estos términos se refieren a la población se denominan parámetros y cuando se refieren a la muestra se denominan estadísticos.

MUESTRA

POBLACIONParámetros

Estadísticos

Censo y Encuesta

El censo es examinar a todas las personas o miembros de la población que queremos estudiar

La encuesta es el método que se utiliza para conocer el estado de opinión sobre un determinado tema y que consiste en realizar una serie de preguntas a una población o a una muestra representativa de la misma. Es una técnica muy utilizada para obtener información sobre algún aspecto de la realidad social y determinadas opiniones o reacciones individuales. Suele realizarse mediante un cuestionario escrito, al que debe responder un grupo de personas escogido al azar o seleccionado según ciertos criterios.

Page 5: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 5 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Parámetros y Estadísticos

Parámetro: Es una medida descriptiva de la población total de todas las observaciones de interés para el investigador.

Estadístico: Es una medida descriptiva de una muestra y sirve como estimación del parámetro de la población correspondiente.

ATRIBUTOS Y VARIABLES

Tipos de variables

El conjunto de todos los valores que puede tomar la característica o fenómeno observado recibe el nombre de variable. Estadísticamente, estas se pueden agrupar en dos tipos, la Variable Cualitativa y Cuantitativa.

Variable Cualitativa

Cuando la observación se refiere a los atributos de un conjunto, por ejemplo: Estado Civil (soltero-casado-separado-viudo), Profesión (ingeniero-contador-técnico-secretaria), Sexo (masculino-femenino), etc.

Variable Cuantitativa

Cuando la observación tiene un valor expresado por un número, por ejemplo: Numero de hijos (0,1,2,3,....), IPC (0,1-0,5), Peso en kilos (58-65,7), Altura de un adulto (1,65-1,80), etc.

Una variable cuantitativa puede ser Discreta o Continua.

Variable Continua: Son aquellas que pueden tomar cualquier valor real dentro de cierto rango.

Variable Discreta: Son aquellas que sólo toma valores enteros.

Variable Cuantitativa Discreta

Es aquella que consta de un número finito o infinito de valores, ejemplo número de empleados de una fábrica, número de hijos por familia.

Generalmente se trata de números enteros y positivos, por ejemplo, una familia puede tener 0,1,2,... hijos, pero no un valor intermedio.

Variable Cuantitativa Continua

Es aquella que puede tener infinitos valores, por ejemplo Peso de una persona, Cantidad de agua caída en el mes, estatura, carga transportada, etc.

Page 6: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 6 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Esta diferencia que presenta la variable cuantitativa, discreta de la continua es más bien teórica que real. Cuando medimos una variable, resulta ser siempre discreta, pues todas las mediciones se expresan solamente en las unidades que realmente se pueden medir. Por ejemplo, es posible que una persona mida 1,6537446 mts, pero para cualquier fin práctico su estatura se considera solamente como 1,65 mts.

Datos cronológicos y no cronológicos

Cuando el tiempo de ocurrencia de la característica en estudio constituye un elemento importante se dice que el conjunto de datos es una serie cronológica. En cambio, si en el estudio estadístico no interesa el momento en que se produjeron las observaciones se dice que los datos forman una serie No Cronológica.

Series de datos Unidimensionales y Bidimensionales

Unidimensionales: Cuando se estudia solamente el comportamiento de una variable o atributo se dice que la serie de datos es unidimensional.

Bidimensionales: Cuando se estudian dos variables o dos atributos, o una variable y un atributo se dice que la serie de datos es bidimensional.

Page 7: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 7 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

ESTUDIO DESCRIPTIVO DE LA INFORMACIÓN

Puede decirse que la estadística descriptiva es un conjunto de métodos y procedimientos para obtener, describir e interpretar los datos de la observación de un fenómeno que se produce en los numerosos elementos de un conjunto y de tal manera dar una apreciación correcta de dicho fenómeno.

Arreglo básico de datos

Una vez recolectado los datos de las diversas medidas efectuadas, se obtiene un conjunto desordenado de valores que no son susceptibles de interpretación inmediata, por esto, se procede a su ordenación, de tal forma que se facilite su comprensión y posterior análisis.

El arreglo de datos de forma ascendente o descendente es una de las formas más sencillas de presentar información, y ofrecen ciertas ventajas sobre la presentación de los datos "brutos" Por ejemplo, si se dispone de cargas transportada por camiones, se puede obtener la siguiente información:

1.- Podemos describir rápidamente los valores máximos y mínimos.

2.- Podemos dividir fácilmente los datos en secciones.

3.- Podemos darnos cuenta si algunos valores aparecen más de una vez en el arreglo.

4.- Podemos observar la distancia entre valores consecutivos de la tabla.

Pese a las ventajas que acabamos de comentar, algunas veces un arreglo de datos de este tipo no resulta práctico, puesto que al contener todas las observaciones, resulta engorroso resumir la información y hacerla útil para una posterior interpretación.

Es cómodo por lo sencillo que resulta su interpretación, distribuir las observaciones en cuadros o tablas de manera que permitan una rápida apreciación de los datos reunidos.

Confección de una Tabla de Frecuencias

Un jefe de personal de una empresa de bancaria, ha registrado en 30 días los atrasos del personal a su cargo.

Designaremos por ix el número de atrasos del día i , en este caso i = 1,2,3,4,……,30.

Page 8: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 8 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

X1 = 0 X 2 = 2 X 3 = 0 X 4 = 0 X 5 = 3 X 6 = 0

X 7 = 4 X 8 = 4 X 9 = 1 X10 = 3 X11 = 1 X12 = 2

X13 = 5 X14 = 1 X15 = 1 X16 = 4 X17 = 3 X18 = 7

X19 = 8 X 20 = 5 X 21 = 1 X 22 = 2 X 23 = 3 X 24 =3

X 25 = 6 X 26 = 4 X 27 = 5 X 28 = 3 X 29 = 4 X 30 = 7

Los valores de la variable la designaremos por Y i

Definición de Términos:

Frecuencia Absoluta (n i ) = Es el número de veces que se repite un determinado valor de la variable.

∑=

n

iin

1= n1 + nnnn +++ ..............32 = N Tamaño de la Población

en nuestro ejemplo N=30

Frecuencia Absoluta Acumulada Ascendente (N ia ) = Es el número de observaciones menores o iguales que un determinado valor de la variable.

Frecuencia Absoluta Acumulada Descendente (N id ) = Es el número de observaciones mayores o iguales que un determinado valor de la variable.

Frecuencia Relativa (h i ) = Es el cuociente entre la frecuencia absoluta y el número total de observaciones.

Es decir Nni = h i 0 ≤≤ ih 1

11

=∑=

n

iih

Page 9: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 9 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Frecuencia Relativa Porcentual o Porcentaje = Es la frecuencia relativa × 100

Frecuencia Relativa Porcentual Acumulada Ascendente = Es el porcentaje de observaciones menores o iguales a un determinado valor de la variable.

Frecuencia Relativa Porcentual Acumulada Descendente = Es el porcentaje de observaciones mayores o iguales a un determinado valor de la variable.

Atrasos Personal Días Valores de la variable

Frecuencia Absoluta

Frecuencia Absoluta Acu. Ascen.

Frecuencia Absoluta Acu. Desce.

Frecuencia Relativa

Frec.Rela. Acu.Asce.

Frec.Rela. Acu.Desc.

Frec.Rela. Porcentaje

Frec.Rela. Por.Acu.Asc..

Y i n i N ia N id h i h ia h id h i × 100 h i ×100(A)Y 01 = 4 4 30 0,13 0,13 1,0 13 13 Y 2 = 1 5 9 26 0,17 0,30 0,87 17 30 Y 3 = 2 3 12 21 0,10 0,40 0,70 10 40 Y 4 = 3 6 18 18 0,20 0,60 0,60 20 60 Y 5 = 4 5 23 12 0,17 0,77 0,40 17 77 Y 6 = 5 3 26 7 0,10 0,87 0,23 10 87 Y 7 = 6 1 27 4 0,03 0,90 0,13 3 90 Y 8 = 7 2 29 3 0,07 0,97 0,10 7 97 Y 9 = 8 1 30 1 0,03 1,0 0,03 3 100 Por ejemplo, podríamos decir que hubieron 6 días del mes, en donde hubo 3 personas atrasadas.

TOTALES 309

1=∑

=iin 1

9

1=∑

=iih

Page 10: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 10 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Distribución de Frecuencia

La distribución de frecuencia es una tabla que organiza los datos en clases o categorías y muestra el número de observaciones provenientes del conjunto de datos que caen dentro de cada una de las clases.

Construcción de una tabla de distribución de frecuencia

Para construir una tabla de distribución de frecuencia se deben seguir los siguientes pasos:

1.- Escoger el número de clases en los cuales se clasifican las observaciones.

El número de clases o intervalo se eligen de acuerdo al número de observaciones que se disponga. Aunque no existe una regla para definir el número de intervalos, nunca es menor que 6 ni mayor que 15.

Cuanto más sean las observaciones o más amplia la gama, más clases se necesitarán, para representarlos. Desde luego, si tenemos solamente 10 datos, sería absurdo tener también 10 clases.

2.- Determinar el ancho de los intervalos de clase

Dado que necesitamos tomar los intervalos de clase de igual tamaño, el número de clases determina el ancho de cada uno de ellos.

Se define Rango = Máximo valor - Mínimo Valor

Así, el ancho del intervalo de clase se determinará como

Ancho I.C. = Rango + 1 unidad significativa N° de intervalos de clase Ejemplo 1:Supongamos que queremos tener 6 intervalos de un grupo de observaciones, de las cuales se extrajo la siguiente información

Máximo Valor : 169

Mínimo Valor : 152 Rango : 169 - 152 = 17

Ancho I.C. = 17 + 1 = 3 6

Page 11: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 11 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Los intervalos serían entonces

152 - 154 155 - 157 158 - 160 161 - 163 164 - 166 167 -169 Existen variadas formas de construir tablas de distribución de frecuencias y que podemos encontrar en algún texto de estudio, como el que a continuación se muestra, con los mismos datos anteriores: [152 - 155) [152 – (152+3)) [155 - 158) [155 – (155+3)) [158 - 161) [158 – (158+3)) [161 - 164) [161 – (161+3)) [164 - 167) [164 – (164+3)) [167 – 170) [167 – (167+3)) [ ]= Significa que se considera desde y hasta esa cifra. ( )= Significa que se considera hasta el valor anterior

Pero, ¿que pasará si el cuociente para determinar el ancho del intervalo no entrega un residuo igual a cero?

Ejemplo 2 : Veamos ahora el siguiente ejemplo, para 8 intervalos

Máximo Valor : 121 Mínimo Valor : 46 Rango : 121 - 46 = 75 Ancho I.C. = 75 + 1 8 76 : 8 = 9,5 --> Ancho del intervalo 4 Ampliar los intervalos a (9) Distribución del resto con 8 intervalos 76 + 5 = 81 : 9 = 9 Ancho del intervalo 76 + 4 = 80 :8 = 10 Ancho del intervalo 0 0

Page 12: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 12 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Luego repartimos los complementos en el intervalo mínimo y máximo

Luego los intervalos quedarán de la siguiente manera

(9) Intervalos con Ancho (9) (8) Intervalos con Ancho (10)

(1) 44 - 52 (1) 44 - 53 (2) 53 - 61 (2) 54 - 63 (3) 62 - 70 (3) 64 - 73 (4) 71 - 79 (4) 74 - 83 (5) 80 – 88 (5) 84 - 93 (6) 89 – 97 (6) 94 - 103 (7) 98 – 106 (7) 104 - 113 (8) 107 – 115 (8) 114 - 123 (9) 116 – 124

Aquí se puede notar que se sacrificó el número de intervalos aumentando a nueve y en el otro caso disminuyendo a ocho.

Normalmente este tipo de situaciones no reviste demasiada importancia ya que no influirá en las conclusiones finales que se puedan extraer de la variable bajo estudio.

Ejemplo 3 : Supongamos ahora que tenemos la siguiente información para 9 intervalos

Máximo Valor : 0.59

Mínimo Valor : 0.15 Rango : 0.59 - 0.15 = 0.44

Ancho I.C. = 0.44 + 0.01 = 0.05 9

Page 13: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 13 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

3.- Clasificar los puntos de datos en clases y contar el número de puntos en cada clase.

Toda observación debe pertenecer a una y solamente una clase, si existiera alguna duda respecto a la clasificación de algún dato, significa que los intervalos están mal construidos.

Ejemplo : El Presidente del banco Express, está tratando de estimar cuanto han sido los tiempos de demora en días en aprobar los créditos hipotecarios. Sus asesores han reunido los siguientes tiempos de espera de las solicitudes presentadas en el año anterior. Los datos se dan en días a contar desde la fecha de solicitud hasta el dictamen del banco. Construir una distribución de frecuencia usando 10 intervalos igualmente espaciados. ¿Qué intervalo ocurre con mayor frecuencia? 32 38 26 29 32 41 28 31 45 36 45 35 40 30 31 40 27 33 28 30 30 41 39 38 33 35 31 36 37 32 23 45 39 37 38 36 33 35 42 38 34 22 37 43 52 32 35 30 46 36 Máximo Valor : 52 Mínimo Valor : 22 Rango = 52 – 22 = 30 Ancho I.C. = 30 + 1 = 31 10 10 En este caso como el complemento es solo una unidad, esta unidad puede ser despreciable para el investigador, por lo tanto se le suma al ultimo intervalo, por lo que se puede apreciar, todos los valores igual se encuentran dentro de los intervalos. Marca de Clase: Se define como el valor medio del Intervalo de Clase Intervalo de Clase

Marca de Clase

Frecuencia absoluta

Frecuencia Absoluta

Acum. Asc.

Frecuencia relativa

Frecue.Relat. (%)

Frec. Relat. Acum. (%) ascendente

22 - 24 23 2 2 0.04 4 4 25 - 27 26 2 4 0.04 4 8 28 - 30 29 7 11 0.14 14 22 31 - 33 32 10 21 0.2 20 42 34 - 36 35 9 30 0.18 18 60 37 - 39 38 9 39 0.18 18 78 40 - 42 41 5 44 0.1 10 88 43 - 45 44 4 48 0.08 8 96 46 - 48 47 1 49 0.02 2 98 49 - 52 50.5 1 50 0.02 2 100

Total 50 1 100

Page 14: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 14 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Medidas de tendencia central o Estadígrafos de Posición

Una de las primeras medidas de interés para el análisis de datos son aquellas que indican la posición de los datos recolectados. Como primera instancia se estudiarán aquellas medidas que pudieran ubicar el "centro" de un grupo de datos, para posteriormente extenderse el estudio hacia cualquier medida de posición de la distribución de los datos.

Notación : Denotaremos por xi a cualquiera de los n valores x1,x2,....xn que toma una variable X.

El Promedio (Media Aritmética)

El Promedio, también conocido como media aritmética, de un conjunto de observaciones, es el centro de gravedad de ese conjunto de valores. El promedio se calcula sumando las n observaciones y posteriormente dividiendo esta sumatoria por el total de observaciones

a) Datos no agrupados

Se calcula como X =

xii =1

n∑

n

b) Para datos agrupados

Se calcula como n

xnX

n

iii∑

=

×= 1

en donde xi es la i-ésima marca de clase ni frecuencia observada para la clase ni i es el número de clases

Este promedio también se conoce como promedio ponderado ya que está considerando fi veces cada unos de los valores de la variable que se presenta en la distribución.

Propiedades

a) Si a cada valor de la variable se le suma una constante, el promedio de estos nuevos valores, será igual al promedio de los valores originales más la constante.

b) Si a cada valor de la variable se multiplica por una constante entonces el promedio calculado con estos nuevos valores será igual al promedio de los valores originales multiplicado por la constante.

c) El promedio de un grupo de valores iguales es igual a uno de esos valores.

Page 15: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 15 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Media Aritmética ponderada

Se define como:

nxn

nnnxnxnxn

X ii

k

kk ∑ ∗=

+++∗++∗+∗

=.......

............

21

2211

Media Geométrica (G)

La media geométrica se aplica especialmente en casos en que existe una tasa de crecimiento relativamente constante (población, montos medios de capitales sujetos a interés compuesto, etc.) o simplemente cuando se desea un porcentaje medio de crecimiento o baja, según corresponda.

nnxxxxG ∗∗∗∗= ...............321

Ejemplo: Una ciudad tiene en 1980 una población de 1,5 millones de personas, lo que sube en 1990 a 2,2 millones de personas y en el 2000 a 4,1 millones de personas. Se pregunta por la población media del periodo.

38,21,42,25,13 =∗∗=G

Ahora, si para el mismo ejercicio calculamos, el promedio o su media aritmética 6,2=x

La Mediana

La mediana de un conjunto de valores, es el valor que divide a las observaciones en 50% menores y 50% mayores que ese valor.

a) Para datos no agrupados: Primeramente se calcula la posición de la mediana y luego se calcula el estadístico.

a1) Si n es par 212/2/ ++

= nn XXMe

a2) Si n es impar 2/)1( += nXMe

Page 16: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 16 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

b) Para datos agrupados: Primeramente se calcula la posición de la mediana y luego se calcula el estadístico.

Me = L i +

n2

− f∑( )1⎛

⎝ ⎜

⎠ ⎟

f med× C

en donde Li............. Límite inferior real de la clase de la mediana n .............. número de observaciones (Σf)1 .......suma de frecuencias de las clases inferiores a la de la mediana f med .......frecuencia de la clase mediana C .............anchura del intervalo de clase de la mediana

La Moda

La moda es el valor del grupo de observaciones que se repite en más oportunidades (tiene mayor frecuencia), dentro del conjunto de datos. Si el conjunto de datos tiene una sola moda, se le denomina monomodal, de la misma manera puede ser bimodal o multimodal, según se aprecien dos o más valores modales respectivamente.

a) Para datos no agrupados

Se revisan los datos y se selecciona aquel se repite más veces. En caso de no existir un valor que se repite, entonces se dice que el grupo de observaciones no tiene Moda.

b) Para datos agrupados Mo = L i +

∆1∆1 + ∆2

⎝ ⎜

⎠ ⎟ × C

en donde Li...........Límite inferior real de la clase modal. ∆1 .........Exceso de frecuencia modal sobre la clase inferior inmediata.

∆2 Exceso de la frecuencia modal sobre la clase superior inmediata.

C ...........Anchura del intervalo de clase modal.

Page 17: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 17 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Ejercicios:

1.- El examen final de un curso vale tres veces mas que una evaluación parcial, y un estudiante tiene una nota de 6,2 en el examen final y un 5,5 y un 3,8 en las dos pruebas parciales. ¿Cuál es la calificación media obtenida por el alumno?

58,5311

)2,6()3()8,3()1()5,5()1(=

++×+×+×

=X

2.- El conjunto de doce datos es el siguiente:

5, 2, 18, 9, 10, 2, 12, 10, 9, 11, 9, 7

Calcular: a) X b) eM c) oM

Desarrollo:

a) 6,812

79119101221091825=

+++++++++++=X

b) 18,12,11,10,10,9,9,9,7,5,2,2== posiciónM e

212/2/ ++

= nn XXMe =

2

12

122

12++

= 6,5 posición

18,12,11,10,10,9,9,9,7,5,2,2== posiciónM e posición

El calculo del estadístico es 92

99=

+=eM

c) 9=oM es el dato que mas se repite 3.- El conjunto de siete datos es el siguiente:

Page 18: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 18 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

12, 5, 3, 8, 10, 16, 15 Calcular: a) X b) eM c) oM

a) 86,97

16151210853=

++++++=X

b) =eM 42

17=

+ posición

=eM 3, 5, 8, 10, 12, 15, 16 10=eM c) =oM No tiene Porque no hay ningún dato que se repita 4.- Se sabe que los sueldos en una empresa bancaria son los siguientes: Los empleados ganan $ 500.000 y son 50, $ 850.000 para los ejecutivos y son 20 y de $ 1.350.000 para los gerentes de áreas y son 5. ¿Calcular el sueldo promedio de la Empresa Bancaria?

000.65075

000.350.15000.85020000.50050=

×+×+×=X

5.- Si la renta anual media de los trabajadores agrícolas y no agrícolas en Estados Unidos, es de US$ 8.500 y US$ 10.000 respectivamente. Si se sabe que hay un trabajador agrícola por cada 11 trabajadores no agrícolas, determinar la renta promedio anual de estos trabajadores. =aX US$ 8500.- =naX US$ 10.000.-

=×+×

=12

000.1011500.81X US$ 9.875.-

6.- Se tienen los siguientes datos agrupados: Calcular la Media, Mediana y Moda.

Page 19: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 19 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

iY in ix ii xn × ih iah 100×iah

89 – 109 6 99 594 0,100 0,100 10,0 110 - 130 10 120 1200 0,167 0,267 26,7 131 - 151 13 141 1833 0,217 0,484 48,4 152 - 172 12 162 1944 0,200 0,684 68,4 173 - 193 9 183 1647 0,150 0,834 83,4 194 - 214 7 204 1428 0,116 0,950 95,0 215 - 235 3 225 675 0,050 1,000 100,0

60=∑ 321.9=∑ 1=∑

Media: n

xnX

n

iii∑

=

×= 1 = =

60321.9 155,35

Mediana: ( )

25,1532112

292

60

5,1512 1

=×⎟⎠⎞

⎜⎝⎛ −

+=×⎟⎠⎞

⎜⎝⎛ −

+=∑

Cf

fn

LMemed

i

Moda: CLMo i ×⎟⎟⎠

⎞⎜⎜⎝

⎛∆+∆

∆+=

21

1 = 25,1462113

35,130 =×⎟⎠⎞

⎜⎝⎛

++

7.- El número de prestamos cursados durante 31 días, en una financiera fueron los siguientes: 130-125-157-138-170-137-160-128-112-159-148-136-173-158-153-145-127-119-143-120-148-118-163-141-151-169-136-119-137-129-175

a) Construya una tabla de frecuencias con 8 intervalos. b) Calcule la media c) Calcule la mediana d) Calcule la moda

8.- El número de usuarios atendidos en una Capitanía de Puerto, durante 80 días fueron los siguientes: 68-84-75-82-68-90-62-88-76-93-73-79-88-73-60-93-71-59-85-75-61-65-75-87-73-81-72 74-62-95-78-63-72-66-78-82-75-94-77-69-74-68-60-96-78-89-61-75-95-60-79-63-76-75

Page 20: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 20 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

83-71-79-62-67-97-78-85-76-65-71-75-65-80-73-57-88-78-62-76-53-74-86-67-85-77

a)Construya una tabla de frecuencias con 9 intervalos. b)Calcule la media c)Calcule la mediana d)Calcule la moda

9.- El número de tarjetas visas vendidas por 40 empleados de una empresa bancaria, están representadas en la siguiente tabla::

Tarjetas Visa Frecuencia

118 – 126 3 127 - 135 5 136 - 144 9 145 - 153 12 154 - 162 5 163 - 171 4 172 - 180 2

Total 40

a)Calcule la media b)Calcule la mediana c)Calcule la moda

10.- Los clientes atendidos por una ejecutiva de cuentas de un banco durante diez días consecutivos fueron los siguientes:

Dias Nro. Clientes 1 49 2 50 3 21 4 33 5 43 6 52 7 30 8 31 9 25 10 29

a)Calcule la media b)Calcule la mediana

11.- Un tren lleva 600 pasajeros con una estatura media de 1,70 metros. Silos 2/3 son mujeres cuya estatura media es de 1,60. ¿Cuál es la estatura media de los hombres?

Page 21: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 21 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

nxn

nnnxnxnxn

X ii

k

kk ∑ ∗=

+++∗++∗+∗

=.......

............

21

2211

21

2211

nnxnxnX

+∗+∗

=

Se sabe que 21 nnN += 600=400+200 Entonces reemplazando en la formula y despegando X tenemos:

60020040060,170,1 2 ×+×

=X =

9,12 =X

Los Fractiles

Page 22: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 22 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Son medidas descriptivas de una serie de observaciones que consideran fracciones acumuladas de estas. Podemos enumerar los siguientes fractiles:

Deciles (Dk k=1,2,...,10) Divide el conjunto de observaciones en diez sectores de 10% de los datos cada uno. El D5 coincide con la mediana

Cf

fknLD

kdik ×⎟

⎟⎠

⎞⎜⎜⎝

⎛ −+= ∑ 1)()10/(

en donde Li.............Límite inferior real de la clase del decil n ..............número de observaciones k ..............Valor del decil que se desea calcular (Σf)1 .......suma de frecuencias de las clases inferiores a la del decil C .............anchura del intervalo de clase del decil dkf ..........valor de frecuencia en donde se ubica el decil

Percentiles (Pk k=1,2,....,100) Divide el conjunto de observaciones en cien sectores de 1% de los datos cada uno. El P50 coincide con la mediana.

Pk = Li +n(k / 100) − ( f∑ )1

f pk

⎝ ⎜

⎠ ⎟ × C

Cuartiles: (Qk k=1,2,3,4) Dividen el conjunto de observaciones en cuatro sectores de 25% de los datos cada uno. El Q2 coincide con la mediana

Cf

fknLQ

kqik ×⎟

⎟⎠

⎞⎜⎜⎝

⎛ −+= ∑ 1)()4/(

OBS: P25=Q1 P50=

Q2=D5 P10=D1 P75=Q3 P20=D2 P30=D3, etc.

12.- Se tienen los siguientes datos agrupados:

Page 23: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 23 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Calcular: Decil 7, Percentil 59, Cuartil 1

iY in ix ii xn × ih iah 100×iah 89 – 109 6 99 594 0,100 0,100 10,0 110 - 130 10 120 1200 0,167 0,267 26,7 131 - 151 13 141 1833 0,217 0,484 48,4 152 - 172 12 162 1944 0,200 0,684 68,4 173 - 193 9 183 1647 0,150 0,834 83,4 194 - 214 7 204 1428 0,116 0,950 95,0 215 - 235 3 225 675 0,050 1,000 100,0

60=∑ 321.9=∑ 1=∑

219

4110760

5,1727 ×⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−⎟

⎠⎞

⎜⎝⎛×

+=D = 174,83

7,1622112

291005960

5,15159 =×⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−⎟

⎠⎞

⎜⎝⎛×

+=P

4,1282110

64160

5,1091 =×⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−⎟

⎠⎞

⎜⎝⎛×

+=Q

Examinemos detenidamente las siguientes figuras, cada una de las cuales contiene un ejemplo de posibles distribuciones de frecuencia, es decir posibles comportamientos de un grupo de datos.

La fig. a, es simétrica, la fig b, está sesgada a la derecha y la fig c, lo está a la izquierda.

Page 24: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 24 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Promedio=Mediana=Moda

Fig a : Distribución de datos forma simétrica

Figb : Distribución de datos forma sesgada a la derecha

Fig c : Distribución de datos forma sesgada a la izquierda

En la fig a, donde la distribución es simétrica, y solamente existe una moda, la tres medidas de tendencia central, (la moda, la mediana y el promedio) coinciden con el punto más alto de la gráfica. En la fig. b, el conjunto de datos está sesgado hacia la derecha. Aquí la moda está todavía en el punto más alto de la gráfica, pero la mediana está a la derecha de ese punto y el promedio se encuentra a la derecha de la mediana. Cuando la distribución es asimétrica a la izquierda, como ocurre en la fig. c, la moda se encuentra en el punto más alto de la gráfica, la mediana se sitúa a la izquierda de

Page 25: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 25 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

la moda, y el promedio también se encuentra a la izquierda pero de la mediana. Cualquiera que sea la forma, la moda siempre se sitúa en el punto más alto.

Cuando resolvemos un problema de carácter estadístico, se ha de decidir si usar la mediana, la moda o el promedio como medida de tendencia central. Las distribuciones que son simétricas, siempre tienen el mismo valor para las tres medidas como se demostró previamente.

Cuando la población tiene un sesgo positivo o negativo, la mediana es a menudo la mejor medida de ubicación, puesto que siempre se encuentra entre el promedio y la moda. A la mediana no la afecta tanto la frecuencia de ocurrencia de un solo valor como la moda, tampoco es atraída por valores extremos como el promedio.

Estadígrafos de Dispersión

Dos conjuntos de datos pueden tener las mismas medidas de tendencia central y ser muy diferentes. Esto queda demostrado en las distribuciones de frecuencia de la siguiente figura

AC

B

Esquema de tres curvas con igual promedio pero diferentes variabilidades

El promedio en las tres curvas es el mismo, pero la curva A tiene menor dispersión (variabilidad) que la curva B y ésta a su vez presenta menor variabilidad que la C. Si calculamos solamente el promedio de estas tres curvas llegaremos a la conclusión errónea que sus distribuciones son iguales sin captar la diferencia entre ellas. Para mejorar el conocimiento sobre las distribuciones de frecuencia, es preciso que se mida su dispersión, o sea su variabilidad.

La dispersión es una característica importante de medir y entender porque entrega información que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos están ampliamente dispersos como los de la curva C, el promedio será menos "representativo" de los datos en general que lo que ocurre con la curva A.

Page 26: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 26 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Desviación Media

Para calcular la desviación media, se debe calcular en primer lugar el promedio de las observaciones, luego se determina el valor absoluto de la diferencia de cada observación y el promedio. Finalmente se suman todas estas diferencias y se dividen por el número total de elementos de la muestra. Simbólicamente tendremos que:

Para datos sin agrupar la formula es la siguiente:

MD =

xi − X i =1

n∑

n

en donde

X = promedio de las observaciones.

x i − X = Desviación absoluta de xi con respecto de X .

Esta desviación media es una buena medida de dispersión porque toma en cuenta todas las observaciones, pondera por igual a cada elemento e indica a qué distancia del promedio se halla cada observación. Pese a estas ventajas, no se utiliza mucho debido a razones técnicas.

Ejercicio:

Se tienen la siguiente información del numero de tarjetas visa, vendidas por 10 vendedores, durante el periodo de una semana.

Vendedores 1 2 3 4 5 6 7 8 9 10 Tarjetas Visa 7 23 4 8 2 12 6 13 9 4

Calcular la media aritmética, mediana, moda, desviación media.

8,8=X tarjetas visas

5,7=eM

4=oM

Page 27: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 27 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Para el calculo de la desviación media, tenemos que construir la siguiente tabla:

OBSERVACIÓN

ix MEDIA

X DESVIACIÓN

( )Xxi − DESVIACIÓN ABSOLUTA

Xxi − 2 8,8 -6,8 6,8 4 8,8 -4,8 4,8 4 8,8 -4,8 4,8 6 8,8 -2,8 2,8 7 8,8 -1,8 1,8 8 8,8 -0,8 0,8 9 8,8 0,2 0,2 12 8,8 3,2 3,2 13 8,8 4,2 4,2 23 8,8 14,2 14,2

∑= 6,43

Por tanto, reemplazando en la formula tenemos que:

36,410

6,431 ==−

=∑

=

n

XxMD

n

ii

Para datos agrupados la formula de la desviación media se calcula como:

n

XmfMD

k

iii∑

=

−×= 1

en donde k = número de intervalos fi = frecuencia de la i-ésima clase mi = i-ésima marca de clase n = número de observaciones

Page 28: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 28 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Ejercicio: Calcular la desviación media de la siguiente tabla, si sabemos que en cálculos anteriores la 35,155=X

iY if im ( )Xmi − Xmf ii −×

89 – 109 6 99 -56,35 338,1 110 - 130 10 120 -35,35 353,5 131 - 151 13 141 -14,35 186,55 152 - 172 12 162 6,65 79,80 173 - 193 9 183 27,65 248,85 194 - 214 7 204 48,65 340,55 215 - 235 3 225 69,65 208,95

60=∑ ∑= 3,756.1

Por tanto reemplazando en la formula tenemos que:

27,2960

3,756.1

7

1 ==−×

=∑

=

n

XmfMD i

ii

Varianza

La Varianza es la medida de dispersión más importante en la estadística, principalmente porque cumple muchas propiedades que la hacen ser preferida ante otras medidas de dispersión.

La Varianza se calcula de la siguiente manera:

Para datos sin agrupar, la formula es la siguiente:

S2 =

xi − X ( )2i=1

n∑

n −1

Page 29: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 29 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Del ejercicio de los vendedores de tarjetas visa, calcular la varianza:

OBSERVACIÓN

ix MEDIA

X DESVIACIÓN

( )Xxi − ( )2Xxi −

2 8,8 -6,8 46,24 4 8,8 -4,8 23,04 4 8,8 -4,8 23,04 6 8,8 -2,8 7,84 7 8,8 -1,8 3,24 8 8,8 0,8 0,64 9 8,8 0,2 0,04 12 8,8 3,2 10,24 13 8,8 4,2 17,64 23 8,8 14,2 201,64

∑= 6,333

Luego reemplazando en la formula tenemos que:

( )06,37

956,333

1

10

1

2

2 ==−

−=

∑=

n

Xi

ixS

Para datos agrupados, la Varianza se calcula de la siguiente manera:

( )1

1

2

2

−×=

∑=

n

Xmfk

iii

S

Para los siguientes datos descritos en la tabla, calcularemos la varianza:

iY if im ( )Xmi − ( )2Xmi − ( )2Xmf ii −

89 – 109 6 99 -56,35 3.175,32 19.051,92 110 - 130 10 120 -35,35 1.249,62 12.496,22 131 - 151 13 141 -14,35 205,92 2.676,99 152 - 172 12 162 6,65 44,22 530,64 173 - 193 9 183 27,65 764,52 6.880,68 194 - 214 7 204 48,65 2.366,82 16.567,74 215 - 235 3 225 69,65 4.851,12 14.553,36

60=∑ ∑= 55,757.72

Page 30: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 30 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Luego reemplazando en la formula tenemos que:

( )18,233.1

5955,757.72

11

2

2 ==−

−=

∑=

n

Xmfk

iii

S

Propiedades de la Varianza

i.- S2 > 0

ii.- S2 = 0 si sólo sí todas las observaciones son iguales.

iii.- Si cada una de las observaciones aumenta en k unidades, la varianza calculada con estas nuevas observaciones no cambia.

iv.- Si cada una de las observaciones se multiplica por una constante k, entonces la nueva varianza calculada con estas observaciones, será igual a la varianza original multiplicada por la constante k al cuadrado.

Al calcular la varianza para un grupo de datos, nos percatamos que el valor resultante quedará expresado en las unidades de las observaciones pero al cuadrado, es decir, metros cuadrados, dólares cuadrados, autos cuadrados, etc. Estas dos últimas expresiones no son intuitivamente claras ni fáciles de interpretar. Por este motivo, es necesario realizar un cambio importante en la varianza para obtener una medida útil de la dispersión, la cual no nos plantee un problema con las unidades de medida y que por lo mismo resulte menos confusa. Esta medida recibe el nombre de Desviación Standard.

Desviación Standard

La Desviación Standard, es simplemente la raíz cuadrada de la varianza de la población, tanto para datos sin agrupar y agrupados.

Para datos sin agrupar la formula es ( )

11

2

−=

∑=

n

Xxk

ii

S

Page 31: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 31 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Para datos agrupados la formula es

( )1

1

2

−×=

∑=

n

Xmfk

iii

S

Ejercicio: Calcular la desviación estandar para los ejercicios anteriores:

La desviación estandar para las ventas de tarjetas visa (datos sin agrupar) S = 6,08

La desviación estandar para el ejercicio de datos agrupados S = 35,12

Coeficiente de Variación

El coeficiente de variación se obtiene dividiendo la desviación estándar por su media, expresándose el resultado en términos porcentuales.

100⋅=y

sCV y

y %

Este coeficiente se utiliza para comparar dos o más muestras las cuales no necesariamente deben tener el mismo tamaño (n) y determinar cuál tiene mayor o menor variabilidad relativa o bien cuál es más homogénea. Mientras menor sea el coeficiente de variación la muestra es más homogénea. Se debe tener presente que el valor del coeficiente de variación es porcentual por lo que no importa su signo. Lo anterior ocurre cuando las observaciones de la muestra toman valores negativos por lo que la media puede dar un valor negativo. Para establecer el grado de homogeneidad o heterogeneidad de una muestra, se clasificará el coeficiente de variación en los siguientes rangos: Muestra Homogénea : %25%0 ≤≤ ycv Muestra Regularmente Homogénea : %75%25 ≤< ycv Muestra Heterogénea : %100%75 ≤< ycv Ejemplo: Para los 100 ingresos de los empleados de una empresa se obtuvieron los siguientes resultados:

000.000.500.2000.450$

2 =

=

ySy

Page 32: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 32 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Se quiere conocer la homogeneidad de la empresa en términos del pago de sueldos a sus empleados. Para ello es necesario conocer la desviación estándar:

000.50$000.000.500.2 ==ys Por lo tanto, el valor del coeficiente de variación de la muestra será:

%1,11100000.450$

000.50$=⋅=ycv

Lo que refleja que la muestra no es muy dispersa en términos del sueldo de los empleados. Distribuciones Bidimensionales

En los capítulos anteriores se ha contemplado el caso de distribución de los valores de sólo una variable, a menudo se presentan las observaciones respecto a dos variables en forma simultanea, como ocurre cuando se conocen el peso y edad de un grupo de alumnos, la estatura de padres e hijos, o los ingresos y gastos de varias familias. Se trata en estos casos de distribuciones bidimensionales. Es posible analizar posteriormente si existe alguna relación funcional entre ambas variables e incluso, cuantificar esta relación. Presentación de los Datos. Los antecedentes propios de las distribuciones bidimensionales, para los fines de su estudio, pueden corresponder a un pequeño grupo de observaciones o a uno muy numeroso. Cuando los datos son mas numerosos, su presentación y su análisis es algo mas engorroso. Ejemplo: Supóngase que se poseen los siguientes datos de un grupo de 127 familias, que considera las variables Ingresos y Gastos en consumo respectivamente.

Ingresos (x) Gasto Consumo (y) Nro. Familias 117 47 2 125 49 3 129 60 5 130 55 4 131 56 6 132 60 6 135 80 10 139 58 12 130 63 14 140 70 8 142 72 8 145 68 7

Page 33: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 33 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

149 59 8 153 49 7 155 79 6 159 85 7 160 80 6 162 82 5 164 88 3

∑= 127 Como por ejemplo debe interpretar en el sentido de que existen dos familias, donde el Ingreso es de 117 y el Gasto en consumo es de 47. Para determinar el cuadro de frecuencias se hace igual que el caso de una variable, teniendo presente =ix representa el i-esimo valor de la variable Ingreso. mientras =jy significa el j-esimo valor de la otra variable, en este caso el gasto en Consumo. La frecuencia absoluta ijn corresponde al número de veces que se presentan conjuntamente los valores de ix y jy Para el ejemplo, construir una tabla de frecuencias de 6 intervalos de clases:

Variable Ingreso: 164-117= 86

147=

+

Variable Gasto: 88-47= 76

141=

+

DISTRIBUCIÓN DE FAMILIAS CONSIDERANDO

EL INGRESO Y EL GASTO EN CONSUMO X Y

117-124 125-132 133-140 141-148 149-156 157-164 jn

47-53 2 3 7 12 54-60 21 12 8 41 61-67 14 14 68-74 8 15 23 75-81 10 6 6 22 82-88 15 15

in 2 38 30 15 21 21 127

Page 34: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 34 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Ejercicio: A partir de la tabla anterior, calcular la media, varianza y desviación estandar y coeficiente de variación, para la distribución marginal del gasto en consumo y de los ingresos respectivamente. Para la variable Gasto 6,66=Y 50,1232 =yS 11,11=yS 16,0=YCV Para la variable Ingresos 3,141=X 71,1442 =XS 02,12=XS 08,0=XCV Covarianza

Cuando se estudian dos variables, se definirá una nueva medida de dispersión, la covarianza. Se puede considerar que la covarianza representa el grado de variabilidad conjunta de ambas variables en relación con sus respectivas medias.

La formula para datos no agrupados es:

( ) ( )n

yyxxyxCov

n

iii∑

=

−⋅−= 1),(

La formula para datos agrupados es:

( ) ( )n

nyyxxyxCov

n

iijii∑

=

×−⋅−= 1),(

La covarianza puede tomar cualquier valor: cero, positivo o negativo. Cov x y( , ) > 0 , significa que las dos variables se mueven en el mismo sentido, es decir, a medida que una variable crece la otra también crece y viceversa. Por ejemplo, ingreso y ahorro, por lo general, tienen una covarianza positiva ya que a medida que aumentan los ingresos mayor es la capacidad de ahorro. Cov x y( , ) < 0 significa que las variables se mueven en sentido contrario, es decir, a medida que una variable crece la otra decrece y viceversa. Por ejemplo, gasto y ahorro, por lo general, tienen una covarianza negativa ya que a medida que aumentan los gastos menor es la capacidad de ahorro. Cov x y( , ) = 0 significa una de dos cosas, o una de las variables es constante, o las dos variables son independientes, es decir, no existe ninguna relación entre ellas. Observación: dos covarianzas son comparables sólo si las variables se encuentran expresadas en unidades comparables. Distribución Normal

Page 35: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 35 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Una de las distribuciones teóricas mejor estudiadas y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el coeficiente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución Normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal. Caracteres morfológicos de individuos (personas, animales, plantas) de una especie, por ejemplo, tallas, pesos, envergaduras, diámetros, perímetros. Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos, por ejemplo, coeficiente intelectual, grado de adaptación a un medio. La distribución normal tiene forma de campana, en dónde existe una simetría en la distribución de los valores en torno a su media. A su vez se tiene que la media, mediana y moda son iguales. Para una distribución normal se tiene que: El 68,3% de las observaciones se encuentran en el intervalo [ ]yy sysy +− , ; El 95,5% de las observaciones se encuentran en el intervalo [ ]yy sysy ⋅+⋅− 2,2 ; El 99,7% de las observaciones se encuentran en el intervalo [ ]yy sysy ⋅+⋅− 3,3 .

Page 36: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 36 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Por lo tanto, mientras más pequeño sea el valor de la desviación estándar la muestra es más homogénea. Ejemplo: La siguiente tabla muestra los sueldos de 50 funcionarios de un banco (en miles de $), calcular los intervalos en que se encuentra el 68,3%, el 95,5% y el 99,7% de los datos.

Intervalos in 842-1.102 5 1.103-1.363 10 1.364-1.624 4 1.625-1.885 7 1.886-2.146 2 2.147-2.407 6 2.408-2.668 8 2.669-2.929 8

Total 50 Entonces tenemos que calcular, la media, varianza y la desviación estandar:

=y 1.916,8

=2yS

=YS

El 68,3% de los ingresos se encuentran en el intervalo [ ]yy sysy +− , , es decir, El 95,5% de los ingresos se encuentran en el intervalo: [ ]yy sysy ⋅+⋅− 2,2 , es decir El 99,7% de los ingresos se encuentran en el intervalo: [ ]yy sysy ⋅+⋅− 3,3 , es decir

Page 37: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 37 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

En general, el eje de simetría de una distribución normal será el valor de la media.

MoMey ==

En este caso la distribución normal es simétrica respecto de su media, ya que se observa la misma cantidad de valores tanto a la derecha como a la izquierda del valor de la media. En algunos casos existen distribuciones asimétricas a la derecha o izquierda de la media.

yMeMo MoMey Medidas de Forma: Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. Se pueden estudiar las siguientes características de la curva: Concentración: mide si los valores de la variable están más o menos uniformemente repartidos a lo largo de la muestra. Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a la derecha e izquierda son similares.

y

ni

Distribución Asimétrica Positiva (Alargamiento Derecha)

yi

ni

Distribución Asimétrica Nagativa (Alargamiento Izquierda)

yi

ni

Page 38: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 38 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. Representación gráfica Un gráfico es una representación pictórica (mediante figuras geométricas u otros elementos) que proporciona visualmente un resumen de la información que interesa

Page 39: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 39 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

destacar, y lo más importante recordar. El gráfico cumple aspectos en mejor forma que un cuadro numérico, el que a su vez, tiene interés desde otros puntos de vista. Reglas para dibujar gráficos La observación de las reglas que se mencionarán y comentarán, es importante para que el gráfico cumpla correctamente su cometido principal: dar una visión global del problema, con elementos que guardan las proporciones correspondientes. También es importante conocer estas reglas no solamente para construir un gráfico, sino que cuando nos enfrentemos a uno hecho por otra persona, no nos engañen con falsas proporciones o unidades de medida diferente para cada uno de los ejes. Naturalmente la aplicación de las reglas debe tener cierta flexibilidad y en más de alguna ocasión será necesario apartarse ligeramente de ellas. a) La disposición general de un gráfico debe avanzar de izquierda a derecha. b) Siempre que sea posible, deben representarse las cantidades por magnitudes lineales, pues las áreas y volúmenes se prestan a confusiones. c) Debe procurarse que aparezca en el diagrama la línea correspondiente al cero. Una de las excepciones es cuando una de las variables es el año. d)Cuando no puede aparecer la línea del cero debido a la magnitud de los valores representados, debe "quebrarse" la línea de las abcisas (Y) o de las ordenadas (X), según sea el caso.

e) La línea del cero debe ser más gruesa que los trazos que representan otras coordenadas. f) En las escalas que tienen porcentaje, conviene hacer resaltar claramente la línea del 100% u otra que se utilice para comparación. g) En algunas ocasiones es conveniente incluir en el gráfico los datos respectivos o las fórmulas representadas. h) Si no se incluyen los datos en el gráfico, se debe presentar en un lugar cercano al gráfico, un cuadro que contenga las cifras graficadas. i) Siempre deben incluirse las unidades de medida para la abcisa y la ordenada. j) Todo gráfico debe contener en forma clara y lo mas completa posible, la información necesaria para su fácil y total comprensión, como títulos, período que comprende la información, unidades de medida, fuente, etc. Gráficos empleados con mayor frecuencia

Page 40: ESTADISTICA_DESCRIPTIVA_2009

INSTITUTO DE ESTUDIOS BANCARIOS 40 GUILLERMO SUBERCASEAUX

PROFESOR : PEDRO ROJAS F.

BARRAS SEPARADAS: Cada barra representa un acontecimiento. Su largo corresponde a la frecuencia con que se ha presentado el acontecimiento. BARRAS AGRUPADAS: Cuando se desea comparar la frecuencia del acontecimiento en dos o más categorías de unidades de observación, cada acontecimiento se presenta por un grupo de barras correspondientes a las categorías. BARRAS SUBDIVIDIDAS: Cuando se requiere mostrar la diferente proporción con que ocurren los fenómenos en determinados grupos es conveniente subdividir las barras correspondiente a los grupos HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de rectángulos que tienen: Sus barras sobre el eje horizontal (el eje X), con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. Superficies proporcionales a las frecuencias de clase. POLÍGONO DE FRECUENCIAS: Es un gráfico de linea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el Histograma. En general existen una diversidad de otros tipos de gráficos y su uso y tipo va a depender de lo que se quiera mostrar: -Sectoriales o circulares o de torta -Líneas o serie de tiempo -Frecuencias acumuladas o áreas -Tela de araña o radial -Dispersión, etc. Tarea : Con información actualizada, presentar 7 gráficos diferentes