8. Medidas dispersión

18
Objetivo: • Conocer, calcular e interpretar medidas de dispersión para datos agrupados y no agrupados.

description

Curso de Probabilidad y Estadistica

Transcript of 8. Medidas dispersión

  • Objetivo:Conocer, calcular e interpretar medidas de dispersin para datos agrupados y no agrupados.

  • Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda slo nos revelan una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o variabilidad.

    Al analizar un conjunto de datos, resulta a menudo conveniente expresar numricamente la variabilidad que existe entre ellos.

    Para llevar a cabo esta descripcin, se usan varias estadsticas que usan relaciones internas entre los datos. Comnmente estas relaciones tienen que ver con diferencias de los datos o funciones de ellos respecto de algunas estadsticas de posicin.

    Dependiendo del tipo de diferencia usada, se obtienen distintas expresiones que entregan visiones parciales de la forma en que los datos varan. Estas visiones parciales se complementan para entregar un cuadro ms completo de la dispersin observada entre los datos. Medidas de dispersin para datos agrupados y no agrupados

  • 1) RangoEl rango (amplitud) se calcula como la diferencia entre el mximo y el mnimo valor de un conjunto de datos, esto es:

    Ejemplo:Se tienen las edades de cinco estudiantes universitarios de Ier ao: 18,23, 27,34 y 25, para calcular el rango.

    = 34-18 = 16 aos

  • Propiedades del Rango o Recorrido:

    El recorrido es la medida de dispersin ms sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (mximo y mnimo) en una distribucin Puesto que el recorrido se basa en los valores extremos ste tiende a ser errtico. La principal desventaja del recorrido es que slo esta influenciado por los valores extremos, puesto que no cuenta con los dems valores de la variable. Por tal razn, siempre existe el peligro de que el recorrido ofrezca una descripcin distorsionada de la dispersin. Rango Intercuartil:Es la diferencia entre el tercer y primer cuartil e indica el intervalo de valores que abarcan el 50% del total de datos y que estn al centro.Es una medida de variabilidad adecuada cuando la medida de posicin central empleada ha sido laMediana

  • 2) VarianzaLas varianza se define como el promedio cuadrtico de las desviaciones de las observaciones respecto del promedio de estos datos. La varianza est denotada por

    La varianza es una medida de dispersin relativa a algn punto de referencia. Ese punto de referencia es la media aritmtica de la distribucin. Ms especficamente, la varianza es una medida de que tan cerca, o que tan lejos estn los diferentes valores de su propia media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la varianza; cuando ms cerca estn las Xi a su media menos es la varianza

  • Para datos agrupados se calcula a partir de la frmula:

    Donde, n es el tamao de la muestra, el valor correspondiente i-sima observacin (o marca de clase en el caso de datos agrupados como variable continua), el promedio de la muestra y la frecuencia absoluta de la clase i-sima.

  • Una manera alternativa de calcular la varianza, es mediante la frmula:

    Esta ltima expresin tiene algunas ventajas sobre la anterior, debido a que se producen menores errores de redondeo al utilizarla.

  • Ejemplo

    Se tiene informacin respecto al nmero de las latas de bebidas consumidas durante un mes, por un grupo de 39 familias en la siguiente tabla

    30535104084112454Total39

  • Para calcular la varianza, debemos completar la siguiente tabla

    Saber que la varianza del ejemplo es igual a 44,7 no tiene una interpretacin, sino que es un valor comparativo entre muestras.

    30590045003510122512250408160012800411216812117245420258100Total3958822

  • 3) Desviacin estndarDiremos que la desviacin tpica o estndar, denotada por o est definida como la raz cuadrada de la varianza. Se calcula segn la frmula:

    O bien:ObservacinLa unidad de medida de la desviacin estndar es la misma unidad de medida de la variable.

    La desviacin estndar mide la cantidad tpica en la que los valores del conjunto difieren de la media aritmtica

    A modo de ejemplo, se puede decir que un valor est bastante alejado del centro de los datos si su distancia de l supera dos desviaciones estndar

  • Del ejemplo anterior

    La desviacin estndar seria

  • 4) Coeficiente de variacinLa desviacin estndar es til como medida de variacin de un conjunto de datos, sin embargo, depende de la unidad de medida.Si por ejemplo, se desea comparar la variabilidad de las estaturas de los chilenos versus la variabilidad de las estaturas de los ingleses, no es posible hacerlo directamente con las medidas de dispersin expuestas anteriormente, debido a las distintas unidades de medicin utilizadas (por ejemplo, en el caso de los chilenos, la estatura se mide en centmetros, mientras que en el Reino Unido, la estatura se mide en pulgadas). Cuando se quiere comparar la dispersin de dos conjuntos de datos, con unidad de medida diferente, surge una medida de varianza relativa llamada coeficiente de variacin, la cual expresa la desviacin estndar como un porcentaje de la media. Esto es:

  • Observaciones generalesAntes de ejemplificar los conceptos de dispersin vistos hasta aqu, es conveniente tener en cuenta las siguientes observaciones que relacionan las medidas de dispersin:Cuanto ms dispersos sean los datos, ms aumentar el rango, el rango intercuartil (Q3-Q1), la varianza, la desviacin estndar y el coeficiente de variacin.

    Cuanto ms concentrados u homogneos sean los datos, disminuir el rango, el rango intercuartil, la varianza, la desviacin estndar y el coeficiente de variacin.

    Si las observaciones son todas iguales (de manera que no hay variacin en los datos), el rango, el rango intercuartil, la varianza, la desviacin estndar y el coeficiente de variacin ser iguales a cero.

    Las medidas de variacin nunca son negativas.

  • Ejemplo

    Con el fin de observar la relacin entre la inteligencia y el nivel socioeconmico (medido por el salario mensual familiar) se tomaron dos grupos, uno formado con sujetos de cociente intelectual inferior a 95 y otro formado por los dems; De cada sujeto se anot el salario semanal familiar (en miles de pesos) . Teniendo en cuenta los resultados que se indican en la tabla:

    Cul de los dos grupos presenta mayor homogeneidad?

    Nivel socioeconmicoSujetos con CI < 95Sujetos con CI 95Ingreso semanal100 - 1603526160 - 2202025220 - 2803030280 - 3402554340 - 4001546

  • Desarrollemos la tabla de distribucin de frecuencias para ambas muestras

    Muestra 1 (CI

  • Por lo tanto

    Muestra 1Muestra 2Media 233,2272,873Desviacin estndar 82,30285582,318Q1115206,2Q3301340Q186133,8CV(X)35,30%30,17%

  • Vemos cmo analtica se comprueba que la muestra 2 presenta mayor homogeneidad, es decir, menos variabilidad en sus datos:(1) CV(muestra1) = 35,3% >CV(muestra 2)= 30,17%De (1) se concluye que la segunda muestra es ms homognea, y como el coeficiente de variacin representa el tamao relativo de la dispersin media (o desviacin estndar) con respecto a la media, podemos concluir tambin que la media de la muestra 2 es ms representativa que la media de la muestra 1(2) Q(muestra 1) = 186 > Q(muestra 2)= 133 De (2) se concluye que el rango en el cual se concentra el 50% de las observaciones centrales (o ms normales), es menor en la muestra 2, lo que tambin implica una menor variabilidad de sus datos, y por lo tanto mayor homogeneidad.