Medidas Descriptiva Datos No Agrupados

4
Unidad 4: Medidas Descriptivas Objetivo: En esta unidad, se revisan las definiciones más comúnmente utilizadas de la Estadística Descriptiva para caracterizar en forma numérica a grupos de datos para facilitar su análisis y comparación. MEDIDAS DESCRIPTIVAS MEDIDAS DE TENDENCIA CENTRAL Estos números definen el valor alrededor del cual se concentran los datos u observaciones. Se indican a continuación los más utilizados. MEDIA MUESTRAL Si X 1 , X 2 , ... , X n representan a los datos, se define la media muestral como: n 1 2 n i i1 x x ... x 1 n n = + + + = = X x (4.1) Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, entonces X = (2+6+11+8+11+4)/6 = 7 MODA MUESTRAL Es el valor que más se repite (puede no existir y si existe puede no ser única). Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, entonces la moda es 11 MEDIANA MUESTRAL Es el valor que está en el centro de los datos ordenados Sean X 1 , X 2 , ... , X n los datos X (1) , X (2) , ... , X (n) los datos ordenados en forma creciente El subíndice entre paréntesis significa que al dato X (i) le corresponde la posición i en el grupo ordenado. Se define la mediana muestral como: ~ = x n1 ( ) 2 n n ( ) ( 1) 2 2 X , si n es impar 1 (X X ),si n es par 2 + + + (4.2) Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, Los datos ordenados: 2, 4, 6, 8, 11, 11, entonces = x ~ + = 1 (6 8) 7 2 Debe notarse que las medidas de tendencia central no son suficientes para describir de manera única el comportamiento de los datos pues además se necesita conocer cuan dispersos están y la forma de su distribución.

description

z

Transcript of Medidas Descriptiva Datos No Agrupados

  • Unidad 4: Medidas Descriptivas Objetivo: En esta unidad, se revisan las definiciones ms comnmente utilizadas de la Estadstica Descriptiva para caracterizar en forma numrica a grupos de datos para facilitar su anlisis y comparacin. MEDIDAS DESCRIPTIVAS MEDIDAS DE TENDENCIA CENTRAL Estos nmeros definen el valor alrededor del cual se concentran los datos u observaciones. Se indican a continuacin los ms utilizados. MEDIA MUESTRAL Si X1, X2, ... , Xn representan a los datos, se define la media muestral como:

    n

    1 2 ni

    i 1

    x x ... x 1n n =

    + + += =X x (4.1) Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, entonces X = (2+6+11+8+11+4)/6 = 7 MODA MUESTRAL Es el valor que ms se repite (puede no existir y si existe puede no ser nica). Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, entonces la moda es 11 MEDIANA MUESTRAL Es el valor que est en el centro de los datos ordenados Sean X1, X2, ... , Xn los datos X(1), X(2), ... , X(n) los datos ordenados en forma creciente El subndice entre parntesis significa que al dato X(i) le corresponde la posicin i en el grupo ordenado. Se define la mediana muestral como:

    ~=xn 1( )

    2

    n n( ) ( 1)2 2

    X , si n es impar

    1 (X X ),si n es par2

    +

    +

    + (4.2)

    Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4,

    Los datos ordenados: 2, 4, 6, 8, 11, 11, entonces = x~ + =1 (6 8) 72

    Debe notarse que las medidas de tendencia central no son suficientes para describir de manera nica el comportamiento de los datos pues adems se necesita conocer cuan dispersos estn y la forma de su distribucin.

  • MEDIDAS DE DISPERSIN Son nmeros que proveen informacin adicional acerca del comportamiento de los datos, describiendo numricamente cuan dispersos estn. RANGO El rango es la diferencia entre el mayor valor y el menor valor de los datos. Si X(i) representa cada uno de los datos ordenados en forma creciente, i=1,2,n Se define el rango como: R = X(n) X(1) Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, el rango es: R = 11 - 2 = 9 VARIANZA O VARIANCIA MUESTRAL Esta medida cuantifica el total de las distancias de los datos con respecto al valor de la media

    n2

    i2 i 1

    (X X)

    n 1=

    =

    S (4.3)

    El motivo que en el denominador se escriba n 1 en lugar de n (que parece natural), se entender en cuando estudiemos formalmente la estadstica inferencial. Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, y se tiene que X = 7, entonces la varianza es

    S2 = + + + 2 2(2 7) (6 7) ... (4 7)

    5

    2

    = 13.6

    Para el clculo se puede usar la siguiente frmula alterna cuya equivalencia puede demostrarse mediante desarrollo de las sumatorias

    n n2 2i i

    2 i 1 i 1n X ( X )

    n(n 1)= =

    =

    S (4.4)

    DESVIACIN ESTNDAR Es la raz cuadrada positiva de la variancia. La desviacin estndar (desviacin tpica) est expresada en las mismas unidades de medicin que los datos = + 2SS (4.5) Para el ejemplo anterior, S = 13.6 = 3.6878 CUANTILES Son nmeros que dividen al grupo de datos ordenados, en grupos de aproximadamente igual cantidad de datos. CUARTILES Cada grupo tiene aproximadamente el 25% de los datos Primer Cuartil (Q1) A la izquierda de Q1 estn incluidos 25% de los datos A la derecha de Q1 estn el 75% de los datos (aproximadamente) Segundo Cuartil (Q2) Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50% de los datos

  • Tercer Cuartil (Q3) A la izquierda de Q3 estn incluidos 75% de los datos A la derecha de Q3 estn el 25% de los datos Ejemplo. Suponer que una muestra contiene 40 datos ordenados: X(1), X(2), ... , X(40). Calcular Q1, Q2, Q3 Q1: 25% de 40 = 10 Por lo tanto: Q1 = (X(10) + X(11))/2 Q2: 50% de 40 = 20 Por lo tanto: Q2 = (X(20) + X(21))/2 Q3: 75% de 40 = 30 Por lo tanto Q3 = (X(30) + X(31))/2 DECILES Dividen al grupo de datos en grupos de aproximadamente 10% de los datos Primer Decil (D1) A la izquierda de D1 estn incluidos 10% de los datos (aproximadamente) A la derecha de D1 estn el 90% de los datos (aproximadamente) Segundo Decil (D2) A la izquierda de D2 estn incluidos 20% de los datos (aproximadamente) A la derecha de D2 estn el 80% de los datos (aproximadamente) Etc. Ejemplo. Suponer que una muestra contiene 40 datos ordenados: X(1), X(2), ... , X(40). Calcular D1 D1: 10% de 40 = 4 Por lo tanto: D1 = (X(4) + X(5))/2 PERCENTILES Dividen al grupo de datos en grupos de aproximadamente 1% de los datos Primer Percentil (P1) A la izquierda de P1 estn incluidos 1% de los datos (aproximadamente) A la derecha de P1 estn el 99% de los datos (aproximadamente) Segundo Percentil (P2) A la izquierda de P2 estn incluidos 2% de los datos (aproximadamente) A la derecha de P2 estn el 98% de los datos (aproximadamente) Etc. Ejemplo. Suponer que una muestra contiene 400 datos ordenados: X(1), X(2), ... , X(400). Calcular P1, P82 P1: 1% de 400 = 4 Por lo tanto: P1 = (X(4) + X(5))/2 P82: 82% de 400 = 328 Por lo tanto: P82 = (X(328) + X(329))/2

  • COEFICIENTE DE VARIACIN Para comparar la variabilidad de los datos de diferentes grupos, es adecuado definir una medida adimensional, el coeficiente de variacin v:

    v = SX

    (4.6)

    Ejemplo: Para un grupo de datos X = 20, S = 4, entonces v = 4/20 = 0.2 = 20% Para un segundo grupo X = 48, S = 6, entonces v = 6/48 = 0.125 = 12.5% Se concluye que el segundo grupo tiene mayor variabilidad (respecto a su media)

    FRMULAS PARA DATOS AGRUPADOS Si los datos estn disponibles en una Tabla de Frecuencia, se pueden usar frmulas para calcular algunas de las medidas estadsticas en forma aproximada

    Suponer que se tiene la Tabla de Frecuencia Clase

    i Marca de clase

    miFrecuencia

    fi1 m1 f12 m2 f2... ... ... ... ... ... k mk fk

    n: nmero de datos k: nmero de clases mi: marca de la clase i (es el centro del intervalo de la clase) fi: frecuencia de la clase i

    Media de n datos agrupados: X =k

    i ii 1

    1 m fn = (4.7)

    Varianza de n datos agrupados: k

    2 2i i

    i 1

    1S f (mn 1 =

    = X) (4.8) EJERCICIOS DE COMPRENSIN DEL MATERIAL ESTUDIADO 1) Demuestre mediante propiedades de las sumatoria que las frmulas (4.3) y (4.4) son matemticamente equivalentes. 2) Con las frmulas (4.1) y (4.3) de esta Unidad, calcule X y S2 usando los datos del ejercicio asignado en la Unidad 2. 3) Con las frmulas (4.7) y (4.8) de esta Unidad, calcule X y S2 usando los datos de la tabla de frecuencia del ejercicio asignado en la Unidad 2. Comente Por que los resultados no son exactamente iguales? 4) Se tiene los siguientes datos de la cantidad de barriles por da que producen 45 pozos petroleros en un campo: cantidad mnima: 52; cantidad mxima 247; primer cuartil 87; mediana 163; tercer cuartil 204. Grafique la Ojiva con la mayor precisin que le sea posible. 5) Respecto al problema anterior. Una compaa est interesada en comprar solamente los pozos que produzcan mas de 100 barriles por da y pagar $150000 por cada uno. Cuanto le costara la inversin aproximadamente?

    FRMULAS PARA DATOS AGRUPADOSSuponer que se tiene la Tabla de Frecuencia