Estadistica descriptiva

34
Es la parte de la estadística que se encarga de la recopilación, organización, resumen, análisis, interpretación y comunicación numérica. DISTRIBUCION DE FRECUENCIAS: Es una tabla que divide un conjunto de datos en un número de clases (categorías) apropiadas, mostrando también el número de elementos de cada clase. La tabla sacrifica parte de la información contenida en los datos; en lugar de conocer el valor exacto de cada elemento, solo sabemos que pertenece a una determinada clase. Por otra parte este tipo de agrupamiento hace resaltar características importantes de los datos y ESTADISTICA DESCRIPTIVA

description

estadistica

Transcript of Estadistica descriptiva

  • Es la parte de la estadstica que se encarga de la recopilacin, organizacin, resumen, anlisis, interpretacin y comunicacin numrica.

    DISTRIBUCION DE FRECUENCIAS:Es una tabla que divide un conjunto de datos en un nmero de clases (categoras) apropiadas, mostrando tambin el nmero de elementos de cada clase. La tabla sacrifica parte de la informacin contenida en los datos; en lugar de conocer el valor exacto de cada elemento, solo sabemos que pertenece a una determinada clase. Por otra parte este tipo de agrupamiento hace resaltar caractersticas importantes de los datos y lo que se gana en legibilidad compensa con creces la perdida de la informacin.ESTADISTICA DESCRIPTIVA

  • Existen distribuciones numricas, donde los datos se hallan agrupados por su tamao y distribucin categrica, si se hallan agrupados de acuerdo a alguna cualidad. Nosotros solo trataremos con distribuciones numricas.

    CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIAS:Determinar el nmero de clases o intervalos.Elegir los lmites de cada intervalo.Colocar las marcas de clase.Determinar el nmero de observaciones en cada intervalo.(f)Determinar las frecuencias relativas (h).Determinar las frecuencias relativas porcentuales (h%)Determinar las frecuencias absolutas acumuladas (F)Determinar las frecuencias relativas acumuladas (H)Determinar las frecuencias relativas acumuladas porcentuales (H%)

  • Ejemplo1.- Se tomaron datos de los de los caudales picos anuales en un ro de la sierra. Se pide:a) Ordenar los datos en una tabla de frecuencias.b) Graficar el histograma y polgono de frecuenciasc) Graficar la funcin escalonada y la ojiva correspondiented) Calcular la media, mediana y modae) Calcular Q1; d2 y P38f) calcular la varianza, desviacin estndar y el coeficiente de variacin

  • Datos sueltos

    75276566068060090555578048085079079047589099082580054887589081076588090061054012007237406476527351090400910825980582535800805565830895810570845621695675788105010404107007356407256217958357806708906527401000690789648720540590793920728590720535560

  • Datos Ordenados

    40056064069574079383590541056564770075279584591047557064872076580085092048058265272076580087598053559065272378080588099053559066072578081089010005406006707287888108901040540610675735789825890105054862168073579082589510905556216907407908309001200

  • Definimos el nmero de intervalos y el ancho de clase El nmero de intervalos: K = 1 + 3.3 log nn = nmero de datos, entonces K = 1 + 3.3 log 80 = 7.28K puede ser 7, 6 8, el entero que mas nos convenga, de modo que W no tenga muchos decimales.

    El dato mayor es 1200 m3/seg y el dato menor es 400 m3/seg, entonces la diferencia ser:A = 1200 - 400= 800Determinamos el ancho de cada intervalo: W = A/K = 800/8 = 100

    La tabla de frecuencias ser la que se muestra a continuacin

  • La tabla de frecuencias ser:

    Intervalo Marca deFrecuenciaFrecuenciaF.acumul.F. acumu.F.relativaF.relat.acu.claseAbsolutaRelativaabsolutarelativaporcentualporcentualLi - Li+1XihihiFiHihi %Hi %400 - 50045040.050040.05005.005.00500 - 600550120.1500160.200015.0020.00600 - 700650150.1875310.387518.7538.75700 - 800750210.2625520.650026.2565.00800 - 900850170.2125690.862521.2586.25900 - 100095060.0750750.93757.5093.751000 - 1100105040.0500790.98755.0098.751100 - 1200115010.0125801.00001.25100.00801.0000100.00

  • GRAFICOS DE LAS DISTRIBUCIONES DE FRECUENCIA.

    Histogramas: Son rectngulos adyacentes, cuyas alturas representan las frecuencias de clase y su base se extiende entre fronteras de clases sucesivas.

    Polgonos de Frecuencia: Son polgonos que se forman al unir los puntos medios de los techos del histograma.

    Diagrama Escalonado: Son rectngulos adyacentes, cuyas bases representan los intervalos de clase y las alturas las frecuencias absolutas o relativas acumuladas.

    Ojivas: Son los polgonos de frecuencia que se grafican sobre el diagrama escalonado

  • Histograma y Poligono de Frecuencia

  • Funcin Escalonada y Ojiva

  • Ejemplos

  • Ejemplos

  • ESTADIGRAFOS DE POSICIONSon nmeros que representan alguna medida central de los datos. Entre ellos tenemos: Media aritmtica (x): Es el promedio de todos los datos.

    x = xifi = E(x) ni

    Propiedades de la media:1. Si x=c entonces E(x) = E(c) = c

    2. Si x=y+c entonces E(x)= E(y+c)= E(y) + E(c) = Y + c

    3. Si x=by entonces E(x) = E(by) = bY

  • 2. Mediana (me); Es aquel valor que se encuentra en la mitad de una muestra cuyos valores estn ordenados en orden de magnitud.

    me = X(n+1)/2si n es impar

    me= Xn/2 + X(n+2)/2si n es par 2

    Para datos clasificados la mediana se calcula as:

    Xm = Lm + Wm(n/2 Fm-1) = Lm + Wm(0.5 Hm-1) Fm- Fm-1 Hm - Hm-1Donde:Lm = Lmite inferior de la clase medianaFm-1 = Frecuencia absoluta acumulada hasta la clase inmediata anterior a la mediana.Wm =Ancho de clase de la clase mediana.

  • Clase mediana: Es el intervalo que contiene a la mediana. Es aquella donde las frecuencias acumuladas absolutas o relativas superan o igualan por primera vez a la mitad de los datos.

    3. Moda (Mo): Es el valor que aparece con mayor frecuencia en un grupo de datos. Un grupo de datos puede no tener ninguna moda o tener mas de una, en cambio la media y la mediana para un grupo de datos siempre existen y son nicas.

    Para datos sueltos solo se elige el de mayor frecuencia.

  • Para datos agrupados:

    Mo = Li + Wi (1 / 1 + 2) donde:

    Li = Limite inferior de la clase modalWi = Ancho de clase de la clase modal1 = Exceso de la frecuencia modal sobre la frecuencia de la clase inmediata inferior1 = ni (ni 1)2 = Exceso de la frecuencia modal sobre la frecuencia de la clase inmediata posterior2 = ni (ni+1)

  • Clase modal: Es el intervalo que contiene la frecuencia mxima

    Nota: Generalmente la media es preferida a cualquier otra media, pero hay algunos casos en que es necesario calcular la mediana: Cuando no se puede calcular la media y cuando entre el conjunto de datos hay alguno que est alejado, lo cual puede tratarse de un dato errado y alterara el calculo de la media

  • Calculo de la media, mediana y moda

    Li - Li+1XinihiNiHiXiniXihi400 - 50045040.050040.05001800.0022.50500 - 600550120.1500160.20006600.0082.50600 - 700650150.1875310.38759750.00121.88700 - 800750210.2625520.650015750.00196.88800 - 900850170.2125690.862514450.00180.63900 - 100095060.0750750.93755700.0071.251000 - 1100105040.0500790.98754200.0052.501100 - 1200115010.0125801.00001150.0014.38801.000059400.00742.50

  • Calculo de Estadigrafos de Posicin

    Media =

    =

    =

    _1105889074.unknown

    _1312704089.unknown

    _1105888861.unknown

    Mediana =

    =

    EMBED Equation.3

    _1105890805.unknown

    _1312704046.unknown

    _1105889815.unknown

    Moda=

    =

    _1109837309.unknown

    _1312704318.unknown

  • Calculo de Estadigrafos de Dispercin

    Li - Li+1Xinihi400 - 50045040.050020250010125.00500 - 600550120.150030250045375.00600 - 700650150.187542250079218.75700 - 800750210.2625562500147656.25800 - 900850170.2125722500153531.25900 - 100095060.075090250067687.501000 - 1100105040.0500110250055125.001100 - 1200115010.0125132250016531.25801.0000575250.00

  • Calculo de Estadigrafos de Dispercin

  • Calculo de la media y la varianza, usando el mtodo abreviado:

    Li - Li+1XinihiUiUi hi400 - 50045040.0500-3-0.15000.4500500 - 600550120.1500-2-0.30000.6000600 - 700650150.1875-1-0.18750.1875700 - 800750210.262500.00000.0000800 - 900850170.212510.21250.2125900 - 100095060.075020.15000.30001000 - 1100105040.050030.15000.45001100 - 1200115010.012540.05000.2000801.0000-0.07502.4000

  • Calculo de la mediaElegimos el origen de trabajo Ot (marca de clase), en el ejemplo Ot =750Se calcula los Luego calculamos

  • Calculo de la varianzaFinalmente calculamos V(X)

  • 4. Cuantilas o Fractilas: Son estadgrafos que cumplen con la condicin de superar a no mas de cierto porcentaje de las observaciones y de ser superado a lo sumo por el porcentaje complementario de las observaciones. Las cuantilas que estudiaremos son:

    Cuartiles: Dividen a un conjunto de datos, ordenados por su magnitud en cuatro partes iguales.

    Deciles: Dividen a un conjunto de datos ordenados por su magnitud en 10 partes iguales.

    Percentiles: Dividen a un conjunto de datos ordenados por su magnitud en 100 partes iguales.

  • RELACION ENTRE LA MEDIA MEDIANA Y MODA DE UNA DISTRIBUCION UNIMODAL

    Si X = Xm = Mo La distribucin es simtrica Si Mo < Xm < X La distribucin es asimtrica y sesgada a la derecha Si X < Xm < Mo La distribucin es asimtrica y sesgada a la izquierda

    ESTADIGRAFOS DE DISPERSION

    Son los que miden la variabilidad que hay entre los datos. Estudiaremos la varianza, la desviacin estndar y el coeficiente de variacin.

    VarianzaV(x) = E((X X)) = (Xi X)ni = xini X = ni ni

    Propiedades de la varianza:V(x+b) = V(x)V(ax) = aV(x)V(ax+b) = aV(x)

  • b) Desviacin estndar

    Sx = V(x)

    c) Coeficiente de variacin

    c.v. = Sx X

  • d) ndices de asimetra

    Si quieres cuantificar la simetra, es necesario conservar la informacin acerca tanto del signo como de la distancia de cada dato a la media centro de simetra-. Este razonamiento lleva a utilizar una potencia impar de las desviaciones.

    En l caso en que el coeficiente valga cero la distribucin es simtrica alrededor de la media. Los valores positivos, indicaran distribuciones con mayor sesgo a la derecha y los valores negativos indicarn un mayor sesgo a la izquierda.

  • Existen varias medidas de asimetra, mencionaremos dos de ellas:

    D 1) Coeficiente de Asimetra de Pearson

    As = X Mo = 3(X Me) ss

    D 2) ndice de Asimetra de Fisher

    As = hi(Xi X)s

  • e) Coeficiente de apuntamiento o curtosis

    Describe lo picuda o plana que es la distribucin, es decir si los datos se concentran demasiado o no, comparados con un modelo de distribucin llamado distribucin normal.

    La distribucin se denominar leptocrtica cuando el CAp > 0 (ms apuntada que la normal)

    La distribucin se denominar mesocrtica cuando el Cap = 0 (normal)

    La distribucin se denominar platicrtica cuando Cap < 0 (menos apuntada que la normal)

  • e 1) Curtosis basado en percentiles

    K = P75 P25 0.5 P90 P10

    Interpretacin: Si la distribucin es normal, K tiende a 0. Si K tiende a 0.5 es leptocrtica y si K tiende a -0.5, es platicrtica.

    e 1) Curtosis utilizando momentos

    K = hi(Xi X) 3 S

    44

  • f) Rango intercuartlico:

    El Rango intercuartlico RI es, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir.

    RI = Q3 Q1

    Esto nos dice en cuntas unidades de los calores que toma la variable se concentra el cincuenta por ciento central de los casos.

    *