Descript Iva

download Descript Iva

of 34

Transcript of Descript Iva

  • 5/28/2018 Descript Iva

    1/34

    Clculo y EstadsTICa. Primer Semestre.EstadsTICa

    Curso Primero

    Graduado en Geomtica y Topografa

    Escuela Tcnica Superior de Ingenieros en Topografa, Geodesia y Cartografa.

    Universidad Politcnica de Madrid

    Captulo I

    ESTADSTICA DESCRIPTIVA

    Manuel Barrero Ripoll. M ngeles Castejn Solanas.

    M Luisa Casado Fuente. Luis Sebastin Lorente.

    Departamento de Ingeniera Topogrfica y Cartografa

    Universidad Politcnica de Madrid

  • 5/28/2018 Descript Iva

    2/34

    2-I

  • 5/28/2018 Descript Iva

    3/34

    I. ESTADSTICA DESCRIPTIVA

    3-I

    1.1Conceptos generales 5

    1.2Tipos de variable estadstica 5

    1.3 Distribucin de frecuencia. Sumario estadstico 6

    1.4 Agrupacin en intervalos 9

    1.5 Representaciones grficas 10

    1.5.1 Representacin grfica de variables estadsticas discretas 11

    1.5.1.1 Diagrama de barras

    1.5.1.2 Polgono de frecuencia

    1.5.1.3 Polgono de frecuencias acumuladas

    1.5.2 Representacin grfica de variables estadsticas discretas con valores

    agrupados en intervalos 12

    1.5.2.1 Histograma de frecuencias

    1.5.2.2 Polgono de frecuencias

    1.5.2.3 Polgono de frecuencias acumuladas

    1.5.3 Representacin grfica de variables estadsticas cualitativas 14

    1.5.3.1 Diagrama de barras

    1.5.3.2 Diagrama de sectores

    1.6 Los grficos en EXCEL 15

    1.7 Parmetros estadsticos. Introduccin 17

    1.8 Medidas de posicin y centralizacin 18

    1.8.1 Moda

    1.8.2 Mediana

    1.8.3 Cuantiles

    1.8.4 Media aritmtica. Propiedades

    1.9 Clculo con EXCEL de los parmetros de posicin y tendencia central de un

    conjunto de datos individualizados 23

  • 5/28/2018 Descript Iva

    4/34

    4-I

    1.10 Medidas de Dispersin 25

    1.10.1 Rango de la variable estadstica

    1.10.2 Rango intercuartlico

    1.10.3 Varianza y desviacin tpica. Propiedades

    1.10.4 Cuasivarianza o Varianza muestral. Propiedades

    1.10.5 Coeficiente de variacin de Pearson. Propiedades

    1.11 Clculo con EXCEL de los parmetros de dispersin de un conjunto de datos

    individualizados 28

    1.12 Momentos 28

    1.12.1 Relaciones entre los momentos

    1.12.2 Clculo con EXCEL de los parmetros estadsticos cuando los datos

    estn agrupados

    1.13 Medidas de forma 29

    1.13.1 Coeficiente de asimetra de Pearson

    1.13.2 Coeficiente de asimetra de Fisher

    1.13.3 Coeficiente de apuntamiento o curtosis

    1.14 Errores en las observaciones 32

    1.14.1 Valores atpicos. Outliers

    1.14.2 Grficos de caja. Boxplot

  • 5/28/2018 Descript Iva

    5/34

    UNIVERSIDAD POLITCNICA DE MADRID I. ESTADSTICA DESCRIPTIVA

    Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa 5-I

    1.1Conceptos generales.La Estadstica es la ciencia que trata de la teora y de la aplicacin de mtodos apropiados

    para representar, resumir y analizar datos, as como realizar inferencias o pronsticos a partirde los mismos.

    Por su enfoque, se puede clasificar en Estadstica Descriptiva e Inferencia Estadstica.

    LaEstadstica Descriptivatiene como objetivo el tratamiento numrico y grfico de los datosprocedentes de un colectivo, con objeto de describir o resaltar algunas de las propiedades dedicho colectivo.

    El objetivo de laInferencia Estadstica es el estudio de las tcnicas que permiten larealizacin de pronsticos sobre la poblacin a partir de una muestra.

    Para el estudio de la estadstica descriptiva, comenzamos abordando los siguientes conceptos:o Poblacin y Muestra.o Variable estadstica.o Frecuencias y distribuciones estadsticas.o Representaciones grficas.

    Poblacin y Muestra

    o Una poblacin estadstica es un conjunto de elementos del cual nos interesa estudiaralguna caracterstica comn.

    o Unamuestraes un subconjunto de la poblacin estadstica.oLa caracterstica comn que estudiamos de una poblacin se denomina variable

    estadstica. La variable estadstica presentara diversas modalidades que sern losposibles valores que puede tomar la variable.

    De una poblacin de marcas de coche podemos estudiar entre otras las siguientes

    variables estadsticas:

    1.2 Tipos de variable estadstica.Segn sea la naturaleza de los valores, la variable

    estadstica puede clasificarse en dos grupos:

    [email protected]

    Variable estadstica Carrocera

    Modalidades

    Berlina.

    Todo terreno.

    Familiar.

    Variable estadstica Combustible

    Modalidades

    Gasolina 95.

    Gasolina 98.

    Gasoil

    Potencia en c.v.

    65, 83, 92, 115, 130,

    Anchura del vehculo (mm)

    1670, 1725, 1810,

    Tabla 1.1

  • 5/28/2018 Descript Iva

    6/34

    6-I

    Cualitativas. Cuando los valores que toma la variable no son numricos.

    o La carrocera de un vehculo (variable estadstica).

    Berlina, Todo terreno, Familiar (valores o modalidades)

    Cuantitativas. Cuando los valores que toma la variable son nmeros reales.o Potencia en c.v. (variable estadstica).

    65, 83, 92, 115, 130, (valores o modalidades)

    Las variables cuantitativas se clasifican en discretas y continuas.

    Una variable estadstica cuantitativa es discretasi sus posibles valores pertenecen a

    un conjunto numerable. El caso ms frecuente es aqul en que los posibles valores son

    nmeros naturales; por ejemplo, el nmero de asientos de un cochees una variable estadstica

    discreta.

    Una variable estadstica cuantitativa es continuasi sus posibles valores pertenecen

    a un conjunto no numerable, en general valores de o de un intervalo de ; por ejemplo, la

    anchura del vehculoes una variable estadstica continua

    1.3 Distribucin de Frecuencia. Sumario estadstico. El estudio de lasdistribuciones de frecuencia tiene como objeto construir tablas verticales u horizontales que se

    utilizarn para una mejor presentacin e interpretacin de los datos obtenidos en la muestra.

    En la primera columna (fila) se escriben los valores de la variable y en la segunda el nmero

    de veces que se repite el valor de la variable.

    Se distinguen cuatro tipos de frecuencias:

    o Frecuencia absoluta ni.o Frecuencia relativa fi.o Frecuencia absoluta acumulada Ni.o Frecuencia relativa acumulada Fi.

    Frecuencia absoluta del valor xi .Llamamos frecuencia absoluta (ni)del valor xide unavariable estadstica X, al nmero nide veces que se repite el valor xi.

    La suma de todas las frecuencias absolutas, es el nmero total de elementos

    que componen la muestra y que representamos por n.

    k

    1 2 k i

    i 1

    n n ... n n n=

    + + + = =

    La tabla (1.3.1) formada por los valores de la variable junto con sus

    respectivas frecuencias absolutas se denomina distribucin de frecuencias

    absolutas.

    [email protected]

    ix in

    1x 1n

    2x 2n

    .

    .

    .

    .

    kx kn

    nTabla 1.3.1

  • 5/28/2018 Descript Iva

    7/34

    I. ESTADSTICA DESCRIPTIVA

    7-I

    La distribucin de frecuencias absolutas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:

    La frecuencia absoluta del valor xi=3es ni=4. Se ha obtenido cuatro veces el valor tres.

    Frecuencia relativa del valor xi . Llamamos frecuencia relativa(fi)del valor xide unavariable estadstica X, al cociente entre la frecuencia absoluta y el nmero n de elementos que

    componen la muestra.

    ii

    nf

    n=

    La suma de todas las frecuencias relativas es igual a la unidad.

    k ki

    i 1 k

    i 1 i 1

    nf f ... f 1

    n= == = + + =

    La tabla (1.3.3), formada por los valores de la variable junto con sus respectivas frecuencias

    relativas, se denomina distribucin de frecuencias relativas.

    La distribucin de frecuencias relativas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:

    La frecuencia relativa del valor xi= 3es fi = 0.4. El valor 3 aparece en la proporcin de 4/10 y,por consiguiente, el 40% de las veces.

    Frecuencia absoluta acumulada Ni . Lamamos frecuenciaabsoluta acumulada (Ni) del valor xi de una variable estadstica X, a lasuma de las frecuencias absolutas de los valores inferiores o iguales a x i,

    por tanto,i

    i j

    j 1

    N n=

    = y se verifica kN n=

    La tabla (1.3.6) es la distribucin de frecuencias absolutas acumuladas de

    la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.

    La frecuencia absoluta acumulada del valor x=3es Ni=9. Se han obtenidonueve veces valores menores o iguales que 3.

    [email protected]

    ix 1 2 3 4

    in 3 2 4 1Tabla 1.3.2

    Xi fi

    x1 f1

    x2 f2

    .

    .

    .

    .xk fk

    1Tabla 1.3.3

    Xi 1 2 3 4fi 0.3 0.2 0.4 0.1

    Tabla 1.3.4

    Xi Ni

    1x 1N

    2x 2N

    .. ..

    kx kN n= Tabla 1.3.5

    Xi Ni1 3

    2 5

    3 9

    4 10Tabla 1.3.6

  • 5/28/2018 Descript Iva

    8/34

    8-I

    Frecuencia relativa acumulada Fi . Llamamos frecuencia relativa acumulada (Fi)del valor xial cociente entre la frecuencia absoluta acumulada Niy el n total de elementos n,

    as pues

    ii

    NF

    n

    =

    y se verifica kF 1= .

    La tabla (1.3.8) es la distribucin de frecuencias relativas

    acumuladas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.

    La proporcin de valores menores o iguales que 3es 0.9 y, por tanto, el 90%.

    Tambin es frecuente usar una tabla llamada sumario

    estadstico, en la que aparecen los valores de la variable junto

    con los valores de los distintos tipos de frecuencia.

    El sumario estadstico para la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}

    puede adoptar la forma de la tabla (1.3.9).

    Las distribuciones y tablas anteriores se utilizan cuando se realizan pocas observaciones y, por

    tanto, la variable tiene pocos valores distintos; o, aunque haya un gran nmero de

    observaciones, existen pocos valores de la variable distintos. Cuando los distintos valores de

    la variable son muchos, las tablas anteriores no son eficaces ya que su comprensin es ms

    difcil a medida que aumenta el nmero de valores distintos de la variable. Es por ello que se

    debe agrupar la variable en intervalos adecuadamente elegidos, y en tal caso, se dice que la

    variable es continua por intervalos.

    Ejemplo 1.-Los siguientes valores, proceden de un examen realizado a 80 estudiantes, y cuyorango terico de valores es de 0 a 10.

    Observamos que hay una gran cantidad de valores distintos, por ello, agrupamos los datos en

    intervalos como se puede observar en la tabla (1.3.10). De esta forma, la presentacin de los

    datos y de los grficos son ms fciles de asimilar.

    [email protected]

    Xi Fi

    1x 1F 2x 2F

    .

    ...

    kx kF 1= Tabla 1.3.7Xi 1

    2 3 4

    Fi 0.3 0.5 0.9 1Tabla 1.3.8

    Xi ni fi Ni Fi

    1 3 0.3 3 0.3

    2 2 0.2 5 0.5

    3 4 0.4 9 0.9

    4 1 0.1 10 1

    10 1Tabla 1.3.9

    3.6 4.3 4.5 4.6 4.6 4.8 4.9 4.9 5.0 5.1 5.8 4.4 4.5 5.0 5.6 4.6

    4.9 5.0 5.0 5.1 3.9 4.3 4.5 4.6 4.7 4.8 5.3 4.6 5.2 4.9 5.8 4.8

    4.5 4.6 4.8 4.9 4.9 5.0 5.1 5.1 5.5 5.6 5.2 4.3 4.8 4.9 4.3 5.3

    5.5 4.6 5.1 5.3 5.0 3.8 4.9 5.3 5.7 5.7 5.2 5.2 5.0 5.2 5.4 5.1

    5.4 5.3 5.9 6.0 6.1 6.0 6.3 5.8 5.9 5.8 5.2 4.6 5.1 4.2 5.3 4.0

  • 5/28/2018 Descript Iva

    9/34

    I. ESTADSTICA DESCRIPTIVA

    9-I

    1.4 Agrupacin en intervalos. Para elaborar y entender este tipo de agrupacionesnecesitamos primeramente estudiar algunas nuevas definiciones y establecer algunos criterios

    previos.

    Llamamos 0 1 2 k e e e ... e< < < < a los extremos de los intervalosen

    los que agrupamos la variable estadstica.

    Definimos amplitud del intervalo ai como la diferencia

    i i i 1a e e = . El punto medio xi de cada intervalo se denomina

    centro o marca del intervalo i i 1i

    e ex

    2

    += .

    Definimos rango o recorrido de la variable como la diferencia

    entre el valor mximo y el valor mnimo de la variable.

    Designamos por (ni)al nmero de observacionesque quedan dentro del intervalo [ )i 1 ie , e .

    La agrupacin de los datos en intervalos tiene la ventaja de simplificar los clculos y el

    inconveniente de la prdida de informacin ya que, una vez que los valores son introducidos

    en un mismo intervalo, pierden su valor real y asumen como valor el valor central del

    intervalo. Por ello, debemos elegir los intervalos de forma que se equilibren los aspectos de

    simplicidad y prdida de informacin. Lo cual nos lleva a introducir algunas cuestionessubjetivas y que a continuacin exponemos.

    Realizacin de las agrupaciones. Para evitar la prdida de informacin es conveniente(aunque no necesario) que se verifiquen las reglas siguientes:

    Los intervalos deben tener la misma amplitud. La anchura de cada intervalo se

    obtendr redondeando por exceso el cociente que resulte de dividir el rango de la variable

    entre el nmero de intervalos elegido.

    Aunque no existe una regla fija, recomendamos construir un nmero de intervalos

    prximo a n o al nmero 101 3.3log (n)+ , y nunca ms de 22 intervalos.

    [email protected]

    Intervalo xi ni fi Ni Fi[3.5 4) 3.75 3 3/80 3 3/80

    [4 4.5) 4.25 7 7/80 10 10/80

    [4.5 5) 4.75 26 26/80 36 36/80[5 5.5) 5.25 28 28/80 64 64/80

    [5.5 6) 5.75 12 12/80 76 76/80

    [6 6.5] 6.25 4 4/80 80 1

    Sumas 80 1Tabla 1.3.10

    Intervalo xi ni

    [eo - e1) x1 n1

    [e1 - e2) x2 n2

    ... ... ...

    [ei-1 - ei) xi ni

    ... ... ...

    [ek-1 - ek] xk nk

    Tabla 1.4.1

  • 5/28/2018 Descript Iva

    10/34

    10-I

    Para que los grficos y tablas sean ms fciles de comprender, es conveniente tomar

    intervalos de forma que las amplitudes sean mltiplos o submltiplos de 5 o de 10.

    Los intervalos deben solaparse sin ambigedad. El criterio que seguiremos ser

    tomar intervalos de la forma [a, b), o bien, aadimos en los extremos un decimal ms que losutilizados por los valores de la muestra.

    Los intervalos deben ser homogneos, es decir, no deben existir intervalos con ms

    del 30% ni menos del 5% del total de datos.

    Es importante que no existan intervalos con frecuencia cero.

    En el ejemplo del examen realizado a los 80 estudiantes, los valores mximo y mnimo son 6.3

    y 3.6 respectivamente, as pues, el rango de la variable es: r = 6.3 3.6 = 2.7

    Deseamos intervalos con amplitudes mltiplos o submltiplos de 5 y extremos de fcil lectura,

    para ello, si redondeamos el rango a 3 y tomamos e0=3.5 con 6 intervalos, obtenemos

    intervalos de amplitud 0.5.

    As pues, tomamos como extremo inferior del primer intervalo 3.5, y el valor 6.5 como

    extremo superior del ltimo intervalo (rango 3). Observen que de esta forma la amplitud de

    cada intervalo es 0.5, los intervalos son homogneos, no existen intervalos de frecuencia cero

    y las notas superiores e inferiores a 5 quedan separadas.

    Procediendo de esta forma hemos obtenido el sumario estadstico de la tabla (1.4.2).

    1.5 Representaciones grficas.Una buena representacin grfica, junto con las tablasde frecuencias anteriormente citadas, permiten captar rpidamente las caractersticas de la

    muestra as como resumir y analizar los datos. De las muchas formas de representacin grfica

    que existen, estudiaremos algunas de las ms utilizadas y cmo se realizan con EXCEL.

    Segn sean los datos, las grficas se pueden clasificar en:

    De Caracteres Cuantitativos.Variables estadsticas discretas.

    [email protected]

    Intervalo xi ni fi Ni Fi[3.5 4) 3.75 3 3/80 3 3/80[4 4.5) 4.25 7 7/80 10 10/80[4.5 5) 4.75 26 26/80 36 36/80[5 5.5) 5.25 28 28/80 64 64/80[5.5 6) 5.75 12 12/80 76 76/80[6 6.5] 6.25 4 4/80 80 1Sumas 80 1

    Tabla 1.4.2

  • 5/28/2018 Descript Iva

    11/34

    I. ESTADSTICA DESCRIPTIVA

    11-I

    Diagrama de barras. Polgonos de frecuencias. Polgonos de frecuencias

    acumuladas.

    Variables estadsticas discretas con frecuencias agrupadas en intervalos.

    Histogramas. Polgonos de frecuencias. Polgonos de frecuencias acumuladas.

    De Caracteres Cualitativos.

    Diagrama de barras. Diagrama de sectores. Pictogramas.

    1.5.1Representaciones grficas de las variables estadsticas discretas

    1.5.1.1Diagrama de barras. Para la construccin de este grfico se parte de un sistema de ejescoordenados: en el eje horizontal se representan los valores de la variable X i y en el eje

    vertical los valores de las frecuencias absolutas ni(o relativas fi). Este grfico se puede realizar

    mediante barras horizontales o verticales (columnas). La longitud de cada una de las barras

    representa la frecuencia absoluta o frecuencia relativa de cada valor.

    Ejemplo 2. La tabla (1.5.1) representa la puntuacin obtenida en un test de 10 preguntas

    realizado a 45 alumnos.

    En el grfico (1.5.1) representamos el diagrama de columnas (barras verticales)correspondiente al test realizado por los 45 alumnos del ejemplo 2.

    En caso de utilizarse para comparar muestras distintas de una misma variable, se debe tener

    precaucin, ya que, en este caso, debemos usar frecuencias relativas para eliminar la

    influencia visual que ejerce el tamao de cada una de las muestras.

    1.5.1.2 Polgono de frecuencias. Su construccin se realiza representando en un sistema de

    ejes coordenados los puntos i i(x ,n ) o i i(x , f ) , dependiendo de que se quiera representar elpolgono de frecuencias absolutas o el polgono de frecuencias relativas, unindose a

    continuacin dichos puntos mediante una [email protected]

    Puntuacin 0 1 2 3 4 5 6 7 8 9 10

    N de alumnos 1 2 3 5 9 6 5 5 4 3 2Tabla 1.5.1

    0

    2

    4

    6

    8

    10

    0 1 2 3 4 5 6 7 8 9 10

    Grfico 1.5.1

    Diagrama de barras de frecuencias absolutas ni

  • 5/28/2018 Descript Iva

    12/34

    12-I

    El grfico (1.5.2) representa el polgono de frecuencias absolutas de los resultados del test del

    ejemplo 2 de la pgina 12.

    1.5.1.3 Polgono de frecuencias acumuladas. Se realiza de forma anloga al polgono de

    frecuencias, pero utilizando los puntos (xi, Ni) o (xi, Fi), segn se quiera representar elpolgono de frecuencias absolutas acumuladas o de frecuencias relativas acumuladas. A

    continuacin se unen de forma escalonada los puntos representados.

    La tabla (1.5.2) y el grfico (1.5.3) representan la distribucin de frecuencias absolutas

    acumuladas y el polgono de frecuencias absolutas acumuladas del resultado del test del

    ejemplo 2 de la pgina 12.

    1.5.2Representaciones grficas de variables estadsticas discretas con valores agrupados enintervalos

    1.5.2.1Histograma de frecuencias. Se utiliza para representar datos que han sido agrupadosen intervalos. Se construye de forma anloga al diagrama de barras pero levantando para cada

    intervalo un rectngulo. En este grfico los rectngulos tienen que solaparse (variable

    agrupada en intervalos)y el rea de cada rectngulo ser proporcional a la frecuencia (n io fi)

    del intervalo.

    Si los intervalos son de igual amplitud, la altura h ide cada rectngulo ser igual a la frecuencia

    (nio fi) ya que el rea solo depender de la altura.

    Puntuacin Ni0 1

    1 32 6

    3 11

    4 20

    5 26

    6 31

    7 36

    8 40

    9 43

    10 45Tabla 1.5.2

    0

    2

    4

    6

    8

    10

    0 1 2 3 4 5 6 7 8 9 10

    Polgono de frecuencias absolutas ni

    Grfico 1.5.2

    0

    10

    20

    30

    40

    50

    0 1 2 3 4 5 6 7 8 9 10

    Grfico 1.5.3

    Polgono de frecuencias absolutas acumuladas Ni

  • 5/28/2018 Descript Iva

    13/34

    UNIVERSIDAD POLITCNICA DE MADRID I. ESTADSTICA DESCRIPTIVA

    Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa 13-I

    Si algn intervalo es de distintaamplitud, el clculo de su altura (h i)

    se efectuar hallando el cocientei

    ii

    nh

    a ii

    i

    fh

    a , donde ai

    representa la amplitud del intervalo.

    1.5.2.2 Polgono de frecuencias. En este grfico representamos los puntos medios (xi, ni)o

    (xi, fi) de cada intervalo y a continuacin se unen los puntos mediante una poligonal.

    La poligonal debe comenzar y

    acabar cortando al eje de la

    variable en los puntos medios

    de los que seran un intervalo

    anterior al primero y otro

    posterior al ltimo (variableagrupada en intervalos). De estaforma el rea encerrada por el

    polgono ser n o 1, segn queutilicemos nio fi.

    1.5.2.3.Polgono de frecuencias acumuladas. Se trata de poder observar la acumulacin defrecuencias hasta un valor determinado de la variable; por ello, es muy til para calcular

    percentiles de una formagrfica. El grfico se

    obtiene al unir medianteuna poligonal los puntos(ei, Ni)o (ei, Fi).

    Al ser un grfico de datosagrupados en intervalos, el

    polgono siempre empiezaen (e0, 0) y acaba en (ek, n) (ek,1).

    [email protected]

    03

    10

    36

    64

    7680 80

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    3.5 4 4.5 5 5.5 6 6.5 7

    Polgono de frecuencias acumuladas del ejemplo 1.

    (Notas de examen realizado por 80 estudiantes )

    Grfico 1.5.6

    Q1 Q3

    0

    5

    10

    15

    20

    25

    30

    3.5 - 4 4 - 4.5 4.5 - 5 5 - 5.5 5.5 - 6 6 - 6.5

    Grfico 1.5.4

    Histograma del ejemplo 1

    (Notas de examen realizado por 80 estudiantes)

    0

    5

    10

    15

    20

    25

    30

    3.25 3.75 4.25 4.75 5.25 5.75 6.25 6.75

    Polgono de frecuencias de datos agrupados en intervalos.

    Ejemplo 1. (Notas de examen realizado por 80 estudiantes)

    Grfico 1.5.5

  • 5/28/2018 Descript Iva

    14/34

    14-I

    1.5.3 Representaciones grficas de variables estadsticas cualitativas. Existe una granmultitud de grficos para representar los datos de una muestra o poblacin de una variable

    estadstica cualitativa. Nosotros solo mostramos algunos de ellos, y para ilustrar las grficas

    explicadas en este epgrafe utilizaremos el siguiente ejemplo.

    Ejemplo 3.- Se pregunta a un grupo de 100 hombres y 125 mujeres sobre sus preferencias de

    vehculos, siendo stas las modalidades siguientes: BERLINA, 4X4, DEPORTIVO y

    MONOVOLUMEN.

    Los resultados obtenidos se reflejan clasificados por sexo en la siguiente tabla:

    1.5.3.1 Diagramas de barras. Para las variables cualitativas se pueden emplear los diagramasde barras horizontales o en columnas. Ambos consisten en representar las frecuencias

    mediante rectngulos horizontales o verticales, cuyas longitudes sean iguales a la frecuencia

    absoluta de cada modalidad cualitativa.

    En el caso en que se desee comparar diferentes conjuntos con diferente nmero de elementos,

    debemos utilizar la frecuencia relativa para evitar falsear la longitud de las barras.

    As en el ejemplo

    anterior para comparar

    las preferencias entre

    los hombres y las

    mujeres, debemos

    utilizar las frecuencias

    relativas fi como en elgrfico (1.5.8).

    [email protected]

    HOMBRES MUJERES Total

    MODALIDADES ni fi ni fi

    BERLINA 50 0.50 75 0.6 125

    DEPORTIVO 5 0.05 20 0.16 254X4 10 0.10 5 0.04 15

    MONOVOLUMEN 35 0.35 25 0.2 60

    100 1 125 1 225

    Tabla 1.5.3

    Diagrama de barras. Hombres

    0

    1

    0

    2

    0

    3

    0

    4

    0

    5

    0

    6

    0

    Berlina Deportivo 4X4 Monovolumen

    Ejemplo 3

    Diagrama de barras. Mujeres

    0

    2

    0

    4

    0

    6

    0

    8

    0

    Berlina Deportivo 4X4 Monovolumen

    Ejemplo 3

    Grfico1.5.7

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    Berlina Deportivo 4X4 Monovolumen

    Hombres

    Mujeres

    Grfico 1.5.8

    Diagrama de barras. Ejemplo 3

  • 5/28/2018 Descript Iva

    15/34

    I. ESTADSTICA DESCRIPTIVA

    15-I

    1.5.3.2 Diagrama de sectores. La idea de este grfico es semejante a la del diagrama derectngulos; se cambia la longitud de cada rectngulo por la amplitud en los ngulos o en el

    rea de los sectores en que se divide el crculo.

    Es la representacin en la que el crculo aparece dividido en sectores, de forma que los

    ngulos, y por tanto las reas respectivas, sean proporcionales a las frecuencias.

    1.5.3.3 Pictogramas. La idea de este grfico es semejante a la del diagrama de rectngulos; lavariable se representa por un dibujo de tamao proporcional a la frecuencia del valor de

    variable.

    1.5.3.3.1 Cartogramas. Son representaciones sobre mapas de la variable en estudio.Usualmente los distintos valores de la variable se representan con colores distintos o distinta

    intensidad; como ejemplo podemos observar el cartograma elaborado por el Instituto deEstadstica de la Comunidad de Madrid. Consejera de Economa y Consumo sobre la renta

    per cpita del ao 2004 en la Comunidad de Madrid.

    [email protected]

    Diagrama de sectoresEjemplo 3 (Hombres)

    5%

    10%

    35%

    50%Berlina

    Deportivo

    4X4

    Monovolumen

    Diagrama de sectores

    Ejemplo 3 (Mujeres)

    60%16%

    4%

    20%

    Berlina Deportivo 4X4 Monovolumen

    Grfico 1.5.9Grfico 1.5.9Grfico 1.5.9Grfico 1.5.9

  • 5/28/2018 Descript Iva

    16/34

    16-I

    1.6 Los grficos en EXCELms importantes de un grfico

    botn secundario del ratn en e

    Para realizar con Excel los grfi

    valores de la variable (modalid

    menInsertar y de l, el botn

    De este modo aparece una pant

    Pulsando la pestaaAceptar,ap

    [email protected]

    3

    0

    1

    2

    3

    4

    5

    1

    Seriede da

    Lneas dedivisin

    Eje devalores

    rea delgrfico

    . En el grfico (1.6.1)se representan algunode EXCEL. Una vez realizado el grfico, s

    tas zonas podremos modificar el grfico.

    cos anteriormente estudiados, seleccionamos

    ades) y sus frecuencias, y a continuacin se

    lla como la que se muestra en la figura 1.6.1

    arece el grfico en la misma hoja como el de

    Diagrama de barras

    2

    4

    1

    4

    2

    1

    4

    2 3 4

    A

    B

    Rtulosde datostos

    Grfico 1.6.1

    Figura 1.6.1

    s de los elementos

    i pulsamos con el

    primeramente los

    leccionamos en el

    .

    la figura 1.6.2.

    Ttulo

    rea detrazado

    Leyenda

  • 5/28/2018 Descript Iva

    17/34

    Observemos que, encima de

    deHerramientas de grfico

    que permite realizar cambios

    Tambin podemos realizar c

    este caso, segn la posicin

    1.7 Parmetros EstadLos parmetros estadsticos

    sentido de condensar en ellestadsticos nos proporciona

    datos. En este curso estudia

    Medidas de posicin y de ce

    la variable, alrededor de lo

    estudiaremos los siguientes:

    Moda.

    Media.

    Mediana.

    Cuantiles.

    I.

    la pestaaDiseo,aparece ot

    ra nueva una p

    y que, pulsando en ella, aparece una nuev

    en el grfico.

    ambios en el grfico pulsando el botn sec

    el puntero se obtienen unas opciones de cam

    ticos. Introduccinson ciertos valores representativos de un co

    s la informacin contenida en dicho conjun informacin acerca de la situacin, disp

    os las siguientes medidas o parmetros:

    tralizacin. Tienen por objeto dar una ideas cuales se agrupa una cantidad de datos.

    ma

    Figura 1.6.3

    ESTADSTICA DESCRIPTIVA

    17-I

    estaa con el nombre

    a barra (figura 1.6.3)

    ndario del ratn; en

    bio u otras.

    junto de datos, en el

    to. Estos parmetrosrsin y forma de los

    el valor o valores de

    Por su importancia

    [email protected]

  • 5/28/2018 Descript Iva

    18/34

    18-I

    Cuartiles.

    Deciles.

    Percentiles.

    Medidas de dispersin. Estas medidas determinan lo agrupada o dispersa que est la poblaciny por ello nos dan una idea de la mayor o menor concentracin de los valores de la variable

    alrededor de cierto valor. Por su importancia estudiaremos las siguientes:

    Rango intercuartlico.

    Varianza de la poblacin y de la muestra.

    Desviacin tpica de la poblacin y de la muestra.

    Coeficiente de variacin.

    Momentos no centrados.

    Momentos centrados.

    Medidas de forma. Tratan de identificar ciertas diferencias en la forma de la distribucin conrespecto a un modelo determinado.

    Coeficientes de Asimetra.

    Coeficiente de Curtosis.

    1.8 Medidas de posicin y centralizacin

    1.8.1ModaM0. La moda de un conjunto de datos es el valor de la variable que tiene mximafrecuencia absoluta ni, o relativa fi. Puede ser calculada tanto para variables cualitativas como

    para variables cuantitativas.

    La moda puede no ser nica, o incluso no existir cuando todos los valores de la variable tienen

    la misma frecuencia.

    Clculo de la moda. Si la variable no est agrupada en intervalos, se observa directamente el

    valor de la variable que tiene mayor frecuencia absoluta o relativa.

    Hallar la moda de los conjuntos de datos A = { 1, 1, 1, 2, 2, 3,3,3,3, 4 }, B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4 } y C= {1, 2, 3, 4, 5, 6, 7, 8, 9}.

    - En Ala moda M0es 3,por ser el valor ms frecuente n=4.

    - En Bexisten dos valores modales M0= 1y 4,la frecuencia absoluta en ambos es n=4.

    - En Cno existe moda ya que todos los valores tienen igual frecuencia.

    Si la variable est agrupada en intervalos, se define el intervalo modalcomo el intervalo que

    tiene mayor frecuencia, y adoptamos como moda M0el punto medio del intervalo modal.

    [email protected]

  • 5/28/2018 Descript Iva

    19/34

    I. ESTADSTICA DESCRIPTIVA

    19-I

    En la distribucin de frecuencias de las notas del test del ejemplo 1, observamos que el

    intervalo [5 5.5) es el intervalo modal y su puntomediox = 5.25es el valor que adoptamos como moda.

    La moda tiene la ventaja de ser fcil su clculo, pero tiene

    el inconveniente de que dos muestras con datos muy

    parecidos pueden tener modas muy distintas.

    Es importante observar que al agrupar en intervalos

    perdemos informacin acerca del autntico valor modal.

    1.8.2MedianaM. Se define como el valor central de losvalores de la variable una vez que stos han sido ordenados en sentido creciente. Por tanto, la

    mediana M es un valor de la variable tal que el 50% de los datos son inferiores y el otro 50%

    de los datos son superiores.

    Clculo de la mediana. En primer lugar ordenamos los datos de menor a mayor;

    Si los datos no estn agrupados en intervalos, pueden darse dos casos, quen

    2sea entero o

    que no lo sea.

    Sin

    2no es un nmero entero, la mediana M es el valor de la variable que ocupa la

    posicin: parte entera del nmero n 12

    + .

    Sin

    2 es un nmero entero, la mediana se calcula hallando el valor central de los

    valores de la variable que ocupan las posiciones: parte entera de los nmerosn

    2y

    n1

    2+ .

    En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} observamos que los datos estnordenados y n=10, por tanto, la mediana es M=2.5 que corresponde al punto medio de los

    valores de la variable que ocupan las posiciones n 52

    = (x=2) y n 1 62

    + = (x=3).

    En el conjunto de datos B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4} observamos que el nmero de datoses impar y estn ordenados. La mediana es el valor de la variable que ocupa el lugar parte

    entera den

    1 62

    + = , y por tanto, la mediana es M=2.

    Si los datos estn agrupados en intervalos, el clculo se realiza de forma semejante a comose realiza para datos no agrupados; la diferencia estriba en que, en vez de hallar el punto

    medio, calculamos su valor por interpolacin lineal.

    [email protected]

    Intervalo xi ni fi

    [3.5 4) 3.75 3 3/80

    [4 4.5) 4.25 7 7/80

    [4.5 5) 4.75 26 26/80

    [5 5.5) 5.25 28 28/80[5.5 6) 5.75 12 12/80

    [6 6.5] 6.25 4 4/80

    Sumas 80 1

    Tabla 1.8.1

  • 5/28/2018 Descript Iva

    20/34

    20-I

    Sin

    2est en el intervalo [ei-1, ei), se tiene:

    i i i-1 i

    i-1

    n e - e a

    n - N h2

    =

    i-1M e h= + .

    La interpolacin lineal anterior puede resumirse

    en la formula:i 1

    i 1

    i

    nN a

    2M e

    n

    = +

    Para calcular la mediana de datos agrupados en intervalos procedemos de la siguiente forma:

    se localiza el primer intervalo cuya frecuencia acumulada supere la mitad de las observaciones,esto es, 80/2=40; esta frecuencia acumulada est en el intervalo [5 5.5) que denominamos

    intervalo mediano, por ser aqul que contiene a la

    mediana. El valor de la mediana lo obtenemos

    aplicando la frmula anterior:

    ( )40 36 0.5M 5 5.07

    28

    = + =

    La generalizacin del concepto de la mediana dalugar a nuevas medidas de posicin que llamaremos

    cuantiles.

    1.8.3 Cuantiles. Son medidas de posicin o de orden. En general dividen en dos partes a losdatos colocados en orden creciente y tambin determinan la posicin de cada uno de los datos.

    Los cuantiles ms usados son los cuartiles, deciles y percentiles.

    Los cuartiles dividen los datos ordenados de la poblacin en cuartas partes. Existentres cuartiles Q1, Q2y Q3. Elprimer cuartil (Q1)es un valor de la poblacin tal que el 25% delos datos son menores y el 75% son mayores que l. El segundo cuartil se denomina mediana

    (Q2=M). En el tercer cuartil (Q3) el 75% de los datos toman valores menores y el 25%mayores.

    Existen 9 decilesy dividen a la poblacin en diez partes iguales. Se llama decil deorden (D ),al valor de la variable que divide a la poblacin en dos partes de tal forma que

    10

    del total de los datos tomen valores inferiores a D y

    10

    10

    del total de datos tomen

    valores superiores, con N y 0 10< < .

    [email protected]

    Intervalo xi ni Ni

    [3.5 4) 3.75 3 3

    [4 4.5) 4.25 7 10

    [4.5 5) 4.75 26 36

    [5 5.5) 5.25 28 64

    [5.5 6) 5.75 12 76

    [6 6.5] 6.25 4 80

    Sumas 80

    Tabla 1.8.2

    Mei-1 ei

    n/2

    Ni-1h

    Ni

    ni

    Grfico 1.8.1

  • 5/28/2018 Descript Iva

    21/34

    I. ESTADSTICA DESCRIPTIVA

    21-I

    Existen 99percentiles y dividen a la poblacin en cien partes iguales. Se llamapercentil de orden (P )al valor de la variable que divide a la poblacin en dos partes de

    tal forma que el100

    del total de los datos tomen valores inferiores a P y

    100

    100

    del total

    tomen valores mayores, siendo N y 0 100< < .

    El clculo de los cuantiles se realiza de forma anloga al clculo de la mediana.

    En el conjunto de datos A= {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los datos estn ordenados y3

    n4

    no es

    un nmero entero; por tanto, el tercer cuartil es Q3=3, ya que es el valor de la variable que

    ocupa el lugar: parte entera de3

    n 14

    + .

    El decil sexto es el valor D6=3, que corresponde al valor medio de los valores de la variable

    que ocupan las posiciones6

    n 610

    = (x=3) y6

    n 1 710

    + = (x=3).

    El percentil 40 coincide con el decil 4 y es el valor medio de los valores que ocupan los

    lugares40

    n 4100

    = y40

    n 1 5100

    + = , as pues P40=2.

    En el caso de que los datos estn agrupados en intervalos, el clculo se realiza de forma

    semejante a como se realiza para la mediana, pero todo referido al intervalo que contenga el

    valor de las frecuencias n4

    , n

    10

    y n

    100

    , segn sea el cuantil a calcular.

    Por ejemplo, para el clculo del percentil 80, localizamos el intervalo donde se encuentra P 80,

    y calculamos su valor por interpolacin lineal.

    Si n100

    est en el intervalo [ei-1, ei);

    i i i 1 i

    i 1

    n e e a

    n N h100

    =

    i 1P e h = + .

    por tanto, la interpolacin lineal anterior se

    puede resumir en la formula:

    i 1 i

    i 1

    i

    n N a

    100P en

    = + .

    [email protected]

    P80ei-1 ei

    Ni-1

    h

    Ni

    n

    Grfico 1.8.2

    80n/100

  • 5/28/2018 Descript Iva

    22/34

    22-I

    El clculo de algunos cuantiles del ejemplo 1 es:

    1n 20

    4=

    ( )1

    20 10 0.5Q 4.5 4.69

    26

    = + = .

    3n 60

    4=

    ( )3

    60 36 0.5Q 5 5.43

    28

    = + =

    6n 48

    10=

    ( )6

    48 36 0.5D 5 5.21

    28

    = +

    95n 76

    100=

    ( )95

    76 76 0.5P 6 6

    4

    = + = .

    1.8.4 Media aritmtica X. Propiedades. Posiblemente es el parmetro estadstico ms

    conocido y utilizado. Se representa por X y se define como la suma de todos los valores del

    conjunto de datos dividida por el nmero de datos; por tanto:

    1 1 2 2 k k n x n x ... n x

    Xn

    + + +=

    k

    i i

    i 1

    1n x

    n ==

    k

    i i

    i 1

    f x=

    = .

    La media del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es

    X 2.3= , ya que:

    3 1 2 2 4 3 1 4X

    10

    + + + = =

    23

    10=2.3

    El clculo de la media tambin puede realizarse en

    forma de tabla aadiendo una nueva columna con los

    valores nixi.

    Cuando las observaciones han sido agrupadas en

    intervalos, el clculo se realiza de la misma forma,

    pero utilizando el valor central del intervalo como

    valor de todas las observaciones que han sido

    adjudicadas a dicho intervalo.

    La media del ejemplo de la tabla (1.8.5) es

    3 3.75 7 4.25 26 4.75 28 5.25 12 5.75 4 6.25X

    80

    + + + + + = =

    405.5

    80= 5.068

    [email protected]

    Intervalo xi ni Ni

    [3.5 4) 3.75 3 3

    [4 4.5) 4.25 7 10[4.5 5) 4.75 26 36

    [5 5.5) 5.25 28 64

    [5.5 6) 5.75 12 76

    [6 6.5] 6.25 4 80

    Sumas 80Tabla 1.8.3

    ix in in ix

    1 3 3

    2 2 43 4 12

    4 1 4

    10 23

    Tabla 1.8.4

    Intervalo xi ni in ix

    [3.5 4) 3.75 3 11.25

    [4 4.5) 4.25 7 29.75

    [4.5 5) 4.75 26 123.5[5 5.5) 5.25 28 147

    [5.5 6) 5.75 12 69

    [6 6.5] 6.25 4 25

    Sumas 80 405.5Tabla 1.8.5

  • 5/28/2018 Descript Iva

    23/34

    I. ESTADSTICA DESCRIPTIVA

    23-I

    Propiedades

    1.Solo es aplicable para variables estadsticas cuantitativas.

    2.No depende del orden en el que estn colocados los datos.

    3.Es ms representativa cuanto mayor sea la concentracin de los valores alrededor

    suyo y ms simtrica sea la distribucin.

    4.Es muy sensible a la presencia de datos extremos.

    5.La media de las desviaciones a la media es cero.

    ( )k k

    i i i i

    i 1 i 1

    1 1n x X n x X 0

    n n= = = =

    6.Si se multiplican todos los valores de la variable estadstica X por una constante a,

    la media queda multiplicada por la constante a.

    k k

    i i i i

    i 1 i 1

    1 1aX an x a n x aX

    n n= == = =

    7.Si se suma una constante b a los n valores de la variable, la media queda aumentada

    en dicho valor b.

    ( )k k

    i i i i

    i 1 i 1

    1 1 1b X n b x bn n x b X

    n n n= =+ = + = + = +

    1.9 Clculo con EXCEL de los parmetros de posicin y tendencia central deun conjunto de datos individualizadosA continuacin exponemos un procedimiento para calcular estos parmetros utilizando las

    correspondientes funciones especficas de EXCEL.

    =MODA(nmero1;[nmero2];) Calcula la moda del rango de datos.

    =MEDIANA(nmero1;[nmero2];) Calcula la mediana del rango de datos.

    =CUARTIL(matriz;cuartil) Calcula el valor de uno de los cuartiles. Matriz es elrango de los datos y cuartil son los valores 1, 2, 3, para calcular Q1, Q2=M y Q3,

    respectivamente.

    =cuartil(matriz;3), calcula el tercer cuartil del rango de los datos.

    =PERCENTIL(matriz;k)Calcula el percentil 100k, donde k es un nmero entre 0 y 1.=percentil(matriz;0.3)calcula el P30que coincide con D3.

    =PROMEDIO(nmero1;[nmero2];)Calcula la media del rango de datos.

    [email protected]

  • 5/28/2018 Descript Iva

    24/34

    24-I

    Como ejemplo, usaremos los conjuntos de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, B = {1, 1, 1,

    1, 2, 2, 3, 4, 4, 4, 4} y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}.

    Escribimos en sucesivas casillas las frmulas de los parmetros que deseamos calcular, por

    ejemplo, para el clculo del cuartil tercero; en la celda 17,B hemosescrito:=cuartil(B2:B11;3).

    Adems, podemos aadir unos rtulos tiles, como se muestra en el grfico 1.9.1.

    Notemos que algunos

    parmetros calculados por

    EXCEL no coinciden con

    algunas de las definiciones

    dadas.

    Por ejemplo, la moda del

    conjunto B nos indica slo

    un valor modal en vez de

    dos; en el conjunto C la

    moda es indicada con

    #N/A, es decir, no existe

    valor modal. El primer y

    tercer cuartil de los

    conjuntos de datos A y Bson distintos de los que

    obtendramos nosotros. La

    diferencia es debida a que

    se utilizan criterios

    distintos. Cuando el

    percentil buscado es un

    valor exacto de la serie de

    datos, nosotros tomamos

    como valor del percentil el

    punto medio de los valores

    que ocupan los lugares n4

    y n 14

    + , mientras que

    EXCEL interpola entre

    dichos valores.

    [email protected]

    Figura 1.9.1

  • 5/28/2018 Descript Iva

    25/34

    I. ESTADSTICA DESCRIPTIVA

    25-I

    1.10 Medidas de DispersinComo dijimos anteriormente, la media es ms representativa cuanto mayor sea la

    concentracin de los valores alrededor suyo; por ello, uno de los objetivos de las medidas de

    dispersin es el estudio de diferentes parmetros que nos indiquen el grado de alejamiento de

    los datos respecto de algn parmetro central.

    1.10.1Rango o recorrido de la variable estadstica(Re). Se define como la diferencia entre elmximo y el mnimo valor de la variable. Es una medida muy sencilla de calcular, pero, poco

    robusta, pues solo tiene en cuenta los valores extremos.

    Para los datos del conjunto A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, Re=xmax-xmin=4-1=3.

    Para evitar la influencia en el rango de los datos con valores extremos, suele ser frecuente

    utilizar el rango intercuartlico.

    1.10.2 Rango o recorrido intercuartlico (IQR). La diferencia entre el tercer y el primercuartil se denomina recorrido o rango intercuartlicoy se representa por IQR.

    Es fcil observar que el rango intercuartlico contiene el 50% de las observaciones centrales.

    3 1IQR Q Q=

    Su clculo es muy sencillo, y es una medida muy robusta en el sentido de no estar

    influenciada por la presencia de valores extremos.

    Del ejemplo 1, sabemos que Q3=5.43 y Q1=4.69, por tanto, IQR=0.74.

    1.10.3 Varianza (2) y desviacin tpica () poblacionales. Propiedades. Al igual que lamedia en las medidas de posicin, la varianza es la medida de dispersin ms utilizada. Ambas

    suelen formar parte de muchas definiciones y estudios estadsticos. La varianza mide la

    dispersin de los valores de la variable respecto de la media. Cuanto mayor sea la varianza,

    menos representativa es la media.

    Se define la varianza poblacional, o simplemente varianza (2

    ), de un conjunto de datos,como la media de los cuadrados de las diferencias a la media.

    ( )k 2

    2

    i i

    i 1

    1n x X

    n = =

    Se define desviacin tpica( )de la poblacin, como la raz cuadrada de la varianza.

    ( )k 2

    i i

    i 1

    n x X

    n

    =

    =

    [email protected]

  • 5/28/2018 Descript Iva

    26/34

    26-I

    Calcular la varianza y la desviacin tpica de los datos {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} .

    Por ser la media X 2.3= , la varianza es

    2 2 2 2

    23(1 2.3) 2(2 2.3) 4(3 2.3) 1(4 2.3)

    1.0110

    + + + = =

    y la desviacin tpica

    1.01 1.005 = =

    Propiedades de la varianza

    I. La varianza es siempre positiva.

    II. Si se multiplican todos los valores de la variable por una constante a, la varianzaqueda multiplicada por la constante a2.

    Si ax= entonces:

    ( ) ( )k k2 2

    2 2 2 2

    y i i i i x

    i 1 i 1

    1 1n y Y a n x X a

    n n= = = = = .

    III. Si sumamos una constante b a los valores de la variable, la varianza no cambia.

    Si y b x= + entonces:

    ( ) ( ) ( )k k k2 2 2

    2 2

    y i i i i i i x

    i 1 i 1 i 1

    1 1 1n y Y n (b x ) (b X) n x X

    n n n= = = = = + + = =

    IV. La varianza es la media de los cuadrados de la variable, menos el cuadrado de la media

    de la variable.

    ( ) ( )k k2 22 2

    x i i i i i i i

    i 1 i 1

    1 1n x X n x 2n x X n X

    n n= = = = + =

    k22

    i i

    i 1

    1n x X

    n =

    V. La principal ventaja de la desviacin tpica frente a la varianza es que la primera se

    mide en las mismas unidades que los datos.

    1.10.4 Cuasivarianza o Varianza muestral (S2). Propiedades.Se define varianza muestral oCuasivarianza(S2)como la cantidad

    ( )k 2

    2

    i i

    i 1

    1S n x X

    n 1 ==

    Este parmetro tiene gran importancia en inferencia estadstica, ya que se utiliza con ms

    frecuencia que la varianza.

    La raz cuadrada de la cuasivarianza se denomina desviacin tpica muestral o

    cuasidesviacin tpica(S).

    ( )k

    2i i

    i 1

    n x X

    Sn 1

    =

    =

    [email protected]

  • 5/28/2018 Descript Iva

    27/34

    I. ESTADSTICA DESCRIPTIVA

    27-I

    La cuasivarianza y desviacin tpica muestral del conjunto {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} son2 2 2 2

    2 3(1 2.3) 2(2 2.3) 4(3 2.3) 1(4 2.3)S 1.129

    + + + = = y S 1.1222 1.06=

    PropiedadesI. Cuanto mayor sea el nmero n de datos, ms se aproximan S2 a 2y S a .

    II. 2 2n

    Sn 1

    =

    yn

    Sn 1

    =

    .

    1.10.5 Coeficiente de variacin de Pearson (CV). Propiedades. En la propiedad II de lavarianza, se observa que sta es afectada por los cambios de escala y, por tanto, no es til para

    comparar dispersiones entre variable estadsticas con distintas unidades. Por ello, para

    comparar la dispersin entre muestras o poblaciones, se utiliza el coeficiente de variacin de

    Pearson. Se define el coeficiente de variacin de Pearson (CV) como el cociente entre ladesviacin tpica y el valor absoluto de la media. Generalmente se expresa en porcentajes.

    CV 100 %X

    = .

    Algunas de sus propiedades son:

    Es independiente de las unidades que se utilicen.

    Nos permite comparar la dispersin de dos distribuciones con medias o con unidades

    diferentes.

    Tiene el inconveniente de no estar definido para distribuciones con media cero.

    Adems, cuando la media se aproxima a cero el coeficiente de variacin tiende a infinito.

    Ejemplo. Calcular los parmetros anteriores para los valores de la evaluacin de losestudiantes recogidos en el ejemplo (1) y agrupados en la tabla (1.10.5).

    Para calcular la varianza debemoshallar el valor de

    ( )k 2

    2

    i i

    1

    1n x X

    n = . Para ello,

    aadimos dos nuevas columnas, la

    primera para el clculo de la media y la

    segunda para el clculo de la suma de

    los cuadrados de las diferencias a la

    media. ( )

    k 2

    i i1

    n x X

    .

    [email protected]

    ntervalo xi ni i in x ( )2

    i in x X

    [3.5 4) 3.75 3 11.25 5.2173

    [4 4.5) 4.25 7 29.75 4.6924

    [4.5 5) 4.75 26 123.5 2.6416

    [5 5.5) 5.25 28 147 0.9198

    [5.5 6) 5.75 12 69 5.5692

    [6 6.5] 6.25 4 25 5.5814

    Sumas 80 405.5 24.6219Tabla 1.10.5

  • 5/28/2018 Descript Iva

    28/34

    28-I

    Figura 1.11.1

    X=405.5

    80 5.0687 2 =

    24.6219

    80 0.308 0.3083 0.555 =

    2 80S 0.3083 0.31279

    =

    S 0.3122 0.558= 0.5552

    CV 100 10.95%5.0687

    =

    1.11 Clculo con Excel de los parmetros de dispersin de un conjunto dedatos individualizadosEXCEL dispone de algunas funciones especficas para el clculo de los parmetros de

    dispersin:

    =VARP(nmero1;[nmero2];).Calcula la varianza del conjunto de datos.

    =DESVESTP(nmero1;[nmero2];).Calcula la desviacin tpica del conjunto de

    datos.

    =VAR(nmero1;[nmero2];).Calcula la cuasivarianza de los datos.

    =DESVEST(nmero1;[nmero2];).Calcula la desviacin tpica muestral.

    Como ejemplo, usaremos el conjuntos de

    datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.

    Escribimos en sucesivas casillas las

    frmulas de los parmetros que deseamos calcular; por ejemplo, para el clculo de la

    cuasivarianza en la celda (4,C) hemos escrito:

    =VAR(A3:A12).

    1.12 MomentosLos momentos son medidas de dispersin sobre un determinado valor. En general,se define el

    momento de orden rrespecto del valorccomo

    Segn el valor que tome c, se distinguen dos casos importantes:

    Si c=0, entonces los momentos de orden r se denominan momentos no centrales o

    respecto del origeny se denotan por kr i i

    i 1

    1m n x

    n ==

    [email protected]

    ( )k

    r

    r i i

    i 1

    1m (c) n x c

    n ==

  • 5/28/2018 Descript Iva

    29/34

    I. ESTADSTICA DESCRIPTIVA

    29-I

    Se observa que:

    o El momento de orden 0 respecto del origen siempre es la unidad (m0=1).

    o El momento de orden 1 respecto del origen coincide con la media ( )1m X= .

    Si c X= , entonces los momentos de orden r se denominan momentos centrales orespecto de la media y se denotan por

    ( )k r

    r i i

    i 1

    1n x X

    n = =

    Es importante notar que:

    o El momento de orden 0 respecto de la media siempre es la unidad, (0=1).

    o El momento de orden 1 respecto de la media siempre es cero, (1=0).

    o El momento de orden 2 respecto de la media siempre coincide con la varianza,

    (2=2).

    1.12.1. Relaciones entre los momentos

    2=m2-m12. 3=m3-3m2m1+2m1

    3. 4=m4-4m3m1+6m2m12-3m1

    4.

    Ejemplo. Para el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los momentos centrales yno centrales son:

    1

    3 1 2 2 4 3 1 4 23m A

    10 10

    + + + = = = .

    2 2 2 2

    2

    3 1 2 2 4 3 1 4 63m

    10 10

    + + + = = .

    3 3 3 3

    3

    3 1 2 2 4 3 1 4 191m

    10 10

    + + + = = .

    4 4 4 4

    4

    3 1 2 2 4 3 1 4 615m

    10 10

    + + + = = .

    2

    2 2

    2 2 1

    63 23 10.1m m

    10 10 10

    = = = =

    3

    3

    3 3 2 1 1

    191 63 23 23 36m 3m m 2m 3 2

    10 10 10 10 1000

    = + = + =

    2 42 4

    4 4 3 1 2 1 1

    615 191 23 63 23 23m 4m m 6m m 3m 4 6 3 1.79

    10 10 10 10 10 10

    = + = + =

    1.13 Medidas de formaAdems de la tendencia central y de la dispersin, se puede tratar de caracterizar la forma de

    una distribucin mediante ndices que determinen la asimetra y el apuntamiento de la

    distribucin.

    Asimetra. Una distribucin de frecuencias es simtrica si su correspondiente grfico essimtrico respecto a un eje vertical.

    [email protected]

  • 5/28/2018 Descript Iva

    30/34

    30-I

    Si la distribucin es simtrica, la mediana y la media coinciden.

    M X=

    Si la distribucin es simtrica y unimodal, la mediana, media y moda coinciden.

    oM X M= =

    Una distribucin con asimetra por la derecha o

    positiva, quiere decir que la grfica de frecuencias

    desciende ms lentamente por la derecha que por

    la izquierda. En este caso se verifica que

    oM M X .

    Una distribucin asimtrica por la izquierda o

    negativa, quiere decir que la grfica de

    frecuencias desciende ms lentamente por la

    izquierda que por la derecha. En este caso se

    verifica que

    oX M M .

    1.13.1 Coeficiente de Asimetra de Pearson.Propiedades. Se define como el cociente

    os

    X MA

    =

    .

    Mide la asimetra respecto de la moda.

    Si As=0 es simtrica respecto de la moda. 0X M= .

    Si As>0 es asimtrica a la derecha de la moda. 0X M> .

    Si As

  • 5/28/2018 Descript Iva

    31/34

    I. ESTADSTICA DESCRIPTIVA

    31-I

    Es un coeficiente adimensional y mide la asimetra respecto de la media.

    Si g1=0 la distribucin es simtrica o no sesgada.

    Si g10 la distribucin es asimtrica o sesgada a la derecha y o eM M X .

    1.13.3 Coeficiente de apuntamiento o curtosis g2. Elcoeficiente de apuntamiento de Fisherse define e interpreta como sigue:

    ( )k 4

    i i

    i 12 4

    n x X1

    g 3n

    =

    =

    .

    Si la distribucin estudiada tiene por media X y desviacin tpica muestral S, entonces:

    Si g2>0, la distribucin es ms apuntada que la normal ( )N X,S .

    Si g2

  • 5/28/2018 Descript Iva

    32/34

    32-I

    Fi ura 16.1.1

    EXCEL dispone de dos funciones especficas para el clculo de los parmetros de forma, pero

    nosotros no las utilizaremos, ya que Excel calcula los estimadores de forma para la poblacin;

    por ello, efectuaremos el clculo de las medidas de forma utilizando la tabla de clculos que

    hemos empleado para hallar los momentos.

    1.14 Errores en las observaciones.Uno de los objetivos principales de la Estadstica es el de obtener informaciones tiles a partir

    de los datos disponibles. Por ello, es muy importante que los datos que utilicemos sean fiables

    (no contengan errores) y, por tanto, en todo tratamiento estadstico es conveniente efectuar un

    proceso de depuracin y estudio de los datos.

    1.14.1 Valores atpicos o Outliers. Los valores atpicos o errneos, por ser inusualmentegrandes o pequeos, en general son atribuibles a una de las siguientes causas:

    El valor se observa y se registra o introduce en el ordenador incorrectamente.

    El valor proviene de una poblacin distinta.

    El valor es correcto, pero representa un suceso poco comn.

    El problema que se nos presenta es decidir si un determinado dato, con un valor poco comn,

    puede ser utilizado, o por el contrario lo hemos de rechazar. La respuesta no es fcil, ya que si

    rechazamos datos de forma inadecuada, podemos perder informacin valiosa y, por el

    contrario, si los aceptamos, puede variar los resultados de forma que nuestras conclusiones

    sean errneas. En la actualidad existe gran multitud de procedimientos que nos facilitan el

    tomar una decisin sobre la depuracin de datos. Consideramos que el estudio detallado de

    estos procedimientos queda fuera del mbito de esta asignatura y solo haremos una breve

    descripcin de uno de ellos

    [email protected]

  • 5/28/2018 Descript Iva

    33/34

    I. ESTADSTICA DESCRIPTIVA

    33-I

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    1,4

    1,6

    335 340 345 350 355 360

    Grfico 1.14.1

    1.14.2 Grficos de caja. Boxplot. Los histogramas y los polgonos de frecuenciaproporcionan impresiones visuales acerca de un conjunto de datos. Las cantidades numricas,

    tales como la media o varianza, proporcionan informacin acerca de alguna caracterstica

    particular de los datos.

    Losgrficos de cajason unas representaciones grficas que describen simultneamente varias

    caractersticas importantes de un conjunto de datos, como son el centro, la dispersin y la

    asimetra, pero tambin permiten identificar observaciones que caen inusualmente lejos del

    grueso de los datos, lospuntos atpicos, (Outliers).

    Para la construccin de este grfico, se calcula previamente la media X, la mediana M, los

    cuartiles Q1y Q3, as como los valores LI y LS que denominaremos barreras o bigotes:

    LI=max( xmin, Q1-1.5(Q3 Q1)) LS=min ( xmax, Q3+1.5(Q3- Q1)).

    Donde xminy xmaxson los valores mximo y mnimo del conjunto de datos.

    Una vez calculados los valores anteriores, procedemos de la siguiente forma. Dibujamos una

    caja cuyos lados verticales corresponden a los valores de Q1y Q3, trazamos una lnea vertical

    en el valor de la mediana, y dos pequeas lneas verticales (barreras) para los valores de LI y

    LS. A continuacin, trazamos un segmento a cada lado de la caja hasta las barreras y por

    ltimo colocamos el valor de la media y de los posibles puntos atpicos. El resultado de este

    grfico se muestra en el grfico 1.14.1

    Todo dato que est fuera del intervalo [LI , LS] ser considerado como posible dato atpico,

    anmaloo Outlier y corresponde a un dato que debera ser estudiado.

    En este grfico hemos de observar que LS es menor que algunas observaciones; estas

    observaciones corresponden a puntos atpicos. La media es mayor que la mediana y, por tanto,

    es asimtrica hacia la derecha.

    [email protected]

  • 5/28/2018 Descript Iva

    34/34

    34-I

    Grfico 1.14.2

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    1,4

    1,6

    23,35 23,4 23,45 23,5 23,55 23,6

    Ejemplo.En el conjunto de datos, 23.39, 23.45, 23.47, 23.47, 23.50, 23.50, 23.58, el valor dela mediana es M=23.47, la media 23.48, el primer cuartil Q1=23.45, el tercer cuartil Q3=23.50

    y los valores de los datos mximo y mnimo son respectivamente 23.39 y 23.58.

    Los valores de las barreras son:

    Q1-1.5(Q3-Q1)=23.375,

    por tanto

    LI=xmin=23.39.

    Q3+1.5(Q3-Q1)=23.575,

    por tanto

    LS=23.575.

    En consecuencia, el dato 23.58 es un valor atpico y se representa como el grfico 1.14.2.

    [email protected]