Tema 3. Variables Cuantitativas. Parametros y Estadisticos. (2!2!15) (1)

10
Grupo 7 2 y 4 de febrero Tema 3. VARIABLES CUANTITATIVAS. PARÁMETROS Y ESTADÍSTICOS Las variables numéricas cuantitativas, cuyos valores pueden ser ordenados ya que se miden numéricamente, pueden ser: - Discretas - Continuas VARIABLES NUMÉRICAS DISCRETAS Las variables discretas son variables numéricas que no se pueden dividir. Gráficamente, se representan mediante: - Diagramas de barras: entre las barras se deja un hueco que indica que no existen valores intermedios posibles (no se puede tener 2,5 hijos). Los diagramas de barras suelen ser más adecuados para representar variables cualitativas o cuantitativas discretas. - Diagramas de sectores: suelen ser adecuados para comparar variables en términos de porcentajes. También se utilizan para comparar los valores que adopta una variable en diferentes poblaciones.

description

Comi

Transcript of Tema 3. Variables Cuantitativas. Parametros y Estadisticos. (2!2!15) (1)

  • Grupo 7 2 y 4 de febrero

    Tema 3. VARIABLES CUANTITATIVAS. PARMETROS Y ESTADSTICOS Las variables numricas cuantitativas, cuyos valores pueden ser ordenados ya que se miden numricamente, pueden ser:

    - Discretas - Continuas

    VARIABLES NUMRICAS DISCRETAS Las variables discretas son variables numricas que no se pueden dividir. Grficamente, se representan mediante:

    - Diagramas de barras: entre las barras se deja un hueco que indica que no existen valores intermedios posibles (no se puede tener 2,5 hijos). Los diagramas de barras suelen ser ms adecuados para representar variables cualitativas o cuantitativas discretas.

    - Diagramas de sectores: suelen ser adecuados para comparar variables en trminos de porcentajes. Tambin se utilizan para comparar los valores que adopta una variable en diferentes poblaciones.

  • VARIABLES NUMRICAS CONTINUAS Las variables continuas pueden representar cualquier valor numrico. Destacan en el rea de la salud ya que permiten medir gran cantidad de indicadores biolgicos (talla, peso). Las variables continuas tienden a ser tratadas como variables discretas, con un nivel de detalle variable y seleccionable (se puede elegir el n de decimales a tener en cuenta). A partir de los datos brutos o simples, se realizan tablas de frecuencia:

    1. Se organizan varias clases o categoras (tantas como sea conveniente, aunque se suele calcular la raz cuadrada del nmero total de datos para saber cuntas clases se podran hacer). La amplitud de las clases puede variar, pero es conveniente que todas tengan la misma amplitud para que la representacin grfica sea ms sencilla y exacta. Los lmites de cada clase tienen la misma precisin que la medida con la que se han tomado los datos brutos (mismo n de decimales).

    2. Se establecen las fronteras de cada clase, para precisar qu valores se incluyen en cada clase. La frontera superior es el punto medio entre el lmite superior (LS) de la primera clase y el lmite inferior (LI) de la siguiente clase.

    3. Se calculan las marcas de clase, que son el punto medio entre fronteras. 4. Se calcula la frecuencia absoluta, que es el nmero de sujetos que se incluye en cada

    clase. 5. Se calcula la frecuencia relativa, que es la proporcin de sujetos que se encuentran en

    cada clase en relacin con el total. 6. Se calcula la frecuencia acumulada, que es el nmero de sujetos que se incluyen hasta

    el momento (la suma de los datos de una clase ms los que se encuentran en la anteriores).

    Grficamente, se representan mediante:

    - Diagramas de tallo hojas - Histograma y polgono de frecuencias - Diagrama de cajas

    Diagramas de tallo hojas A partir de una lista de distintos valores en bruto para una variable, se elabora un diagrama donde los datos se colocan de la siguiente manera: se busca el valor ms bajo y el valor ms alto que adopta la variable y se colocan en los extremos de una lnea vertical, en el lado izquierdo. Entre ellos se aaden valores intermedios, que formarn el tallo. De este tallo, en el lado derecho de la lnea, saldrn las hojas, que harn referencia a los decimales encontrados en la investigacin para cada nmero entero del tallo. En algunos casos, se puede encontrar el mismo valor dos veces en el tronco. La diferencia estar en un asterisco, que permitir separar los decimales correspondientes a dicho nmero en dos filas. Ejemplo: 13 = 13,0-13,4 13*= 13,5-13,9.

  • De este modo, se puede observar en un golpe de vista cmo se distribuyen los valores ms frecuentes y los ms extremos. Adems, el diagrama de tallo hojas sirve para calcular percentiles.

    En este diagrama, la frecuencia acumulada se representa en la columna de profundidad. Se inicia desde el extremo superior e inferior, sumando los valores correspondientes separadamente y en cada uno de los dos sentidos hasta llegar a la mediana. En la mediana se indica slo la frecuencia absoluta de la clase a la que corresponde.

    Histograma y polgono de frecuencias Se realiza a partir de una tabla de frecuencias (absolutas o acumuladas). Las barras en un histograma se colocan pegadas, ya que las variables pueden tomar cualquier valor. Cada intervalo de clase se divide en subclases. Tiene sentido realizarlo cuando todas las clases tienen la misma amplitud.

    El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo, es decir, el rea de cada barra es proporcional a la frecuencia de su clase (esto sucede cuando todas la clases tienen la misma amplitud) y la altura de la barra coincide con la frecuencia. El rea total del histograma es siempre 1, y resulta de la suma de la frecuencia relativa de todas las clases. Si las bases no son de igual amplitud, la altura de la barra no coincide con la frecuencia o porcentaje de la base. Sobre el histograma, se unen los puntos medios de cada columna o clase, lo que resulta en un polgono de frecuencias. El rea bajo el polgono de frecuencias es la misma que el rea bajo el histograma.

  • En el caso de las frecuencias absolutas, el resultado es el siguiente:

    En el caso de las frecuencias acumuladas, en cuyo caso el polgono de frecuencias toma el nombre de ojiva, el resultado es el siguiente:

    Para calcular porcentajes o proporciones para un valor determinado de la variable situado en uno de los ejes (11,95), se dibuja una lnea paralela a dicho eje que corta en el eje contrario, obteniendo el valor correspondiente. La funcin permite calcular el nmero acumulado de individuos por debajo de un determinado valor, por lo que es muy til para calcular percentiles.

  • Diagrama de caja (Tukey) El diagrama de es una representacin que, mediante 5 datos (mnimo, cuartiles y mximo), intenta resumir toda la informacin. Suelen dar una buena idea de la distribucin.

    La zona central (caja) contiene al 50% central de las observaciones y sus lmites son el primer cuartil (percentil 25) y el tercer cuartil (percentil 75). Su tamao se llama rango intercuartlico (R.I.). En el centro de la caja se representa una raya vertical, la mediana o percentil 50. Muchas veces, los bigotes no llegan hasta los extremos, no se separan ms de la caja de 1,5 RI Los extremos o bigotes pueden representar:

    a) El valor mnimo y el mximo

    b) Una distancia de 1,5 R.I. de cada extremo de la caja. En este caso, los bigotes no llegan

    hasta los extremos y los datos situados ms all de esa distancia se consideran anmalos y as se marcan.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en ciudad

    de

    nsid

    ad

    40 45 50 55 60 65

    0.0

    00

    .02

    0.0

    40

    .06

    0.0

    8

    40 45 50 55 60 65

    Mn. P25 P50 P75 Mx.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en autova

    de

    nsid

    ad

    80 90 100 110 120 130 140

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    4

    80 90 100 110 120 130 140

    Mn. P25 P50 P75 Mx.

  • El diagrama de cajas suele aparecer en publicaciones y sirve para comparar tratamientos, diferencias entre sexos es decir, da una primera aproximacin de si un subgrupo es llamativamente diferente a otro. El diagrama de cajas y el histograma pueden aparecer superpuestos. PARMETROS Y ESTADSTICOS Un parmetro es una cantidad numrica calculada sobre una poblacin. La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros). Ejemplo: la altura media de los individuos de un pas. Un estadstico es una cantidad numrica calculada sobre una muestra. Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador. Ejemplo: la altura media de los alumnos de una clase. Normalmente interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a toda la poblacin, se calcula un estimador sobre una muestra y se confa en que sean prximos. Para ello, hay que elegir la muestra de manera que el error se confiablemente pequeo. Estadsticos Hay 4 reas de una distribucin en las que puede ser interesante calcular un estadstico:

    - Posicin, localizacin o centralizacin: La localizacin se refiere a la situacin promedio de los valores de una variable a lo largo de la recta de los nmeros reales. Se refiere a un valor intermedio o central e implica que pueden existir valores superiores o inferiores a dicho valor. Indican valores con respecto a los que los datos parecen agruparse o dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Como una variable continua puede tomar infinitos valores en cualquier intervalo fijado, se calcula el intervalo en el que se localizan los datos mediante medidas de localizacin: la media, mediana, moda, los cuantiles, percentiles, cuartiles, deciles (estos cuatro ltimos dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos).

    - Dispersin: La dispersin se refiere al promedio de las distancias de cada dato, respecto de un valor promedio o central. Por tanto, indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin, es decir, cunto se alejan los datos de la medida de centralizacin. Son la desviacin tpica, coeficiente de variacin, rango, varianza

    - Forma o centralizacin: Permite calcular si hay mayor cantidad de valores por encima o por debajo de la mediana o media. Son la asimetra y el apuntamiento o curtosis.

    Estadsticos de posicin Los estadsticos de posicin son los cuartiles, percentiles que no son ms que la divisin en puntos de una distribucin.

    - Cuantil: se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Por tanto, indica el valor de la variable

  • por debajo del cual se encuentra una proporcin (tanto por 1) determinada. Casos particulares son los percentiles, cuartiles, deciles, quintiles Ejemplo: El cuantil de orden 0,36 permite expresar un valor que deja un 36% de los valores por debajo. El cuantil 0,5 coincide con la mediana (50%).

    - Percentil: resulta de la divisin de una distribucin en 100 grupos (percentil de orden k = cuantil de orden k/100). Indica el valor de la variable por debajo del cual se encuentra un porcentaje determinado de observaciones. El percentil 50 es la mediana. El percentil de orden 15, deja por debajo el 15% de los casos y el 85% por encima

    - Cuartil: resulta de la divisin de la muestra en 4 grupos con frecuencias similares.

    o Primer cuartil = percentil 25 = cuantil 0,25 o Segundo cuartil = percentil 50 = cuantil 0,5 = mediana o Tercer cuartil = percentil 75 = cuantil 0,75

    Esta informacin sobre percentiles y cuartiles es de utilidad para presentar los datos en diagramas de cajas o de Tukey.

    - Media (mean): Es la media aritmtica (promedio) de los valores de una variable. Es la suma de los valores dividido por el tamao muestral. Es un buen indicador cuando los datos se concentran simtricamente con respecto a ese valor, pero es muy sensible a valores extremos. Por eso es til observar a la vez la media y la mediana para as poder comparar si toman valores muy diferentes. Es el centro de gravedad de los datos.

    Ejemplo: la media de 2, 2 ,3, 7 es (2+2+3+7)/4=3,5

    - Mediana (median): es un valor que divide a las observaciones en dos grupos con el

    mismo nmero de individuos (percentil 50), es decir, el valor que divide en dos partes iguales la distribucin. Si el nmero de dato es par, se elige la media de los dos datos centrales. No es sensible a valores extremos, por lo que es conveniente cuando los datos son asimtricos. Ejemplo 1: la mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Ejemplo 2: la mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5

    - Moda (mode): es el valor o los valores donde la distribucin de frecuencia alcanza un

    mximo, es decir, los que ms se repiten. Ejemplo: la moda de 1, 2, 4, 5, 6, 6, 8 es 6

    n

    xx i

    i

  • Estadsticos de dispersin o variabilidad Los estadsticos de dispersin miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa. Miden los diferentes valores que puede tomar una variable. Las razones que llevan a la existencia de datos diferentes se denominan fuentes de variabilidad. Ej: los estudiantes, partiendo del mismo nivel de conocimiento, obtienen calificaciones diferentes. Esto se debe a las fuentes de variabilidad (diferencias individuales, variabilidad por azar). Encontramos diferentes medidas de dispersin:

    - Amplitud o rango (range): es la diferencia entre observaciones extremas, es decir, entre el valor mximo y el mnimo. Es muy sensible a los valores extremos. Ejemplo: el rango de 2, 1, 4, 3, 8, 4 es (8-1)=7

    - Rango intercuartlico (interquartile range): es la distancia entre el primer y el tercer cuartil. Es parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores, por lo que no es tan sensible a valores extremos.

    R. I = P75 P25

    - Varianza (variance): mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media y representa cun lejos se encuentra un valor de la media. Sus unidades son el cuadrado de las de la variable. Es sensible a valores extremos. Se calcula restando la media al valor conocido, elevndolo al cuadrado y dividindolo por n.

    2 =1

    ( )

    2

    - Desviacin tpica o estndar (standard deviation): es la raz cuadrada de la varianza y representa cun lejos se encuentra un valor de la media como media. Tiene la misma dimensionalidad (unidades) que la variable.

    = 2 A una distancia de una desviacin tpica de la media hay ms de la mitad de los datos (68% aprox.). A una distancia de dos desviaciones tpicas de la media se incluyen casi todos los datos (95% aprox.).

  • - Coeficiente de variacin o variabilidad relativa: es la razn entre la desviacin tpica y la media. Representa qu tamao tiene la desviacin tpica respecto a la media. Es frecuente mostrarla en porcentajes.

    =

    Es una cantidad adimensional (no tiene unidades), interesante para comparar la variabilidad de diferentes variables. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

    Estadsticos de forma

    - Asimetra o sesgo: una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha (distribucin gaussiana). En las distribuciones simtricas, media y mediana coinciden y, si slo hay una moda, tambin coincide. Por lo tanto, las discrepancias entre las medidas de centralizacin son indicacin de asimetra. La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de distribucin. En resumen:

    o La distribucin de los datos es simtrica si la mediana y la media coinciden (media = mediana)

    o La distribucin tiene asimetra izquierda o de signo negativo cuando la mediana es mayor que la media (media < mediana)

    o La distribucin tiene asimetra derecha o de signo positivo cuando la mediana es menos que la media (media > mediana).

  • Hay diferentes estadsticos que sirven para detectar la asimetra. Pueden estar basados en diferencias entre estadsticos de tendencia central (media, mediana, moda), en la diferencia entre el 1 y el 2 cuartiles y el 2 y el 3 o en desviaciones consigo al cubo con respecto a la media (calculadas por el ordenador). El coeficiente de asimetra resta la moda a la media y la divide por la desviacin estndar. En funcin del signo del estadstico diremos que la asimetra es positiva o negativa.

    o En las distribuciones simtricas, la asimetra es nula, ya que la moda coincide con la media.

    o En las distribuciones asimtricas negativas o de asimetra izquierda, la moda es mayor a la media, por lo que el resultado ser negativo.

    o En las distribuciones asimtricas positivas o de asimetra derecha, la moda es menor que la media, por lo que el resultado ser positivo.

    - Apuntamiento o kurtosis: indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana. Es adimensional. Segn el valor del coeficiente de Fisher (g2), en la distribucin se pueden distinguir tres tipos de distribuciones:

    o Leptocrtica (apuntada): Los valores estn muy ajuntados, por lo que se concentran en una zona ms estrecha (ej. edad de los estudiantes de la clase). g2>3 curtosis > 0

    o Mesocrtica (como la normal): g2=3 curtosis = 0 o Platicrtica (aplanada): Los valores estn muy separados, por lo que se

    observa un apuntamiento mayor g2