Caracterización de Datos Cuantitativos No Agrupados

CONGREGACIÓN DE LOS HERMANOS DE LAS ESCUELAS CRISTIANASDISTRITO DE MEDELLÍN

INSTITUTO LA SALLELA EXIGENCIA DA EXCELENCIA

CódigoMaterial de Estudio No. 2

Fecha08 - 05 -

11

Docente: Angélica María López Asignatura: Estadística Curso: 9°03 – 9°04

Caracterización de datos cuantitativos no agrupados

Para caracterizar datos no agrupados se utilizan: el diagrama de caja y bigotes, medidas de tendencia central, medidas de posición y medidas de dispersión.

Medidas de tendencia central

Las medidas de tendencia central son la media, la mediana y la moda.

Cuando se considera una muestra, la media aritmética se simboliza con

X y para un conjunto de datos x1 , x2 , x3 ,…,xn se calcula así:

X=x1+x2+ x3+x4+⋯+xn

n

Cuando se considera una población, la media aritmética se simboliza μ y se calcula de la misma forma.

La media es una medida que se ve afectada por el cambio drástico de uno de los datos. Si hay un dato muy grande o muy pequeño con respecto a los demás

el valor de la media cambia significativamente, es decir, la media es una medida sensible al cambio de un dato.

Cuando se considera una muestra la mediana se simboliza ~X y cuando se considera una población la mediana se simboliza ~μ.

Media aritmética o promedio

Es un dato que pertenece a un individuo artificial, no necesariamente está

en el conjunto de datos, que representa las características del grupo. La

media es el punto de equilibrio del conjunto de datos.

Mediana

Es el dato que divide en dos partes, porcentualmente, iguales el conjunto de

datos.

http://images.google.com.co/imgres?imgurl=http://grupoexter.com/images/Pyr+EFQM_CMYK_SMALL_1.jpg&imgrefurl=http://grupoexter.com/incio.html&h=236&w=236&sz=11&hl=es&start=48&um=1&usg=__FWVbN8FtIb4vEyqPdOTnMoyrzFY=&tbnid=nFLFFJWtGrHXWM:&tbnh=109&tbnw=109&prev=/images?q=comprometidos+con+la+excelencia+E.F.Q.M.&start=40&ndsp=20&um=1&hl=es&sa=N

Para calcularla, se ordena el conjunto de datos de menor a mayor y se ubica el dato de la mitad.

Si el número de datos es impar, la mediana es el dato que se ubica en la mitad y siempre pertenece al conjunto. Si el número de datos es par, la mediana corresponde al promedio de los dos datos de la mitad. En algunos casos, este valor no pertenece al conjunto.

La mediana es una medida que no considera la magnitud de los datos, por ello no se ve afectada por el cambio significativo de uno de ellos. Sin embargo, al

no considerar la magnitud no es una medida que describa las características de los datos cuando están lejanos unos de otros.

En aquellos casos en los cuales se analiza una muestra, la moda se simboliza X̂, si se trata de una población la moda se simboliza μ̂.

Sus principales propiedades son:

Cálculo sencillo.

Interpretación muy clara.

Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".

Cuando de datos cuantitativos se trata, la moda no es una medida muy utilizada para describir su comportamiento ya que carece de significado en un contexto determinado y en algunos casos pueden presentarse distribuciones bimodales y multimodales.

Moda

Corresponde al dato que más se repite dentro de un conjunto de datos.

Medidas de posición

Las medidas de posición dividen a los datos en partes porcentualmente iguales. Las medidas de posición son: los cuartiles, los deciles y los percentiles.

Los cuartiles son tres valores que se simbolizan q1 , q2 , q3. Gráficamente se representa a continuación:

Se puede ver que el valor del cuartil dos corresponde a la mediana. Antes del primer cuartil se encuentra el 25 % de los datos, entre el primero y el segundo cuartil se encuentra el 25 % de los datos y así sucesivamente.

Para calcular el valor de los cuartiles se orden los datos de mayor a menor y se calcula el valor de la mediana, es decir q2. Luego, se considera la primera mitad

de los datos y se calcula la mediana, este dato será el primer cuartil. Igualmente se considera la segunda mitad de los datos y se calcula la mediana, este dato corresponde al tercer cuartil.

Si el número de datos menores a la mediana es par, para calcular q1 la

mediana se incluye. De la misma forma se procede para q3.

Los deciles son 9 datos y se simbolizan d1 , d2 , ,…d9.

El valor del quinto decil corresponde a la mediana. El proceso para calcular los deciles es semejante al que se utilizó para calcular los cuartiles. Primero, la

Cuartiles

Son las medidas en que dividen un conjunto de datos en cuatro partes

iguales. Cada una representa el 25 % del total.

Deciles

Son los valores que dividen un conjunto de datos en diez partes iguales.

Cada una representa el 10 % del total.

Percentiles

Son los valores que dividen un conjunto de datos en cien partes iguales.

Cada una representa el 1 % del total de datos.

mediana, luego los cuartiles y la mediana de la primera cuarta parte de los datos y así sucesivamente hasta obtener los nueve deciles.

Los percentiles son 99 y el percentil 50 corresponde al valor de la mediana.

Estas dos medidas de posición se utilizan en contextos donde la cantidad de datos que se va a utilizar es grande y en contextos relacionados con distribuciones de probabilidad.

Medidas de dispersión

Al analizar un conjunto de datos es necesario establecer algunas medidas que determinan la variabilidad o dispersión de los datos entre si. Estas medidas son: el rango, la varianza y la desviación estándar.

Cuando el rango de los datos es pequeño se dice que la variabilidad o dispersión es baja y viceversa.

Una desviación negativa significa que el dato es menor que la media, y una desviación positiva significa que el dato es mayor que la media.

Ya que el promedio es el punto de equilibrio de los datos, las desviaciones negativas se deben compensar con las desviaciones positivas. Por tanto, la suma de las desviaciones debe ser cero.

Rango

Corresponde a la longitud o ancho que abarcan los datos. Se define como la

diferencia entre el dato mayor y el dato menor.

Desviación

La desviación de un dato es la distancia que hay entre ese valor y la media.

La desviación del i - ésimo dato es d i=x i−X.

Debido a que la suma de las desviaciones es cero, se debe considerar una medida que incluya estos valores y que no sea nula. Para ello, se calculan los cuadrados de las desviaciones, bajo el principio que si una desviación es grande, su cuadrado será grande. Para un conjunto de datos x1 , x2 , x3 ,…,xn se tiene la siguiente definición:

Una fórmula alternativa para calcular la varianza es σ 2=

∑ x i2−

(∑ x i )2

NN

donde:

∑ x i2 corresponde a la suma de los cuadrados de los datos.

(∑ x i )2 corresponde a la suma de los datos elevada al cuadrado.

N corresponde al número de datos.

La interpretación del valor de la varianza está ligada a las unidades en las cuales esté medida la variable. Si la varianza es grande, los datos están muy dispersos y la variabilidad de la variable es alta.

Si se puede concluir que la varianza es grande, entonces la media no es un buen representante del grupo ya que existen datos muy alejados entre sí o datos muy lejanos del promedio.

Varianza

Si la variable que se va a caracterizar se ha tomado de una población, la

varianza se define como la media de las desviaciones al cuadrado. La

varianza poblacional se simboliza σ 2=d12+d2

2+d32+…dn

2

n,n≠N

Si la variable que va a caracterizarse se ha tomado de una muestra, la varianza se define como la suma de los cuadrados de las desviaciones, sobre el número de datos menos uno. La varianza muestral se simboliza S2.

S2=d12+d2

2+d32+d4

2+⋯+dn2

n−1

Es importante aclarar, que para el caso muestral, se estima el valor de una medida, por lo cual se tiende a cometer error en la estimación, luego, la variabilidad de la variable es más alta.

La mayoría de estudios estadísticos están relacionados con muestras, por lo cual, la varianza que normalmente se utiliza para el análisis de resultados es la muestral.

La varianza es una medida de variabilidad o dispersión que debe interpretarse con cuidado, ya que, al considerar los cuadrados de las desviaciones, las cantidades también se elevan.

Para interpretar la variabilidad de una variable sin considerar el problema de las unidades, se considera la desviación estándar como medida alterna.

La desviación estándar es una medida que tiene las mismas unidades que los datos iniciales. Por ello, al analizar si es grande o pequeña no hay problema de comparación entre unidades diferentes.

Diagrama de caja y bigotes

En los estudios en los cuales se caracteriza una variable cuantitativa es necesario establecer algunos criterios que permiten determinar si existen datos inusuales que afectan significativamente la media y la desviación estándar.

El criterio del diagrama de caja y bigotes cumple con esta misión.

El diagrama de caja y bigotes es una representación gráfica que permite detectar datos inusuales en la muestra.

La desviación estándar corresponde a la raíz cuadrada de la varianza. Para el caso poblacional, se simboliza y se calcula:

σ=√σ=√ d12+d22+d32+d42+⋯+dn2

N

Para el caso muestral, se simboliza S, y se calcula:

S=√S=√ d12+d22+d32+d42+⋯+dn2

n−1,n≠ N

q3 – q1

q1 q3

El diagrama de cajas se construye usando la mediana y los cuartiles. La forma del diagrama se muestra en la siguiente gráfica:

Pasos para construir un diagrama de caja y bigotes

1. Se calculan los cuartiles y se ubican sobre una recta real. Estos tres forman las cajas del diagrama.

2. La longitud de las cajas es la diferencia entre el primer y el tercer cuartil. A este valor se llama rango intercuartílico.

3. El primer bigote tiene longitud igual a 1,5 veces el rango intercuartílico. Es decir, el extremo superior del primer bigote está en q3 + 1,5 (q3 – q1). De la misma forma, se tiene que, el extremo inferior del primer bigote esta ubicado en q1 – 1,5(q3 – q1).

El criterio para multiplicar el rango por 1,5 es estándar. En algunos diagramas se puede multiplicar por una unidad o en otros casos por dos.

Los datos que se encuentren dentro de los primeros bigotes, son los que no afectan el valor de las medidas de caracterización.

4. El segundo bigote se construye de la misma forma. Es decir, que el extremo superior del segundo bigote está en q3 + 3(q3 – q1) y el extremo inferior del segundo bigote esta en q1 – 3(q3 – q1).

Los datos ubicados sobre los segundos bigotes son los que influyen, no significativamente sobre las medidas de caracterización.

5. Una vez se ha construido el diagrama de caja y bigotes, se determina si existen datos que están fuera de los dos bigotes. A estos valores se les llama atípicos o inusuales.

Estos datos influyen significativamente en las medidas de caracterización de la variable. Si existe algún dato atípico la varianza es alta.

En caso de determinar que existen datos de este estilo, se debe revisar el proceso de muestreo o se debe determinar si el dato en mención procede de un individuo que no pertenece a la población.

Para caracterizar una variable cuantitativa se utilizan todos los procesos mencionados en este material.

Caracterización de Datos Cuantitativos No Agrupados

Documents

Transcript of Caracterización de Datos Cuantitativos No Agrupados