Formulario - Tema 3. Estadística Descriptiva

5
1 ESTADÍSTICA GENERAL TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE UNIVERSIDAD RAFAEL URDANETA CÓDIGO: 323T12 VICE-RECTORADO ACADÉMICO H. C.: 4 H. T. FACULTAD DE CS. POLÍTICAS, SOCIALES Y ADMINISTRATIVAS CARÁCTER: OBLIGATORIA ESCUELA DE PSICOLOGÍA UBICACIÓN: 2.° SEMESTRE PROFESOR: JUAN DIEGO HERNÁNDEZ LALINDE PRELACIÓN: MATEMÁTICA CÁTEDRA: ESTADÍSTICA GENERAL CURSO(S): VARIOS ÁREA CURRICULAR: MATEMÁTICA SECCIÓN(ES): A, B, C y H CARRERAS ASOCIADAS: PSIC., ADMÓN., CONTADURÍA Y CS. POLÍTICAS PERIODO: 2015-A TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO Unidad 3.1. Medidas de tendencia central para datos no agrupados Las medidas de tendencia central o centralización, son las que reflejan la «disposición» de los datos de concentrarse en torno a un centro. Cuando los datos no se presentan en intervalos o tablas de frecuencia, estas se calculan con base en toda la información disponible. La tabla 3.1 presenta las medidas de centralización más importante para datos no agrupados. Tabla 3.1. Medidas de centralización más importantes para datos no agrupados Media muestral ̅ , donde n es el tamaño de la muestra. Media poblacional , donde N es el tamaño de la población. Mediana muestral Se determina la posición i que ocupa la mediana ( ) dentro del grupo ordenado y luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) . Mediana poblacional Se determina la posición i que ocupa la mediana ( ) dentro de la población ordenada y luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) . Moda muestral La moda muestral (̈) es el valor que más se repite dentro de la muestra. Moda poblacional La moda poblacional (̈) es el valor que más se repite dentro de la población. Unidad 3.2. Medidas de dispersión para datos no agrupados Las medidas de dispersión también llamadas de variabilidadson aquellas que indican la heterogeneidad u homogeneidad de un conjunto de datos. En la proporción en que las diferencias entre cada observación sean elevadas, la dispersión será mayor, indicando un grado importante de heterogeneidad en la información que se analiza. En caso contrario, cuando los datos tienden a agruparse unos cerca de los otros, la variabilidad

description

Estadisticas Descriptiva

Transcript of Formulario - Tema 3. Estadística Descriptiva

Page 1: Formulario - Tema 3. Estadística Descriptiva

1

ESTADÍSTICA GENERAL

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE

UNIVERSIDAD RAFAEL URDANETA CÓDIGO: 323T12

VICE-RECTORADO ACADÉMICO H. C.: 4 H. T.

FACULTAD DE CS. POLÍTICAS, SOCIALES Y ADMINISTRATIVAS CARÁCTER: OBLIGATORIA

ESCUELA DE PSICOLOGÍA UBICACIÓN: 2.° SEMESTRE

PROFESOR: JUAN DIEGO HERNÁNDEZ LALINDE PRELACIÓN: MATEMÁTICA

CÁTEDRA: ESTADÍSTICA GENERAL CURSO(S): VARIOS

ÁREA CURRICULAR: MATEMÁTICA SECCIÓN(ES): A, B, C y H

CARRERAS ASOCIADAS: PSIC., ADMÓN., CONTADURÍA Y CS. POLÍTICAS PERIODO: 2015-A

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

Unidad 3.1. Medidas de tendencia central para datos no agrupados

Las medidas de tendencia central o centralización, son las que reflejan la «disposición» de los datos de

concentrarse en torno a un centro. Cuando los datos no se presentan en intervalos o tablas de frecuencia, estas

se calculan con base en toda la información disponible. La tabla 3.1 presenta las medidas de centralización más

importante para datos no agrupados.

Tabla 3.1. Medidas de centralización más importantes para datos no agrupados

Media muestral ∑

, donde n es el tamaño de la muestra.

Media poblacional ∑

, donde N es el tamaño de la población.

Mediana muestral Se determina la posición i que ocupa la mediana ( ) dentro del grupo ordenado y

luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) ⁄ .

Mediana poblacional Se determina la posición i que ocupa la mediana ( ) dentro de la población ordenada

y luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) ⁄ .

Moda muestral La moda muestral ( ) es el valor que más se repite dentro de la muestra.

Moda poblacional La moda poblacional ( ) es el valor que más se repite dentro de la población.

Unidad 3.2. Medidas de dispersión para datos no agrupados

Las medidas de dispersión —también llamadas de variabilidad— son aquellas que indican la heterogeneidad u

homogeneidad de un conjunto de datos. En la proporción en que las diferencias entre cada observación sean

elevadas, la dispersión será mayor, indicando un grado importante de heterogeneidad en la información que se

analiza. En caso contrario, cuando los datos tienden a agruparse unos cerca de los otros, la variabilidad

Page 2: Formulario - Tema 3. Estadística Descriptiva

2

ESTADÍSTICA GENERAL

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE

disminuye y la concentración aumenta, hecho que reflejaría cierto nivel de homogeneidad. Son muchas las

medidas de variabilidad para datos no agrupados, la tabla 3.2 reseña las más comunes.

Tabla 3.2. Medidas de dispersión más importantes para datos no agrupados

Rango muestral Se ubican el máximo y el mínimo en la muestra y luego se aplica:

Rango poblacional Se ubican el máximo y el mínimo en la población y luego se aplica:

Varianza muestral ∑ ( )

, fórmula general para la varianza muestral.

Varianza muestral ∑

, fórmula desarrollada para la varianza muestral.

Varianza poblacional ∑ ( )

, fórmula general para la varianza poblacional.

Varianza poblacional ∑

, fórmula desarrollada para la varianza poblacional.

D. E. muestral √

D. E. poblacional √

C. V. muestral ( ) ( ⁄ )

C. V. poblacional ( ) ( ⁄ )

Unidad 3.3. Medidas de posición para datos no agrupados

Permiten ubicar valores dentro de un conjunto ordenado según la posición relativa que ocupan. En este sentido,

las medidas de posición dividen en partes proporcionales a un grupo de observaciones. Así pues, un cuantil

será un valor de orden , tal que el 100( ) de los datos se encontrarán en él o por debajo de él, y el (

) estará en él o por encima de él. Los cuantiles más importantes son tres: cuartiles, deciles y percentiles;

aunque, en algunos casos, también se utilizan los sextiles.

Para determinar cualquier medida de localización, debe calcularse primeramente la i-ésima posición que esta

ocupa dentro del conjunto ordenado de valores y luego especificar el valor del cuantil según sea el caso,

dependiendo de si i es un número entero o no. Una forma simple de calcular i es mediante: ( ), donde

es el porcentaje expresado en número decimales ( ).

Page 3: Formulario - Tema 3. Estadística Descriptiva

3

ESTADÍSTICA GENERAL

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE

Unidad 3.4. Medidas de forma para datos no agrupados

Como su nombre lo indica, son medidas de resumen que facilitan la identificación de la forma que tiene una

distribución de datos, enfocándose específicamente en la concentración a un lado u otro de la media (asimetría)

y en el apuntamiento en torno a esta (curtósis). Por lo general, la intención es la de comparar la forma de la

distribución estudiada con la campana de Gauss. La tabla 3.3 presenta las medidas de forma más usadas, en

especial en programas de cómputo o paquetes estadísticos.

Tabla 3.3. Medidas de forma más importantes para datos no agrupados

Coef. de asimetría de Fisher

( )( ) , donde es el tercer momento central.

Tercer momento central ∑

( ⁄ )(∑ )(∑

) ( ⁄ )(∑

)

Coef. estandarizado √ ⁄⁄ , valores normales entre el intervalo [ ].

Coef. de curtósis de Fisher ( )

( )( )( )

( )

( )( ), donde es el cuarto momento central.

Cuarto momento central ∑

( ⁄ )(∑ )(∑

) ( ⁄ )(∑

) (∑

) ( ⁄ )(∑

)

Coef. estandarizado √ ⁄⁄ , valores normales entre el intervalo [ ].

Unidad 3.5. Medidas de asociación

En muchas situaciones el análisis descriptivo se hace sobre datos bivariados, es decir, sobre pares ordenados

de la forma ( ). En estos casos, el interés recae en determinar en qué medida X y Y están relacionadas,

estableciendo aspectos como la magnitud y el sentido de esta asociación. La tabla 3.4 presenta dos medidas

relevantes de asociación. Vale la pena enfatizar que estas solo miden relaciones de tipo lineal.

Tabla 3.4. Medidas de asociación más importantes

Covarianza muestral ∑ (∑

)(∑

) ⁄

Correl. muestral de Pearson

√ √ , donde y son las sumas de cuadrados de X y Y, resp.

Suma de cuadrados en X ∑

(∑ ) ⁄ , donde n es el tamaño muestral.

Suma de cuadrados en Y ∑

(∑ ) ⁄ , donde n es el tamaño muestral.

Page 4: Formulario - Tema 3. Estadística Descriptiva

4

ESTADÍSTICA GENERAL

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE

Tabla 3.4. (Cont.). Medidas de asociación más importantes

Modelo de R. L. S. o ( )

Pendiente estimada ⁄

Intercepto estimado

Errores del modelo

Unidad 3.6. Tablas de frecuencia agrupadas en intervalos

Al momento de agrupar información, es útil hacerlo mediante herramientas gráficas y tabulares que simplifiquen

la lectura y el análisis del fenómeno estudiado. Una tabla de frecuencias es la ordenación tabular de una

variable de interés, en la que se registran las frecuencias absolutas y relativas, puntuales y acumuladas, con las

que los datos son observados. El siguiente procedimiento resulta práctico cuando se desea construir una

distribución de frecuencias.

Paso 1: ordenar los datos ascendentemente.

Paso 2: calcular el rango.

Paso 3: calcular el número de intervalos. Esto puede realizarse de diferentes formas, aunque las más

recomendadas son:

o Regla de Sturges: .

o Regla de la raíz cuadrada: √ .

o Se recomienda redondear por exceso.

Paso 4: calcular el ancho de cada intervalo mediante:

o ⁄ .

o Se recomienda redondear por exceso.

Paso 5: construir finalmente la tabla de frecuencias empezando por el dato más pequeño. El ancho

determinará el límite superior del primer intervalo, y, a su vez, el límite inferior del segundo. Tome en cuenta

que el límite superior no debe incluirse en la primera desigualdad, pero sí en la siguiente. Por otro lado, las

columnas de las frecuencias absolutas y relativas, se completan contando cuántas ocurrencias hay en cada

intervalo, en tanto que las columnas de las frecuencias acumuladas se completan sumando sucesivamente

las frecuencias puntuales. Por último, las marcas de clase corresponden a la mitad de cada intervalo, de

modo que para obtenerlas, basta con sumar los límites y dividirlos entre dos.

Page 5: Formulario - Tema 3. Estadística Descriptiva

5

ESTADÍSTICA GENERAL

TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO

PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE

Unidad 3.7. Histogramas y polígonos de frecuencias, ojivas porcentuales

Una consecuencia directa de las distribuciones de frecuencias son los histogramas y polígonos, y ojivas

porcentuales. Los histogramas son representaciones gráficas en las que, cada barra, es directamente

proporcional a la frecuencia observada, ya sea en términos relativos o absolutos. Así, si el ancho de cada

intervalo es constante, una barra con mayor altura indicará una mayor concentración de observaciones. Este

diagrama es especialmente útil para evaluar la forma de la distribución, constituyéndose en una interesante

herramienta de soporte a las medidas de forma. Por su parte, el polígono de frecuencias es un histograma

construido a través de líneas que se conectan en cada marca de clase, razón por la cual es, en esencia, el

mismo diagrama. Por último, la ojiva porcentual permite identificar las frecuencias acumuladas, de modo que su

forma es creciente, partiendo desde cero (0 %) hasta uno (100 %).

En líneas generales, se recomienda tomar en cuenta los siguientes aspectos al momento de construir las

gráficas anteriormente mencionadas:

Trabajar con papel milimetrado.

Construir las escalas tomando en cuenta el dato máximo y el mínimo.

Representar en el eje X la variable de interés.

Representar en el eje Y las frecuencias, sean absolutas o relativas, puntuales o acumuladas.