Formulario - Tema 3. Estadística Descriptiva
-
Upload
javier-del-mar -
Category
Documents
-
view
215 -
download
1
description
Transcript of Formulario - Tema 3. Estadística Descriptiva
![Page 1: Formulario - Tema 3. Estadística Descriptiva](https://reader035.fdocuments.es/reader035/viewer/2022072003/563dba1c550346aa9aa2c7a7/html5/thumbnails/1.jpg)
1
ESTADÍSTICA GENERAL
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE
UNIVERSIDAD RAFAEL URDANETA CÓDIGO: 323T12
VICE-RECTORADO ACADÉMICO H. C.: 4 H. T.
FACULTAD DE CS. POLÍTICAS, SOCIALES Y ADMINISTRATIVAS CARÁCTER: OBLIGATORIA
ESCUELA DE PSICOLOGÍA UBICACIÓN: 2.° SEMESTRE
PROFESOR: JUAN DIEGO HERNÁNDEZ LALINDE PRELACIÓN: MATEMÁTICA
CÁTEDRA: ESTADÍSTICA GENERAL CURSO(S): VARIOS
ÁREA CURRICULAR: MATEMÁTICA SECCIÓN(ES): A, B, C y H
CARRERAS ASOCIADAS: PSIC., ADMÓN., CONTADURÍA Y CS. POLÍTICAS PERIODO: 2015-A
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
Unidad 3.1. Medidas de tendencia central para datos no agrupados
Las medidas de tendencia central o centralización, son las que reflejan la «disposición» de los datos de
concentrarse en torno a un centro. Cuando los datos no se presentan en intervalos o tablas de frecuencia, estas
se calculan con base en toda la información disponible. La tabla 3.1 presenta las medidas de centralización más
importante para datos no agrupados.
Tabla 3.1. Medidas de centralización más importantes para datos no agrupados
Media muestral ∑
, donde n es el tamaño de la muestra.
Media poblacional ∑
, donde N es el tamaño de la población.
Mediana muestral Se determina la posición i que ocupa la mediana ( ) dentro del grupo ordenado y
luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) ⁄ .
Mediana poblacional Se determina la posición i que ocupa la mediana ( ) dentro de la población ordenada
y luego se calcula su valor dependiendo de si i es entero o no, donde: ( ) ⁄ .
Moda muestral La moda muestral ( ) es el valor que más se repite dentro de la muestra.
Moda poblacional La moda poblacional ( ) es el valor que más se repite dentro de la población.
Unidad 3.2. Medidas de dispersión para datos no agrupados
Las medidas de dispersión —también llamadas de variabilidad— son aquellas que indican la heterogeneidad u
homogeneidad de un conjunto de datos. En la proporción en que las diferencias entre cada observación sean
elevadas, la dispersión será mayor, indicando un grado importante de heterogeneidad en la información que se
analiza. En caso contrario, cuando los datos tienden a agruparse unos cerca de los otros, la variabilidad
![Page 2: Formulario - Tema 3. Estadística Descriptiva](https://reader035.fdocuments.es/reader035/viewer/2022072003/563dba1c550346aa9aa2c7a7/html5/thumbnails/2.jpg)
2
ESTADÍSTICA GENERAL
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE
disminuye y la concentración aumenta, hecho que reflejaría cierto nivel de homogeneidad. Son muchas las
medidas de variabilidad para datos no agrupados, la tabla 3.2 reseña las más comunes.
Tabla 3.2. Medidas de dispersión más importantes para datos no agrupados
Rango muestral Se ubican el máximo y el mínimo en la muestra y luego se aplica:
Rango poblacional Se ubican el máximo y el mínimo en la población y luego se aplica:
Varianza muestral ∑ ( )
, fórmula general para la varianza muestral.
Varianza muestral ∑
, fórmula desarrollada para la varianza muestral.
Varianza poblacional ∑ ( )
, fórmula general para la varianza poblacional.
Varianza poblacional ∑
, fórmula desarrollada para la varianza poblacional.
D. E. muestral √
D. E. poblacional √
C. V. muestral ( ) ( ⁄ )
C. V. poblacional ( ) ( ⁄ )
Unidad 3.3. Medidas de posición para datos no agrupados
Permiten ubicar valores dentro de un conjunto ordenado según la posición relativa que ocupan. En este sentido,
las medidas de posición dividen en partes proporcionales a un grupo de observaciones. Así pues, un cuantil
será un valor de orden , tal que el 100( ) de los datos se encontrarán en él o por debajo de él, y el (
) estará en él o por encima de él. Los cuantiles más importantes son tres: cuartiles, deciles y percentiles;
aunque, en algunos casos, también se utilizan los sextiles.
Para determinar cualquier medida de localización, debe calcularse primeramente la i-ésima posición que esta
ocupa dentro del conjunto ordenado de valores y luego especificar el valor del cuantil según sea el caso,
dependiendo de si i es un número entero o no. Una forma simple de calcular i es mediante: ( ), donde
es el porcentaje expresado en número decimales ( ).
![Page 3: Formulario - Tema 3. Estadística Descriptiva](https://reader035.fdocuments.es/reader035/viewer/2022072003/563dba1c550346aa9aa2c7a7/html5/thumbnails/3.jpg)
3
ESTADÍSTICA GENERAL
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE
Unidad 3.4. Medidas de forma para datos no agrupados
Como su nombre lo indica, son medidas de resumen que facilitan la identificación de la forma que tiene una
distribución de datos, enfocándose específicamente en la concentración a un lado u otro de la media (asimetría)
y en el apuntamiento en torno a esta (curtósis). Por lo general, la intención es la de comparar la forma de la
distribución estudiada con la campana de Gauss. La tabla 3.3 presenta las medidas de forma más usadas, en
especial en programas de cómputo o paquetes estadísticos.
Tabla 3.3. Medidas de forma más importantes para datos no agrupados
Coef. de asimetría de Fisher
( )( ) , donde es el tercer momento central.
Tercer momento central ∑
( ⁄ )(∑ )(∑
) ( ⁄ )(∑
)
Coef. estandarizado √ ⁄⁄ , valores normales entre el intervalo [ ].
Coef. de curtósis de Fisher ( )
( )( )( )
( )
( )( ), donde es el cuarto momento central.
Cuarto momento central ∑
( ⁄ )(∑ )(∑
) ( ⁄ )(∑
) (∑
) ( ⁄ )(∑
)
Coef. estandarizado √ ⁄⁄ , valores normales entre el intervalo [ ].
Unidad 3.5. Medidas de asociación
En muchas situaciones el análisis descriptivo se hace sobre datos bivariados, es decir, sobre pares ordenados
de la forma ( ). En estos casos, el interés recae en determinar en qué medida X y Y están relacionadas,
estableciendo aspectos como la magnitud y el sentido de esta asociación. La tabla 3.4 presenta dos medidas
relevantes de asociación. Vale la pena enfatizar que estas solo miden relaciones de tipo lineal.
Tabla 3.4. Medidas de asociación más importantes
Covarianza muestral ∑ (∑
)(∑
) ⁄
Correl. muestral de Pearson
√ √ , donde y son las sumas de cuadrados de X y Y, resp.
Suma de cuadrados en X ∑
(∑ ) ⁄ , donde n es el tamaño muestral.
Suma de cuadrados en Y ∑
(∑ ) ⁄ , donde n es el tamaño muestral.
![Page 4: Formulario - Tema 3. Estadística Descriptiva](https://reader035.fdocuments.es/reader035/viewer/2022072003/563dba1c550346aa9aa2c7a7/html5/thumbnails/4.jpg)
4
ESTADÍSTICA GENERAL
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE
Tabla 3.4. (Cont.). Medidas de asociación más importantes
Modelo de R. L. S. o ( )
Pendiente estimada ⁄
Intercepto estimado
Errores del modelo
Unidad 3.6. Tablas de frecuencia agrupadas en intervalos
Al momento de agrupar información, es útil hacerlo mediante herramientas gráficas y tabulares que simplifiquen
la lectura y el análisis del fenómeno estudiado. Una tabla de frecuencias es la ordenación tabular de una
variable de interés, en la que se registran las frecuencias absolutas y relativas, puntuales y acumuladas, con las
que los datos son observados. El siguiente procedimiento resulta práctico cuando se desea construir una
distribución de frecuencias.
Paso 1: ordenar los datos ascendentemente.
Paso 2: calcular el rango.
Paso 3: calcular el número de intervalos. Esto puede realizarse de diferentes formas, aunque las más
recomendadas son:
o Regla de Sturges: .
o Regla de la raíz cuadrada: √ .
o Se recomienda redondear por exceso.
Paso 4: calcular el ancho de cada intervalo mediante:
o ⁄ .
o Se recomienda redondear por exceso.
Paso 5: construir finalmente la tabla de frecuencias empezando por el dato más pequeño. El ancho
determinará el límite superior del primer intervalo, y, a su vez, el límite inferior del segundo. Tome en cuenta
que el límite superior no debe incluirse en la primera desigualdad, pero sí en la siguiente. Por otro lado, las
columnas de las frecuencias absolutas y relativas, se completan contando cuántas ocurrencias hay en cada
intervalo, en tanto que las columnas de las frecuencias acumuladas se completan sumando sucesivamente
las frecuencias puntuales. Por último, las marcas de clase corresponden a la mitad de cada intervalo, de
modo que para obtenerlas, basta con sumar los límites y dividirlos entre dos.
![Page 5: Formulario - Tema 3. Estadística Descriptiva](https://reader035.fdocuments.es/reader035/viewer/2022072003/563dba1c550346aa9aa2c7a7/html5/thumbnails/5.jpg)
5
ESTADÍSTICA GENERAL
TEMA 3. ESTADÍSTICA DESCRIPTIVA. RESUMEN Y FORMULARIO
PREPARADO POR: JUAN DIEGO HERNÁNDEZ LALINDE
Unidad 3.7. Histogramas y polígonos de frecuencias, ojivas porcentuales
Una consecuencia directa de las distribuciones de frecuencias son los histogramas y polígonos, y ojivas
porcentuales. Los histogramas son representaciones gráficas en las que, cada barra, es directamente
proporcional a la frecuencia observada, ya sea en términos relativos o absolutos. Así, si el ancho de cada
intervalo es constante, una barra con mayor altura indicará una mayor concentración de observaciones. Este
diagrama es especialmente útil para evaluar la forma de la distribución, constituyéndose en una interesante
herramienta de soporte a las medidas de forma. Por su parte, el polígono de frecuencias es un histograma
construido a través de líneas que se conectan en cada marca de clase, razón por la cual es, en esencia, el
mismo diagrama. Por último, la ojiva porcentual permite identificar las frecuencias acumuladas, de modo que su
forma es creciente, partiendo desde cero (0 %) hasta uno (100 %).
En líneas generales, se recomienda tomar en cuenta los siguientes aspectos al momento de construir las
gráficas anteriormente mencionadas:
Trabajar con papel milimetrado.
Construir las escalas tomando en cuenta el dato máximo y el mínimo.
Representar en el eje X la variable de interés.
Representar en el eje Y las frecuencias, sean absolutas o relativas, puntuales o acumuladas.