Tema 8

39
Tema 8 Estadística Descriptiva Unidimensional

Transcript of Tema 8

Page 1: Tema 8

Tema 8Estadística Descriptiva

Unidimensional

Page 2: Tema 8

Contenidos

1. Estadística: clases y conceptos básicos2. Variables o caracteres estadísticos3. Tablas estadísticas: recuento4. Tablas estadísticas: frecuencias5. Otra forma de recuento: diagrama de tallo y hojas6. Gráficos para variables estadísticas cualitativas7. Gráficos para variables estadísticas cuantitativas8. Series temporales y otros gráficos9. Parámetros de centralización10. Parámetros de dispersión11. Estudio conjunto de x y σ

Page 3: Tema 8

Introducción.La Estadística es la parte de las Matemáticas que se ocupa de los

procedimientos que permiten el tratamiento sistemático de datos, la búsqueda de conclusiones de los mismos y la toma de decisiones tras su análisis.

En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos, censos, etc.) y de ahí proviene su nombre. Hoy en día está presente en todos los ámbitos humanos, tanto individuales como colectivos.

Page 4: Tema 8

1. Estadística: clases y conceptos básicos

DefiniciónLa Estadística es la ciencia que se ocupa de la recogida de datos, su organización y análisis; así como de las predicciones que, a partir de estos datos, pueden hacerse.

La Estadística descriptiva se ocupa de tomar los datos, organizarlos en tablas o en representaciones gráficas y del cálculo de unos números que nos informen de manera global del conjunto estudiado.

La Estadística inferencial trata sobre la elaboración de conclusiones para la población, partiendo de los resultados de una muestra y del grado de fiabilidad de estas conclusiones.

Page 5: Tema 8

1. Estadística: clases y conceptos básicos

Conceptos básicos:

Población. Es el conjunto formado por todos los elementos que existen para el estudio de un determinado fenómeno.

Individuo u objeto. Es cada elemento de la población.

Muestra. Es el subconjunto que tomamos de la población para determinar el estudio del fenómeno.

Tamaño de la muestra. Es el número de individuos que la componen.

Page 6: Tema 8

2. Variables o caracteres estadísticos

Definición

Cada una de las cualidades o propiedades referidas a los elementos de una población objeto de estudio estadístico se llama variable o carácter estadístico.

Las clases de variables estadísticas que aparecen en cualquier estudio estadístico son:Variables o caracteres cualitativos son aquellos que no se pueden medir y se describen con palabras.Variable o caracteres cuantitativos son aquellos que se pueden medir y expresar con números.Variables o caracteres cuantitativos discretos son aquellos que pueden tomar solamente un número finito de valores numéricos.Variables o caracteres cuantitativos continuos son aquellos que pueden tomar cualquier valor en un intervalo dado.

Page 7: Tema 8

3. Tablas estadísticas: recuento

La forma usual de ordenar los datos recogidos de una encuesta, consiste en realizar un recuento y, posteriormente, formar una tabla.El recuento en Estadística se realiza de la siguiente forma:1. Se ordenan las cualidades o valores que puede tomar la variable estadística, colocándolos en la primera columna de la tabla.2. En la columna del total se anota el número total de segmentos trazados para cada cualidad o valor.En el caso de las variables cuantitativas continuas o discretas con muchos valores, los datos deben agruparse en clases o intervalos.El valor medio de cada clase o intervalo se llama marca de clase y se calcula como la semisuma de los extremos del intervalo.Para construir intervalos o clases hemos de tener en cuenta:• Es conveniente que el número de intervalos esté entre 5 y 10.• Usualmente tomamos los intervalos con igual amplitud o longitud. • Calculamos la amplitud de cada intervalo dividiendo el recorrido entre el número de intervalos que tomemos.

Page 8: Tema 8

4. Tablas estadísticas: frecuencias

Definición

• Frecuencia absoluta, fi , de una cualidad o de un valor xi de la variable estadística es el número total de veces que aparece esta cualidad o valor. La suma de todas las frecuencias absolutas es necesariamente el tamaño de la muestra o la población a estudio:

• Frecuencia relativa o proporción, hi , de una cualidad o de un valor xi, es el cociente que resulta de dividir su frecuencia absoluta entre el número total, N, de individuos. Representa la proporción de estos sobre el total y verifica 0 ≤ hi≤ 1.La suma de todas las frecuencias relativas es la unidad:

∑i=1

n

f i=N

∑i=1

n

hi=1

Page 9: Tema 8

4. Tablas estadísticas: frecuencias

Definición• Frecuencia porcentual o porcentaje, pi , de una cualidad o de un valor xi es el tanto por ciento que representa este valor o cualidad respecto del total. Se calcula multiplicando la frecuencia relativa por 100 y verifica 0 ≤ pi ≤ 100. La suma de todos los porcentajes es 100• Frecuencia absoluta acumulada, Fi , de un valor xi es la suma de todas las frecuencias absolutas correspondientes a los valores anteriores a xi y a la suya propia.

• Frecuencia relativa acumulada, Hi , de un valor xi es la suma de todas las frecuencias relativas correspondientes a los valores anteriores a xi y a la suya propia.

• Frecuencia porcentual acumulada, Pi , de un valor xi es la suma de las frecuencias porcentuales que se corresponden a los valores anteriores a xi y a la suya propia.

Fi=∑j=1

i

f j

H i=∑j=1

i

h j=F i

N

Page 10: Tema 8

5. Diagrama de tallo y hojas

• El diagrama de tallo y hojas es un procedimiento semigráfico que permite presentar la información para variables cuantitativas y especialmente útil cuando el número de datos es pequeño.Veamos su construcción realizando en un ejemplo:En un centro de enseñanza se han pesado a 92 alumnas y alumnos. Mujeres: Hombres:64 54 59 63 55 57 53 66 68 51 57 59 54 59 59 64 66 73 86 70 75 68 86 89 63 73 70 69 66 7761 54 57 54 57 54 55 52 46 52 68 50 53 49 43 79 79 77 82 61 77 71 59 84 86 70 77 70 98 6857 60 50 68 49 59 68 67 61 70 64 66 68 62 64 66 70 70 68 70 68 82 73 73 70 82 86 74 64 70

PASO 1º. El tallo es una columna numérica en la que se representa el peso de diez en diez kilogramos, omitiendo el último dígito.PASO 2º Se va añadiendo el último dígito, es decir, cada hoja, de cada uno de los pesos en la línea correspondiente.PASO 3º Una vez añadidos todos los datos, el gráfico toma el aspecto que sigue:4|6 9 3 95|4 9 5 7 3 1 7 9 4 9 9 4 7 4 7 4 5 2 2 0 3 7 0 9 96|4 3 6 8 1 8 0 8 8 7 1 4 6 8 2 4 4 6 8 3 9 6 1 8 6 8 8 47|0 3 0 5 3 0 7 9 9 7 7 1 0 7 0 0 0 0 3 3 0 4 08|6 6 9 2 4 6 2 2 69|8

Page 11: Tema 8

5. Diagrama de tallo y hojas

PASO 4º Ordenando las hojas dentro de cada tallo se obtiene el gráfico definitivo.4|3 6 9 95|0 0 1 2 2 3 3 4 4 4 4 4 5 5 7 7 7 7 7 9 9 9 9 9 96|0 1 1 1 2 3 3 4 4 4 4 4 6 6 6 6 6 7 8 8 8 8 8 8 8 8 8 97|0 0 0 0 0 0 0 0 0 0 1 3 3 3 3 4 5 7 7 7 7 9 98| 2 2 2 4 6 6 6 6 99|8

En el gráfico de tallo y hojas observamos:• Las frecuencias absolutas de cada uno de los tallos• La clase o tallo con mayor frecuencia • Girando la página 90 grados, las filas de dígitos se convierten en columnas y nos ofrecen una visión globalde la distribución de los pesos.

Page 12: Tema 8

6. Gráficos para variables cualitativas

Las tablas estadísticas muestran la información de forma esquemática y están preparadas para cálculos posteriores.

La misma información estadística puede mostrarse de forma global y más expresiva, utilizando los gráficos estadísticos.

Los gráficos poseen un fuerte poder de comunicación de los resultados de un estudio estadístico.

Detallamos, a continuación, los principales gráficos que permiten describir variables cualitativas.

Page 13: Tema 8

6.1. Diagramas de barras

Consiste en dibujar un rectángulo por cada una de las modalidades de la variable, de modo que las bases sean todas iguales y apoyadas en el eje, en el que se indican las modalidades, y la altura de cada rectángulo debe ser proporcional a la frecuencia de la modalidad representada.

Page 14: Tema 8

6.2. Diagramas de sectores

Consiste en dividir un círculo, a veces un semicírculo, en sectores circulares; cada uno de ellos representa una modalidad de la variable. La amplitud, en grados, de cada sector es proporcional a la frecuencia o porcentaje de la modalidad a la que representa.La amplitud angular correspondiente a cada cualidad o valor de la variable se calcula mediante la expresión:

α i=h i⋅360 º

Page 15: Tema 8

6.3. PictogramasConsiste en realizar dibujos alusivos a la distribución que se desea representar.Son gráficos poco precisos, aunque fáciles de interpretar a simple vista.Los pictogramas pueden prestarse a confusión cuando en el dibujo no se especifica si las frecuencias representadas son proporcionales a las longitudes, a las superficies o a los volúmenes.

Page 16: Tema 8

6.4. CartogramasConsiste en representar sobre un mapa cualquier tipo de datos relacionados con una área geográfica. Muestras de cartogramas pueden verse debajo y en el margen.

Page 17: Tema 8

7. Gráficos para variables cuantitativas

Los gráficos más utilizados para representar distribuciones de variables cuantitativas, tanto discretas como continuas, son los que se describen a continuación.7.1. Diagramas de barras o de columnasRepresentan distribuciones de variables discretas por medio de barras o columnas independientes, situadas encima de la variable representada. En muchas ocasiones se superponen dos o más diagramas con el fin de comparar los datos de diferentes situaciones.

Page 18: Tema 8

7.2. Diagrama de frecuencias

También llamados polígonos de frecuencias. Se forman uniendo los extremos de las barras o columnas mediante una línea quebrada. Son muy utilizados los que representan las frecuencias acumuladas en el estudio del crecimiento determinados fenómenos.

Page 19: Tema 8

7.3. HistogramasSon análogos a los diagramas de barras o columnas y se utilizan para representar distribuciones de frecuencias de variables continuas.Consisten en rectángulos cuyas bases son cada uno de los intervalos y la altura es la frecuencia absoluta correspondiente a dicho intervalo, siempre que todos los intervalos tengan la misma amplitud. En caso contrario, las alturas serán tales que las áreas de los rectángulos sean proporcionales a las correspondientes frecuencias.

Page 20: Tema 8

8.1. Series temporalesMuestran las fluctuaciones de una o varias variables estadísticas con el paso del tiempo. Son diagramas lineales en los que interesa considerar la altura de la línea con respecto a la base del dibujo.

Page 21: Tema 8

8.2. Diagramas en espiral o polares

Representan datos asociados al tiempo en los que los valores de la variable son tomados sobre radios de una circunferencia.Estos diagramas se utilizan para representar el crecimiento del fenómeno a estudiar.

Page 22: Tema 8

8.3. Pirámides de población

Son gráficos de población clasificada por la edad y por su sexo. La variable edad se toma sobre el eje vertical y las frecuencias o porcentajes de mujeres (derecha) y hombres (izquierda) se toman sobre el eje horizontal. Es decir, una pirámide de población consiste en dos histogramas, cuya variable estadística está en el eje vertical y las frecuencias o porcentajes en el eje horizontal.

Page 23: Tema 8

8.4. Diagramas triangularesRepresentan tres aspectos o variables del problema o fenómeno estudiado. Consiste en dibujar un triángulo equilátero y, sobre sus lados, hacer divisiones de diez en diez señalando porcentajes. Se enumera cada lado comenzando con cero en el vértice y siguiendo en sentido contrario a las agujas de un reloj. Se van trazando líneas paralelas a cada lado desde los disntintos porcentajes ya marcados, de manera que de los tres lados del triángulo parten líneas perpendiculares que se cortan en un punto que es el valor buscado.

En ellos suelen recogerse aspectos económicos o sociales.Son muy utilizados en Geología para clasificar rocas y tierras.

Page 24: Tema 8

9. Parámetros de centralización

En la búsqueda de la concreción y la simplificación, la información recogida en una tabla o gráfica estadística suele resumirse en unos pocos valores que nos informan del comportamiento de todos los individuos del colectivo estudiado.Estos valores, representativos de todos los de una distribución, se llaman parámetros o medidas de centralización.Los Parámetros de centralización son:

● Media● Moda● Mediana● Cuartiles● Deciles● Percentiles

Page 25: Tema 8

9.1. Media aritméticaMedia aritmética de una variable estadística es el cociente que resulta de dividir la suma de todos los valores por el número total de éstos. Se representa por X. Su cálculo se realiza atendiendo a la presentación de los datos.•Para datos sin frecuenciasSi la variable toma los N valores x1 , …,xn la media aritmética adopta la expresión:•Para datos con frecuenciasSi la variable toma los valores o marcas de clase x1 , …,xn siendo f1 , …,fn las frecuencias absolutas correspondientes de la distribución, se calcula conla expresión:•Con datos ponderadosLa media ponderada se calcula cuando todos losValores de la variable no tienen el mismo peso. Su fórmula es análoga a la vista con anterioridad,cambiando las frecuencias por los pesos y, en el denominador, N por la suma de los pesos

X̄=

∑i=1

n

x i

N

X̄=

∑i=1

n

x i⋅f i

N

X̄=

∑i=1

n

x i⋅p i

∑i=1

n

pi

Page 26: Tema 8

Consideraciones sobre la media aritmética

●La media aritmética es el parámetro de centralización más

utilizado.●No siempre es posible calcular la media aritmética y, a veces,

aunque sea posible calcularla, carece de significado. En estos

casos deben utilizarse otras medidas de centralización.●Si se suma una constante a todos los valores de la variable, la

media aritmética aumenta en el mismo valor.●Si se multiplican todos los valores de la variable por un mismo

número, la media queda multiplicada por el mismo número.

Page 27: Tema 8

9.2. ModaSe denomina moda de una variable estadística al valor de la variable que tiene mayor frecuencia absoluta. Se representa por Mo.Puede ocurrir que la moda no sea única, es decir, la distribución puede tener 2, 3 o más modas, recibiendo el nombre de bimodal, trimodal, etc.En el caso de que los datos se encuentren agrupados en intervalos, la clase con mayor frecuencia sedenomina clase modal. Puede tomarsecomo aproximación a la moda la marcade clase de la clase modal.Se calcula la moda mediante la expresión:

M o=Li+f M o

−f M o−1

( f M o−f M o−1)+(f M o

−f M o+1)⋅c

Page 28: Tema 8

9.3. MedianaMediana de una variable estadística es el valor que deja a su izquierda un número de datos igual a los que deja a su derecha. Se representa por Me.La mediana correspondiente a una distribución de variable discreta es el valor central si el número de datos es impar, y si el número de datos es par, la mediana es la media de los valores centrales.En el caso de que los datos, correspondientes a una variable continua, se encuentren agrupados en intervalos, la clase que contiene a la mediana se denomina clase mediana o intervalo mediano. Puede tomarse como mediana, en una primera aproximación, la marcade clase del intervalo mediano.Se calcula mediante la expresión:

M e=Li+

N2

−FM e−1

f M e

⋅c

Page 29: Tema 8

9.4.1 CuartilesCuartilesLos valores de la variable que superan, exactamente, al 25%, 50% y 75% de los datos se llaman, respectivamente, cuartil primero ( Q1 ), segundo ( Q2 ) y tercero ( Q3 ).Es obvio que el segundo cuartil, por definición, coincide con la mediana. cálculo de los otros cuartiles sigue las pautas de la mediana y se obtienen a través de las expresiones:

Q1=Li+

N4

−FQ 1−1

f Q 1

⋅c Q3=Li+

3 N4

−FQ3−1

f Q3

⋅c

Page 30: Tema 8

9.4.2 Deciles DecilesAnálogamente a los cuartiles, se llaman deciles a los valores de la variable que dividen a los datos en diez partes iguales. Es decir, los deciles agrupan a los datos en diez partes correspondientes cada una con el 10 % de la distribución.Se representan por Di ,y la expresión que permite calcularlos es:

Dk=Li+

k⋅N10

−FD k−1

f Dk

⋅c

Page 31: Tema 8

9.4.3 PercentilesPercentiles

De la misma manera, podemos dividir la distribución en 100 partes, con lo cual podemos llegar a conocer cuál es el valor de la variable que deja un porcentaje de casos a su izquierda y derecha. Se representa por Pi y se calculan a través de la expresión:

Pk=Li+

k⋅N100

−FP k−1

f Pk

⋅c

Page 32: Tema 8

10. Parámetros de dispersión

Las medidas de centralización vistas con anterioridad necesitan de otras que las complementen en el estudio de las distribuciones de frecuencias de las variables estadísticas.Estas nuevas medidas, que denominamos parámetros de dispersión, informan de las desviaciones que sufren los datos respecto de los valores centrales, en especial con relación a la media aritmética.Los parámetros de dispersión más usuales son:

●Recorrido●Desviación Media●Varianza●Desviación Típica●Coeficiente de variación

Page 33: Tema 8

10.1. RecorridoRecorrido o rango de una variable estadística es la diferencia entre el mayor y el menor valor de los datos observados. Se representa por R.

En la misma línea y en casos particulares suele utilizar el recorrido intercuartílico. Dicho recorrido es la diferencia entre los cuartiles tercero y primero, representado por: Ri =Q3-Q1

Page 34: Tema 8

10.2. Desviación mediaSe denomina desviación media de una variable estadística a la media de los valores absolutos de las desviaciones de los datos o marcas de clase respecto de la media aritmética. Se representa por DM.

La expresión que permite calcular la desviación media es la siguiente:

DM=

∑i=1

n

| x i− x̄|⋅f i

N

Page 35: Tema 8

10.3. VarianzaVarianza de una variable estadística es la media aritmética de los cuadrados de las desviaciones de todos los datos o marcas de clase respecto de la media. Se representa por σ2.Las expresiones equivalentes que permiten calcular la varianza son:

σ2=

∑i=1

n

(x i2− x̄2)⋅f i

N=

∑i=1

n

x i2⋅f i

N− x̄2

Page 36: Tema 8

10.4. Desviación típicaSe denomina desviación típica de una variable estadística a la raíz cuadrada positiva de la varianza. Se representa por la letra griega σ y vale:

σ=√σ2=√∑i=1

n

( x i2− x̄2 )⋅f i

N=√∑i=1

n

x i2⋅f i

N− x̄2

La desviación típica es el parámetro de dispersión más utilizado.●Si se suma una constante a todos los valores de la variable, la

desviación típica no varía. ●Si se multiplican todos los valores de la variable por un mismo número,

la desviación típica queda multiplicada por el mismo número.

Consideraciones sobre la desviación típica

Page 37: Tema 8

10.5. Coeficiente de variación

El coeficiente de variación de una variable estadística es el cociente entre la desviación típica y el valor absoluto de la media aritmética. Se representa por CV. Así, se tiene:

El coeficiente de variación es un número positivo que no tiene dimensiones,es decir, no depende de las escalas utilizadas para medir la variable estudiada.Cuanto más pequeño sea este coeficiente de variación, los datos están más concentrados alrededor de la media, y esta será más representativa.Este coeficiente permite comparar dos poblaciones heterogéneas:

Si x e y son dos variables estadísticas cuyas medias son x , y , y sus desviaciones típicas σx y σy se tiene:

● Si x = y , σx < σy x es más representativa.⇒● Si x ≠ y , σx < σy x es más representativa.⇒

CV=σ| x̄|

Page 38: Tema 8

11. Estudio conjunto de x– y σ

En toda distribución estadística, el estudio del comportamiento conjunto de la media aritmética y la desviación típica nos aporta numerosa información sobre la distribución de frecuencias estudiada.

En casi todas las distribuciones estadísticas de comportamiento normal se verifican de forma aproximada:

● En ( x – σ, x + σ) está el 68,27% del total de individuos.● En ( x – 2 σ, x + 2σ) está el 95,45% del total de individuos.● En ( x – 3 σ, x+ 3σ) está el 99,73% del total de individuos.

Page 39: Tema 8

11.1. Puntuaciones típicas o normalizadas

Para poder comparar dos datos correspondientes a dos

distribuciones distintas, hay que tipificar —o normalizar— dichos

valores, es decir, calcular los valores , después, comparar

los resultados.

Las puntuaciones típicas o normalizadas, también llamadas puntuaciones z, tienen las siguientes propiedades:• Si se transforma una distribución en puntuaciones típicas, no varía la forma de la distribución original.• La media aritmética de las puntuaciones normalizadas es cero, es decir,z = 0• La desviación típica de las puntuaciones típicas es la unidad, es decir, σz=1

z=x− x̄

σ