Estadística aplicada al Periodismo · Tema 2: Análisis de datos univariantes. 3 Medidas de...

13
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad. Modelos probabilísticos. Introducción a la inferencia estadística. Contrastes de hipótesis. Estadística aplicada al Periodismo

Transcript of Estadística aplicada al Periodismo · Tema 2: Análisis de datos univariantes. 3 Medidas de...

1

Temario de la asignatura

• Introducción.

• Análisis de datos univariantes.

• Análisis de datos bivariantes.

• Series temporales y números índice.

• Probabilidad.

• Modelos probabilísticos.

• Introducción a la inferencia estadística.

• Contrastes de hipótesis.

Estadística aplicada al Periodismo

2

1. Representaciones y gráficos.� Tablas de frecuencias.� Diagrama de barras, Pictogramas, Histograma, Polígono de

frecuencias, y Diagrama de caja.

2. Resumen numérico.� Medidas de localización.� Medidas de dispersión.� Medidas de forma.

Lecturas recomendadas:

• Capítulos 2 a 6 del libro de Peña y Romo (1997)• Capítulos 3 a 7 del libro de Portilla (2004)

Tema 2: Análisis de datos univariantes

3

Medidas de localización o posición

Medidas de dispersión� Varianza y desviación típica� Coeficiente de variación� Rango y rango intercuartílico

Medidas de forma� Asimetría.� Curtosis o apuntamiento.

Lecturas recomendadas:� Capítulos 4 y 5 del libro de Peña y Romo (1997)� Capítulos 6 y 7 del libro de Portilla (2004)

Tema 2: Análisis de datos univariantes

4

PRIMER CONJUNTO DE DATOS

(Salarios anuales en € de la empresa A)30700 32500 32900 33800 34100 34500 36000

SEGUNDO CONJUNTO DE DATOS(Salarios anuales en € de la empresa B)

27500 31600 31700 33800 35300 34000 40600

Vamos a calcular: MEDIA y MEDIANA de ambos conjuntos de datos:

Observa ahora las representaciones gráficas.

Señala media y mediana.

¿Tenemos suficiente información?

2.2.2 Medidas de dispersión: Varianza

5

Parece que la diferencia entre ambos conjuntos de datos son las DISTANCIAS A LA MEDIA, vamos a calcularlas.

X XEmpresa A xi- Empresa B x

i-

30700 -2800 27500 -6000

32500 -1000 31600 -1900

32900 -600 31700 -1800

33800 300 33800 300

34100 600 34000 500

34500 1000 35300 1800

36000 2500 40600 7100

¿Cuánto suman nuestras dos nuevas columnas?

NUEVA PROPIEDAD:

( )1

0n

i

i

x X=

− =∑

¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?

2.2.2 Medidas de dispersión: Varianza

6

¿Qué hacemos para poder compararlas?

( )2

21

n

i

i

x X

nσ=

=

Empresa A Empresa B

30700 7840000 27500 36000000

32500 1000000 31600 3610000

32900 360000 31700 3240000

33800 90000 33800 90000

34100 360000 34000 3240000

34500 1000000 35300 250000

36000 6250000 40600 50410000

16900000 96840000

¿Qué unidades tiene este nuevo estadístico? ¿Podemos cambiarlas?

¿Qué indica este nuevo estadístico?

Modificamos nuestro cálculo:

2.2.2 Medidas de dispersión: Varianza

7

Cuando la media sea distinta de “0”, podemos calcular:

XCV

σ=

Nos permite comparar, porque no tiene unidades.

¿Para qué nos sirve con una única base de datos?

EJERCICIO 1:

Analizamos el volumen de consultas durante el período de exámenes en 10 bibliotecas universitarias, y se comparan con las anotadas el año anterior. El % de incremento de consultas fue: 10.2 2.9 3.1 6.8 5.9

7.3 7.0 8.2 3.7 4.3

¿Son los datos homogéneos?

2.2.2 Medidas de dispersión: Coeficiente de variación

8

Rango: la diferencia entre el mayor y el menor de los datos.

EJERCICIO 2:

Calcula estas dos medidas para el ejercicio anterior.

Medidas de dispersión: Rango y rango intercuartílico

Rango intercuartílico: la diferencia entre el tercer y el primer cuartil.

Box-and-Whisker Plot

47 57 67 77 87 97

Rango intercuartílico

Rango

9

Medidas de localización o posición

Medidas de dispersión� Varianza y desviación típica� Coeficiente de variación� Rango y rango intercuartílico

Medidas de forma� Asimetría.� Curtosis o apuntamiento.

Tema 2: Análisis de datos univariantes

10

La distribución es simétrica, la media deja por delante el mismo nº de observaciones que por detrás.

Asimétrica derecha: los valores bajos son los más frecuentes.

Asimétrica izquierda: los valores mayores son los más frecuentes.

2.2.3 Medidas de forma

11

COEFICIENTE DE ASIMETRÍA DE PEARSON:

CA=0 SimétricaCA>0 Asimétrica derecha

CA<0 Asimétrica izquierda

COEFICIENTE DE ASIMETRÍA DE FISHER(cuando existe más de una moda):

σ

MoXCA

−=

( )3

313 3

n

i

i

x xm

CAnσ σ

=

= =

2.2.3 Medidas de forma

12

Podemos verlo gráficamente, comparando con la curva normal:

COEFICIENTE DE CURTOSIS DE FISHER:

( )4

14 3

n

i

i

P

x x

CAnσ

=

= −

∑CAP = 0 (mesocúrtica)

CAP > 0 (leptocúrtica)

CAP < 0 (platicúrtica)

2.2.3 Medidas de forma

13

Trabaja con la siguiente base de datos (calificaciones de un grupo de alumnos):

EJERCICIO: Cálculo de las medidas forma estudiadas.

100 112 88 105 100 102 98 113

102 87 93 93 117 100 98 92

100 117 97 100 83 67 76 100

106 117 89 83 100 109 109 93

105 108 104 63 81 109 100 98

2.2.3 Medidas de forma