Download - Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Transcript
Page 1: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 1

Clase 2

Tema 2. Medidas de posición Estadística descriptiva univariable

• Herramientas para presentar y resumir el contenido de variables aisladas

• Presentar la distribución de una variable • Resumir las características de una distribución con medidas estadísticas Tabla de frecuencias

• Las frecuencias muestran el número de casos que corresponden a cada valor de la variable

• Ejemplo: frecuencia de la variable sexo en el grupo de estudiantes de estadística descriptiva:

Género Frecuencia (f)

Hombres 55

Mujeres 44

Total (N) 99

Porcentajes

• Los porcentajes indican cuál sería la frecuencia de cada categoría de la variable si el número total de observaciones fuese cien.

• Ejemplo: Frecuencia de la variable sexo en el grupo de estudiantes de Estadística descriptiva (aula 1).

Page 2: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 2

• Porcentaje = (f / N) × 100 - f: Frecuencia de la categoría

- N: Número total de observaciones.

• Ventaja de los porcentajes: - Es más fácil de identificar su significado

- Permite comparar el tamaño de las categorías. • Porcentaje acumulado: porcentaje de todos los casos igual o inferior a un

cierto valor de la variable - Sólo tienen sentido con variables cualitativas de medida ordinal y variables

cuantitativas (es decir, de intervalo o de razón).

Datos perdidos (missing cases)

• Cuando se analizan datos “reales”, frecuentemente hay observaciones para los que no sabemos el valor de una o más variables.

• Esto es a menudo el caso con datos de encuestas. Siempre hay algunas personas que no responden a una pregunta.

• Ejemplo: Variable estado civil de la encuesta European Social Survey (ESS)

- Categorías de respuesta: o Casado/a

o Separado/a o Divorciado/a o Viudo/a o Soltero/a

- Categorías adicionales:

Page 3: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 3

o No contesta o No sabe

o No respuesta

• Cuando hay datos perdidos, se hace una distinción entre los porcentajes “normales” y los porcentajes válidos.

• Los porcentajes válidos se calculan sin tener en cuenta las categorías de valores perdidos.

• La distinción entre diferentes tipos de valores perdidos (no sabe, no respuesta, etc.) se ignora a menudo.

• Es posible agrupar estas observaciones en una categoría general de datos

perdidos.

• No hay una definición absoluta de lo que representa datos perdidos. Depende

de la cuestión de investigación.

Page 4: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 4

- Ejemplo: intenciones de voto en la próxima elección: "No sabe": o Datos perdidos si el objetivo es explicar a qué partido votar.

o Datos válidos si el objetivo es explicar que personas tienen o no una preferencia.

Tablas para variables continuas

• Ejemplos anteriores: variables categóricas, número limitado de valores diferentes.

• Con variables continuas (o variables categóricas con muchas categorías), las tablas de frecuencias no son muy útiles. Es necesario agrupar los valores en categorías. - Ejemplo: variable edad en los datos ESS.

• Por lo tanto agrupamos los datos:

• Es necesario agrupar los valores en categorías.

Page 5: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 5

• No existe una regla absoluta sobre cómo agrupar los valores de una variable. • Encontrar un equilibrio entre:

- Demasiadas categorías (número muy pequeño de observaciones en cada categoría)

- No suficiente categorías (significa perder una gran cantidad de información

de la variable original). • En general, una dosis de sentido común es suficiente. Construcción de tablas de frecuencias

• Título claro y completo

• Las filas y las columnas deben tener títulos claros y describir su contenido de manera correcta. Es importante comunicar claramente las unidades utilizadas (sobre todo indicar si son porcentajes),

• Incluir el número total de observaciones • Indicar la fuente de los datos.

• Número de decimales: Generalmente, un decimal es suficiente. Siempre utilizar el mismo número de decimales para todas las entradas en una columna.

• Redondeo: por convención, cifras inferiores del 5 se redondean por debajo y cifras iguales o superior del 5 se redondean arriba.

- Ejemplos: 17.34 à 17.3, 17.35 à 17.4. • No escribir el símbolo % después de cada porcentaje (indicarlo en el título de

la columna).

• No utilizar líneas verticales. • Evitar poner demasiado líneas horizontales. Medidas de tendencia central

• Calcular frecuencias y porcentajes es una forma de resumir la información disponible sobre las variables de interés.

• A menudo, queremos resumir la información más a fondo, particularmente con variables cuantitativas.

• Se utilizan dos tipos de estadísticos:

Page 6: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 6

- Medidas de tendencia central (o “de centro”, o “de posición”): centro de gravedad de una distribución.

- Medidas de dispersión: carácter disperso o concentrado de la distribución.

Moda

• La moda de una distribución se define como el valor más frecuente.

• Es posible que una variable tenga dos o más modas.

• Para una variable con un número relativamente pequeño de categorías, la moda se puede identificar fácilmente en una tabla de frecuencias.

• Si una variable puede tomar muchas variables diferentes, la moda es menos informativa. - Ejemplo: edad en los datos ESS.

o Moda = 35 años (2.11% de las observaciones). Hay varias otras edades con un número de observaciones casi igual.

• Con datos agrupados en clases o categorías, solo es posible determinar la clase modal. - Ejemplo: ingreso en los datos del ESS.

• La clase modal es muy sensible a la definición (arbitraria) de los intervalos de valores.

Media

• Es la medida de tendencia central más utilizada.

Page 7: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 7

• La media es igual a la suma de todas las observaciones dividida por el número de observaciones.

• Cálculo: - X: una variable (aquí: la edad)

- X1: valor de la variable X en la primera observación,

- X2: valor de X en la segunda observación, etc. - N: número total de observaciones

- X: media de la variable X

( ) NXXXXXXXXXXX 10987654321 +++++++++=

Page 8: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 8

• Media con datos agrupados: - Cuando se trabaja con datos agrupados en intervalos o clases, no es

posible calcular el valor exacto de la media. - Pero podemos hacer una aproximación de la media.

- Ejemplo: datos sobre el ingreso, datos ESS. Intervalos de ingreso: o Menos de €150 o Entre €150 y menos de €300 o Entre €300 y menos de €500 o Etc.

- Se da un valor asignado: Valor en medio del intervalo o €1000-€1500 à €1250 o €1500-€2000 à €1750

- ¿Valores asignados para las primera y última categorías?

o Menos de €150 à €150 o €10.000 o más à €10.000

Page 9: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 9

• Problemas con la media: - A veces, la media puede ser un indicador problemático. - La media puede estar fuertemente influenciada por valores extremos

(observación atípica o “outlier”).

• Alternativa: la mediana (Me). - Mediana: Valor de la observación que se encuentra en medio de la

distribución, por lo que hay el mismo número de observaciones en cada lado.

Mediana

• Para encontrar la mediana: ordenar las observaciones en orden ascendente

• Número impar de observaciones: la mediana es el valor de la observación (N +1)/2.

• Ejemplos: - Primer grupo de alumnos: 18 19 20 20 21 21 21 22 22 22 23

- Segundo grupo de alumnos: 18 19 20 20 21 21 21 22 22 23 51

• Si el número de observaciones es par, la mediana es la media de las observaciones (N/2) y (N/2 + 1).

• Ejemplo:

Page 10: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 10

- Tercer grupo de alumnos: 18 18 19 19 20 20 21 22 22 22 23 23 - Me = 20.5

• La mediana es el valor de la variable para el cual el porcentaje acumulado supera el 50%.

• Ejercicio: Ránking de CCA según PIB per cápita anual (2015)

• Mediana con datos agrupados: - Con datos agrupados, no podemos determinar exactamente la mediana. - Problema similar al cálculo de la media con datos agrupados.

- Utilizando los porcentajes acumulados, es fácil determinar en qué intervalo está la mediana. Este intervalo se llama la clase mediana.

Page 11: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 11

• ¿Cómo podemos determinar con mayor precisión el valor del ingreso mediano?

- Debemos hacer una suposición sobre la distribución de las observaciones dentro de los intervalos de ingresos.

- Se supone que los individuos se distribuyen de manera uniforme. Es decir, se supone que hay tantas personas que ganan entre 1500 y 1600, como personas que ganan entre 1600 y 1700, entre 1700 y 1800, etc.

- Sabemos que el 46,4% de las personas ganan menos de 1500 euros y que el 58,7% de las personas ganan menos de 2000 euros.

- ¿Cuál es el ingreso que ganan menos del 50% de la gente?

Page 12: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 12

Forma de una distribución

• Con muchas variables, la mediana y la media dan indicaciones similares. Esto sucede cuando la distribución de los valores de una variable es simétrica.

• “Una distribución es simétrica si los lados derecho e izquierdo del histograma son aproximadamente imágenes especulares el uno del otro” (Moore: 14).

• Ejemplo típico de una distribución simétrica: distribución en forma de campana (distribución normal o Gaussiana).

• Una gran discrepancia entre la mediana y la media es un signo de que la

distribución es asimétrica.

• Distribución asimétrica hacia la derecha o positiva: - La cola de la derecha se extiende mucho más lejos que la cola de la

izquierda.

- Mediana < media. • Distribución asimétrica hacia la izquierda o negativa:

- La cola de la izquierda es más larga que la cola de la derecha.

- Media < mediana.

• Distribución asimétrica: - Hay observaciones atípicas a la izquierda (distribución asimétrica hacia la

izquierda) o a la derecha (distribución asimétrica hacia la derecha). - Estas observaciones “tiran” la media en su dirección.

Page 13: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 13

- Ejemplo: variable ingreso (ESS). Gran diferencia entre la media (2160€) y la mediana (1646€).

- à Distribución asimétrica hacia la derecha.

Fin clase 2