EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos...

20
EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II

Transcript of EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos...

Page 1: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

EL ANÁLISIS PRELIMINAR

DE LOS DATOS

TEMA II

Page 2: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 2

Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela, J. (2008).

Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.

Páginas 17-28.

Capítulo 3: Análisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).

Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.

Páginas 31-57.

Capítulo 4: Inferencia estadística. Estimación de parámetros y contrates de hipótesis.

En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en Ciencias de

la Salud. Coruña: Netbiblo. Páginas 59-96.

LECTURA OBLIGATORIA

Page 3: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 3

Preparar el archivo de datos: depurar errores e incoherencias

Resolver el problema de la falta de respuesta: tamaño de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)

Problema I: los datos no son buenos

Tratar los casos anómalos: elección de los estadísticos adecuados

Comprobación de supuestos paramétricos: pruebas paramétricas vs. no paramétricas, elección de la técnica multivariante concreta

Problema II: las herramientas no son las adecuadas

Resumir la información que contienen los datos, informar de las tendencias, realciones entre variables, etc.

Razones por las que examinar los datos

Page 4: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 4

Errores de grabación e incoherencias

La Depuración de los Datos

Valores fuera de rango (no admisibles):

Tablas de Frecuencias para todas las variables

Incoherencias entre respuestas (preguntas filtro):

Tablas de Contingencia para pares de variables

¿Cómo corregir los errores?

Buscar los valores erróneos en la matriz de datos (variable por variable) e ir subsanándolos

Page 5: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 5

Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra matriz de datos. Seleccionamos una submuestra de cuestionarios y comprobamos cuántos errores hay.

Seleccionar una submuestra aleatoria (entre el 10 y el 20%)

Contar el número de datos erróneos

Hacer una Regla de Tres para estimar cuántos habrá en toda la matriz

Aplicar la fórmula del PE

[Errores / (casos x variables)] x 100

El resultado debe ser inferior al 0.05%

Muestreo de Errores

Page 6: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 6

Los valores ausentes o casos

“MISSING”

RIESGOS:

1. LA CAPACIDAD DE GENERALIZACIÓN DE LOS RESULTADOS (lo que en

principio era una muestra adecuada se convierte en inadecuada y no

representativa)

2. La reducción excesiva del tamaño de la muestra condiciona las

estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las

comparaciones (REDUCIENDO AL SIGNIFICACIÓN ESTADÍSTICA)

3. LOS RECHAZOS. ¿Son iguales los que responden a una encuesta que los que no responden?. ¿Los missing siguen algún patrón?, ¿de quién estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)

LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES

DE LA NO RESPUESTA

Page 7: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 7

Varias estrategias: Comprobar si los distintos segmentos presentan un

porcentaje similar de falta de repuesta (Sexo, Provincia,

Grupos de Edad, ...) 2

Estudiar posibles patrones

Identificar variables relacionadas y comprobar que los

que responden y los missing se comportan igual, que no

existen diferencias estadísticamente significativas entre

ambos grupos.

¿Se distribuyen al azar?

Page 8: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 8

Media de la serie

Media de los puntos adyacentes

Mediana de los puntos adyacentes

Interpolación lineal

Tendencia lineal en el punto

Media de Subclases (Kalton)

Fichero Caliente (Hot Deck)

Regresión lineal

Esperanza Maximización (EM)

¿Sustituirlos o imputarlos?

SUSTITUCIÓN

IMPUTACIÓN

Page 9: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 9

“Valores que caen fuera del rango normal de los datos”

CRITERIO: distancia respecto al cuerpo central de la distribución

(50% de los casos, los que están entre el P75 y el P25)

¿Cuántas veces el valor del IQR (Recorrido Intercuartílico)

OUTLIERS.................... 1.5 IQR 3 IQR

EXTREMOS...................... 3 IQR

Los valores ANÓMALOS o atípicos

Page 10: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 10

3 Ejemplos:

A NIVEL UNIVARIADO: Gasto promedio fin de semana

A NIVEL BIVARIADO: Contraste de hipótesis para dos

medias. Ingresos deportistas profesionales

A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el

análisis de regresión lineal

Implicaciones de los casos anómalos

Page 11: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 11

SOLUCIONES:

Acudir a estadísticos distintos de los habituales y

“RESISTENTES” (Mediana, Media reducida, M-estimadores:

Andrews, Huber, Tukey, Hampel)

Utilizar Contrastes no paramétricos: Mann-Withney, Prueba

de la Mediana, Kruskal-Wallis

Detectarlos, eliminarlos de la muestra y repetir el análisis

(deben ser pocos y poco influyentes), recurrir a un

procedimiento de Remuestreo (Bootstrapping) o a

procedimientos de estimación robustos.

Implicaciones de los casos anómalos

Page 12: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 12

A nivel univariante: Numéricamente (IQR)

Gráficos de Caja (BOXPLOT)

Gráficos de Tallo y Hojas

A nivel bivariado: Gráficos de Dispersión

A nivel multivariado: Residuos (tipificados, studentizados, etc.)

Distancia de Mahalanobis

Distancia de Cook

¿Cómo detectarlos?

Page 13: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 13

20N =

INGRESOS

600000

500000

400000

300000

200000

100000

0

9

10

El BOXPLOT

Page 14: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 14

MUCHA INFORMACIÓN:

Extremos y outliers

Percentiles 75 y 25

IQR

Mediana

Asimetría

Comparar la distribución de 2 o más variables

Comparar la distribución de 2 o más grupos en una misma variable

BOXPLOT

Page 15: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 15

2020N =

GASTOSINGRESOS

600000

500000

400000

300000

200000

100000

0

-100000

2

19

10

9

10

Comparar la distribución de dos o más variables

Page 16: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 16

1010N =

SEXO

MUJERHOMBRE

ING

RE

SO

S

600000

500000

400000

300000

200000

100000

0

10

Comparar la distribución de dos o más grupos

Page 17: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 17

Para elegir la prueba estadística adecuada en cada caso

Optar por Pruebas Paramétricas ó No Paramétricas

Garantizar la Estabilidad del modelo

Ejemplos: t de Student ó Mann-Withney

Anova ó Kruskal-Wallis

Discriminante o Regresión Logística

La comprobación de supuestos

Page 18: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 18

NORMALIDAD, que la VD se distribuya normalmente

ALEATORIEDAD o Independencia de las medidas: que los sujetos hayan sido seleccionados al azar (ANOVA)

HOMOCEDASTICIDAD u Homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar

LINEALIDAD: Relación lineal entre las variables analizadas

OTROS: ausencia colinealidad, normalidad de los residuos

¿Cuáles son esos SUPUESTOS?

Page 19: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 19

NORMALIDAD: Prueba K-S con corrección de Lilliefors

(muestras pequeñas: Shapiro-Wilk)

ALEATORIEDAD: Prueba de las Rachas

HOMOCEDASTICIDAD: Prueba de Levene

Se parte siempre de que se cumplen los supuestos salvo que las

pruebas sean significativas (p< 0.05)

LINEALIDAD: Gráfico de dispersión y/o correlación

¿Cómo se comprueban?

Page 20: EL ANÁLISIS PRELIMINAR DE LOS DATOS · EL ANÁLISIS PRELIMINAR DE LOS DATOS TEMA II . Modelos Multivariantes 2 Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela,

Modelos Multivariantes 20

2 ALTERNATIVAS:

TRANSFORMAR LA VARIABLE

Posibles transformaciones

Asimetría Positiva FUERTE: -1/X3, ó -1/X

SUAVE: log X ó X

Asimetría Negativa FUERTE: antilog X

SUAVE: X2 ó X3

Recurrir a una prueba no paramétrica o a técnicas multivariantes más robustas

Y... si no es NORMAL