7/25/2019 Tratamiento de Datos faltantes
1/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Datos faltantes
Claudio Bustos
22 de agosto de 2015
Claudio Bustos
Datos faltantes
http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
2/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Aspectos generales del analisis de datos faltantes
Los datos faltantes son aquellos que no se poseen para un caso enparticular. Pueden producirse por ausencia inesperada de la
respuesta deseada (omision o error) o por diseno, de formaplaneada.Es uno de los problemas mas importantes en investigacioncuantitativa, tanto por su frecuencia como por el dano que puedecausar en las conclusiones de los estudios.
Claudio Bustos
Datos faltantes
http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
3/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Metodos para enfrentar los datos faltantes
Los metodos antiguos de solucionar el problema de los datosfaltantes, particularmente aquellos que implican la eliminacion decasos, pueden sesgar fuertemente los resultados.Existen dos metodos que constituyen el estado del arte en casosfaltantes:estimacion de maxima verosimilitudeimputacionmultiple.
Claudio Bustos
Datos faltantes
http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
4/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones y Mecanismos de datos faltantes
Patron de datos faltantes: Configuracion de datos observadosy perdidos en el conjunto de datos. Describe donde se
encuentran los datos faltantes, pero no porque ocurre laausencia.
Mecanismo de datos faltantes: Posible relacion entre lasvariables observadas y los datos faltantes. No representa unmecanismo causal, sino el tipo de relaciones matematicas
genericas entre lo observado y lo faltante.
Claudio Bustos
Datos faltantes
http://find/7/25/2019 Tratamiento de Datos faltantes
5/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes:Univariado
DatosY1 Y2 Y3
1 4 33 3 22 2 5 1
Datos observados y perdidosM1 M2 M3
1 1 11 1 11 1 01 1 0
Claudio Bustos
Datos faltantes
P d d f l M d d f l M d
http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
6/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes: No respuesta de unidad
DatosY1 Y2 Y3
1 4 33 3 22 5
Datos observados y perdidosM1 M2 M3
1 1 11 1 11 0 01 0 0
Claudio Bustos
Datos faltantes
P d d f l M i d d f l M d
http://find/7/25/2019 Tratamiento de Datos faltantes
7/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes: Monotono
DatosY1 Y2 Y3
1 4 33 3 2
Datos observados y perdidosM1 M2 M3
1 1 11 1 01 0 00 0 0
Claudio Bustos
Datos faltantes
P t es de d t s f lt tes Me is s de d t s f lt tes Met d s
http://find/7/25/2019 Tratamiento de Datos faltantes
8/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes:General
DatosY1 Y2 Y3
1 3 3 2 35 53 4 1
Datos observados y perdidosM1 M2 M3
1 0 10 1 00 1 11 0 11 1 1
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
9/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes:Planificado
DatosY1 Y2 Y3 Y4
4 3 3 3 2 24 3 25 5 14 1 2
3 3 3
Datos observados y perdidosM1 M2 M3 M4
0 1 1 10 1 1 11 0 1 11 0 1 11 1 0 1
1 1 0 1
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
10/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Patrones de datos faltantes:Variable latente
DatosY1 Y2 Y3 Y4
4 3 3 3 2 2 2 3 2 1 5 1 1 3 2
3 2 3
Datos observados y perdidosM1 M2 M3 M4
0 1 1 10 1 1 10 1 1 10 1 1 10 1 1 1
0 1 1 1
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
11/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
Mecanismos de datos faltantes
Rubin describe tres mecanismos de datos faltantes, en terminos dela relacion entre los datos observados y faltantes. Los nombres son
un poco confusos, as que se debe tener cuidado al entenderlos.MCAR. Missing completely at random. Datos perdidoscompletamente al azar
MAR. Missing at random. Datos perdidos al azar
MNAR. Missing not at random. Datos no perdidos al azar
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://goforward/http://find/http://goback/7/25/2019 Tratamiento de Datos faltantes
12/25
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
MCAR: Datos perdidos completamente al azar
La probabilidad de aparicion de datos perdidosobservadosno serelacionan con ninguna de las variables observadas y tampoco con
el valor perdido en s. En notacion:p(R|)Si la variable Xtiene datos completos y la variable Y tiene datosfaltantes, la distribucion de Xpara los casos observados en Ydebera ser la misma que para los datos faltantes.Es el unico mecanismo que se puede verificar mediante pruebas.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
13/25
Ejemplo de MCAR
library(psych)
library(VIM)
x1
7/25/2019 Tratamiento de Datos faltantes
14/25
MAR: Datos perdidos al azar
La probabilidad de datos perdidosobservadosno se relaciona conel valor perdido en s, pero si con las otras variables observadas.Ennotacion:p(R|Yobs, )Para que un modelo sea MAR, una vez que eliminamos el efectode las variables observadas, el que un dato este perdido o no sedebe exclusivamente al azar.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
15/25
Ejemplo de MAR
library(psych)
library(VIM)
x1
7/25/2019 Tratamiento de Datos faltantes
16/25
NMAR: Datos no perdidos al azar
La probabilidad de datos perdidosobservadosse relaciona con elvalor perdido en s, incluso despues de controlar las otras variables
observadas. En notacion: p(R|Yobs,Yperd, )Este caso es el mas complicado, ya que no tenemos referencia decuanto nos estamos alejando del valor perdido al estimar usando lainformacion disponible.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
17/25
Ejemplo de NMAR
library(psych)
library(VIM)
x1
7/25/2019 Tratamiento de Datos faltantes
18/25
Ejemplos
MCAR: Se cuenta con un instrumento que registra cuantaspersonas ingresan por hora a un recinto. El dispositivo tienenuna probabilidad determinada de fallar, sin que esta dependade ningun factor externo.
MAR: Se tienen dos variables: gusto por los videojuegos yasistencia promedio. A priori, no suponemos relacion entreambos. Los alumnos que no asisten en el da de la encuestano responden, pero con el dato de la asistencia promediopuedo predecir la probabilidad que ocurra la no respuesta.
NMAR: En un cuestionario se consulta por el rendimientoacademico. Las personas con menor rendimiento suelen noresponder esta pregunta, por lo que la presencia del un datofaltante depende, precisamente, del valor real no observado.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
19/25
Metodos tradicionales
Caso completo (listwise): Se eliminan todos los casos condatos faltantes.
Caso disponible (pairwase): Se eliminan los casos con datosfaltantes en los analisis espcficos.
Imputacion sencilla: Se rellena los casos faltantes para lograruna base de datos completa
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
20/25
Metodos de imputacion sencilla
Media no condicional (media de la variable)
Media condicional (regresion)
Regresion estocasticamazo-caliente (hot-deck)
Promedio de tems disponibles (en escalas)
Ultima observacion mantenida (last observation carried
forward)
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
21/25
Metodos modernos
Los dos metodos modernos de trabajo con datos perdidos sonmaxima verosimilitud e imputacion multiple. Ambos metodospermiten realizar estimaciones insesgadas bajo MAR.
Maxima verosimilitud : Se buscan los parametros que mejor
respondan a los datos observados, asumiendo que los datosperdidos provienen de la misma distribucion de los datosobservados.
Imputacion multiple : Se generan multiples bases de datos, en
la cual a cada valor perdido se le imputa un valor al azar,dependiente de los datos observados. El resultado final es unagregado de los resultados parciales.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
22/25
Ventajas y desventajas de Maxima verosimilitud
Ventaja: Mas rapida que IM. Entrega el resultado esperado(parametro) directamente, siendo optimo para la informacion
disponible.
Desventajas: Difcil de entender teoricamente. Se requiere queel metodo de estimacion este disenado para el problemaespecfico a resolver.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
23/25
Ventajas y desventajas de Imputacion multiple
Ventaja: Facil de entender. Permite usar metodos para basescompletas. Permite calcular de forma facil el monto de
variabilidad atribuible al dato perdido.
Desventajas: Mas lento y laborioso que MV. Puede sercomplicado encontrar la forma de reunir los resultados demultiples pruebas.
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
24/25
Ejemplo maxima verosimilitud
library(mvnmle)
pres.resultados Bien
pres.resultados(df3) # NMAR -> MAL
Claudio Bustos
Datos faltantes
Patrones de datos faltantes Mecanismos de datos faltantes Metodos
http://find/7/25/2019 Tratamiento de Datos faltantes
25/25
Ejemplo imputacion multiple
library(mice)pres.resultados Bien
pres.resultados(df3) # NMAR -> MAL!
Claudio Bustos
Datos faltantes
http://find/Top Related