Limpieza de datos.

19
Limpieza de datos la etapa previa al interrogatorio

Transcript of Limpieza de datos.

Page 1: Limpieza de datos.

Limpieza de datos la etapa previa al interrogatorio

Page 2: Limpieza de datos.

Según wikipedia

Limpieza de datos: es el acto de descubrimiento, corrección o eliminación de

datos erróneos de una base de datos.

Transformación de datos: En estadística, la transformación de datos se efectúa

para asegurarse así de que tienen una distribución normal (un remedio para los

valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).

Page 3: Limpieza de datos.

Un excel sucio no causa

desastres...¿o sí?

Page 4: Limpieza de datos.

http://www.cnnexpansion.com/finanzas-personales/2012/01/04/londres-2012-sobrevende-10000-entradas

Page 5: Limpieza de datos.

Historias de horror

Los errores en los datos y en el

manejo de herramientas son tan

comunes que incluso existe una

organización llamada Grupo europeo

de evaluación de riesgos para hojas

de cálculo (ESRIG, por sus siglas en

inglés) y que hace recomendaciones

al usuario para evitar errores cuando

se usa una hoja de cálculo.

La ESRIG se encarga de rastrear

historias trágicas en el manejo de

datos. Si quieres saber más, visita

data errors in spreadsheets have led

to real consequences.

http://www.eusprig.org

Page 6: Limpieza de datos.

“Dirty Data”Generalmente es necesario realizar alguna limpieza a los

datos para obtener materia prima adecuada.

Page 7: Limpieza de datos.

Reconocimiento

Consiste en realizar un resumen de las características y observar el

modelo para verificar errores.

● Algunos aspectos pueden salir a simple vista

○ Cinco valores para el sexo

● Otros aspectos son más difíciles de encontrar, para ellos se usan

otras herramientas:

○ Histogramas, gráficas de dispersión

Page 8: Limpieza de datos.
Page 9: Limpieza de datos.

Valores faltantes

Causas:

Faltan valores relevantes porque no se

pudieron obtener

No existen los valores

Datos incompletos (varios orígenes)

Tratamiento

Ignorarlos

Eliminar toda la columna

Reemplazar el valor

Segmentar

Limpieza, integración y transformación

Evitar problemas ocasionados por datos faltantes, valores duplicados y datos incorrectos

Valores erróneos

Algunas veces no es un proceso trivial,

clasificar y agrupar pueden ayudar

Tratamiento:

Ignorar

Eliminar

Filtrar

Reemplazar

Discretizar

Page 10: Limpieza de datos.

Integración

Se puede dar de dos maneras:

Unificar dos o más objetos

Separar un objeto en dos o más

Ejemplos

Separar (nombres, apellidos)

Unificar formatos de fechas, sexo, estado

civil

Limpieza, integración y transformaciónTransformación

Es cualquier proceso que modifique la forma

de los datos

Crear nuevos atributos

Cambiar tipo de dato

Cambiar total o parcialmente una tabla

Ejemplos

convertir columna en tipo número o fecha

agregar columna edad basado en fecha de

nacimiento

nivel de estudio de una persona (sin estudio,

primaria, secundaria, universidad) se

Page 11: Limpieza de datos.

Tipos de datos

Carácter

por ejemplo para definir sexo (F,M)

Texto

el más común de todos

Boolean

(si, no), (verdadero, falso), (0,1)

Control de flujo

según la opción se toman unos u otros datos

Número

se puede hacer operaciones con ellos

Fecha

no siempre es lo que parece

Page 12: Limpieza de datos.

Siempre lleva una bitácora con todos los

cambios mantén una copia del archivo original

Page 13: Limpieza de datos.

Pero Phi… mi base tiene miles de

registros... ¿y ahora qué hago?

Page 14: Limpieza de datos.

Hora de ensuciarse las manosVeamos algunos ejemplos

Page 15: Limpieza de datos.

OpenRefinela lavadora de los datos

Page 16: Limpieza de datos.

OpenRefinehttp://openrefine.org

Page 17: Limpieza de datos.

Ahora sí a torturar esos datoshasta que nos digan la verdad

Page 18: Limpieza de datos.

Conclusiones¿qué opinas? ¿alguna duda?

Page 19: Limpieza de datos.

Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.

http://goo.gl/qupgNz