Geo Big Data 2015

42
Big Data en el INEGI UNA VISIÓN TECNOLÓGICA 11 de Noviembre 2015

Transcript of Geo Big Data 2015

Page 1: Geo Big Data 2015

Big Data en el INEGI

UNA VISIÓN TECNOLÓGICA

11 de Noviembre 2015

Page 2: Geo Big Data 2015

4 mil Empleados en Aguascalientes y 18 mil en todo el País

Page 3: Geo Big Data 2015

COLABORACIÓN INTERINSTITUCIONAL

• Nacional • Internacional

@abxda

Page 4: Geo Big Data 2015

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales.

Fuentes sin un diseño original, en una diversidad de fines posibles, normalmente ajenos a las causas que

permitieron la generación

@abxda

Page 5: Geo Big Data 2015

Las Fuentes de Información siguen creciendo

Page 6: Geo Big Data 2015

Internet de las Personas

Internet de las Cosas

Sensores

{ json }< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }< xml >

c,s,v

{ json }< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama TecnológicoInfraestructura de Cómputo

Page 7: Geo Big Data 2015

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de Manzanas (2013)En la misma Pc de 4 Procesadores:(2013)

Software Tiempo Manzanas

Big Data 8 Seg. 1’221,180

Tradicional (R)

8 Seg. 2,666

https://spark.apache.org/

Page 8: Geo Big Data 2015

TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …

@abxda

Page 9: Geo Big Data 2015

2009 2010 2011 2012 2013 2014 2015

(Junio) GIVAS = Global Pulse

(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services

(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS

(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.

(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.

(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.

DGAI Inicia con Herramientas Big Data

(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.

(Diciembre 2013) Visita de Upenn a INEGI

(Febrero 2014) Inicia recolección de Tuits (Hydra)

(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC

(Julio 2014) SECTUR y mapa resultado y paper.

(Agosto 2014) Inicia Pioanálisis

(Nov. 2014) Concluye clasificación de Twits.

(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits

(Febrero 2015) Viaje a UPenn

(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.

(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real

(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC

(Julio 2015) Herramienta de Visualización

@abxda

Page 10: Geo Big Data 2015

OBJETIVO DEL PROYECTO

Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

@abxda

Page 12: Geo Big Data 2015

Todos los tuits están disponibles para su recolección en tiempo real.

@abxda

Page 13: Geo Big Data 2015

Incluso permite consultas geográficas

@abxda

Page 14: Geo Big Data 2015

Hydra

1 año 8 meses

@abxdahttps://www.elastic.co

Page 15: Geo Big Data 2015

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Page 16: Geo Big Data 2015

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

ClasificadorIndicador

de sentimiento

@abxda

Entrenamiento

Producción

Page 18: Geo Big Data 2015
Page 19: Geo Big Data 2015

MAS ALLÁ DEL ANÁLISIS DEL SENTIMIENTO

Apache Sparkhttp://spark.apache.org/

Page 20: Geo Big Data 2015

Visualización de la Base de Datos

+120 Millones de Tuits

@abxda

Page 21: Geo Big Data 2015

60 Millones de Tuits

@abxda

Visualización de la Base de Datos

Page 22: Geo Big Data 2015

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

~1,000,000 Tuiteros generaron + 60 Millones de Tuits

@abxda

Page 23: Geo Big Data 2015

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

Page 24: Geo Big Data 2015

@abxda

Red Nacional de Caminos (Open Data) y Twitter

Page 25: Geo Big Data 2015

Red Nacional de Caminos y Twitter

@abxda

Page 26: Geo Big Data 2015

DENUE & Twitter

@abxda

Page 27: Geo Big Data 2015

DENUE & Twitter

@abxda

Page 28: Geo Big Data 2015

DENUE & Twitter

@abxda

Page 29: Geo Big Data 2015

DENUE & Twitter

@abxda

Page 30: Geo Big Data 2015

¿De dónde provienen los tuiteros de los hoteles?

Page 31: Geo Big Data 2015

Qué se dijo cerca de los Hoteles

Page 32: Geo Big Data 2015

Horarios de Tuiteo cerca de algún sector

@abxda

Page 33: Geo Big Data 2015

Que se dijo cerca de los Bares

Page 34: Geo Big Data 2015

PRIMER EJERCICIO NACIONALDENUE - TWITTER

Page 35: Geo Big Data 2015

4.9 M de Polígonos de Voronoi (DENUE)

Page 36: Geo Big Data 2015

Big Spatial Join (4.9 M DENUE +60 M Tweets)

Page 37: Geo Big Data 2015

SpatialSpark

Page 38: Geo Big Data 2015

SpatialSpark: Open Source

Page 39: Geo Big Data 2015

Runing Code into Local Apache Spark

Page 40: Geo Big Data 2015
Page 41: Geo Big Data 2015

DENUE - Twitter

Page 42: Geo Big Data 2015

[email protected] @abxda