Geo Big Data 2015

Post on 15-Apr-2017

530 views 14 download

Transcript of Geo Big Data 2015

Big Data en el INEGI

UNA VISIÓN TECNOLÓGICA

11 de Noviembre 2015

4 mil Empleados en Aguascalientes y 18 mil en todo el País

COLABORACIÓN INTERINSTITUCIONAL

• Nacional • Internacional

@abxda

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales.

Fuentes sin un diseño original, en una diversidad de fines posibles, normalmente ajenos a las causas que

permitieron la generación

@abxda

Las Fuentes de Información siguen creciendo

Internet de las Personas

Internet de las Cosas

Sensores

{ json }< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }< xml >

c,s,v

{ json }< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama TecnológicoInfraestructura de Cómputo

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de Manzanas (2013)En la misma Pc de 4 Procesadores:(2013)

Software Tiempo Manzanas

Big Data 8 Seg. 1’221,180

Tradicional (R)

8 Seg. 2,666

https://spark.apache.org/

TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …

@abxda

2009 2010 2011 2012 2013 2014 2015

(Junio) GIVAS = Global Pulse

(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services

(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS

(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.

(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.

(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.

DGAI Inicia con Herramientas Big Data

(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.

(Diciembre 2013) Visita de Upenn a INEGI

(Febrero 2014) Inicia recolección de Tuits (Hydra)

(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC

(Julio 2014) SECTUR y mapa resultado y paper.

(Agosto 2014) Inicia Pioanálisis

(Nov. 2014) Concluye clasificación de Twits.

(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits

(Febrero 2015) Viaje a UPenn

(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.

(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real

(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC

(Julio 2015) Herramienta de Visualización

@abxda

OBJETIVO DEL PROYECTO

Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

@abxda

Colaboración

Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx

Dr. Mario Graffmario.graff@infotec.com.mx

Dr. Elio Villaseñorelio.villaseñor@infotec.com.mx

Dr. Eric Tellezeric.tellez@infotec.com.mx

Dr. Sabino Mirandasabino.miranda@infotec.com.mx

Dr. Gerardo Leyvagerardo.leyva@inegi.org.mx

Dr. Alfredo Bustosalfredo.bustos@inegi.org.mx

Mtro. Abel Coronadoabel.coronado@inegi.org.mx

Ing. Silvia FraustroSilvia.fraustro@inegi.org.mx

Y el apoyo de:Dr. Juan Muñoz López

Juan.munoz@inegi.org.mx

Ing. Ricardo OlveraRicardo.olvera@inegi.org.mx

Lic. Marco IbarraMarco.ibarra@inegi.org.mx

@abxda

Dra. Daniela Moctezumadmoctezuma@centrogeo.edu.mx

Dr. Enrique Ordazenrique.ordaz@inegi.org.mx

Todos los tuits están disponibles para su recolección en tiempo real.

@abxda

Incluso permite consultas geográficas

@abxda

Hydra

1 año 8 meses

@abxdahttps://www.elastic.co

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

ClasificadorIndicador

de sentimiento

@abxda

Entrenamiento

Producción

MAS ALLÁ DEL ANÁLISIS DEL SENTIMIENTO

Apache Sparkhttp://spark.apache.org/

Visualización de la Base de Datos

+120 Millones de Tuits

@abxda

60 Millones de Tuits

@abxda

Visualización de la Base de Datos

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

~1,000,000 Tuiteros generaron + 60 Millones de Tuits

@abxda

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

@abxda

Red Nacional de Caminos (Open Data) y Twitter

Red Nacional de Caminos y Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

¿De dónde provienen los tuiteros de los hoteles?

Qué se dijo cerca de los Hoteles

Horarios de Tuiteo cerca de algún sector

@abxda

Que se dijo cerca de los Bares

PRIMER EJERCICIO NACIONALDENUE - TWITTER

4.9 M de Polígonos de Voronoi (DENUE)

Big Spatial Join (4.9 M DENUE +60 M Tweets)

SpatialSpark

SpatialSpark: Open Source

Runing Code into Local Apache Spark

DENUE - Twitter

abel.coronado@inegi.org.mx @abxda