Post on 08-Sep-2015
description
CONQUISTAR NUEVOS MERCADOS CON DATOS
DIVULGACIN ESTADSTICA
BIG DATA Nuevos retos para la estadstica pblica
CONQUISTAR NUEVOS MERCADOS CON DATOS
DIVULGACIN ESTADSTICA
BIG DATA Nuevos retos para la estadstica pblica
#BigDataCanarias La Laguna (Tenerife) 16 de junio de 2014
Universidad de La Laguna
Escuela Tcnica Superior de Ingeniera Informtica
Grupo Taro
Alberto Gonzlez Yanes
Jefe de Servicio de Estadsticas Econmicas
jgonyanp@gobiernodecanarias.org
@agonzalezyanes
BIG DATA: Nuevos retos para la estadstica pblica
Qu es una Oficina Central de Estadstica?
INDUSTRIALIZACIN INDEPENDENCIA
INVESTIGACIN INNOVACIN
ENCUESTA
REGISTROS
MACRODATO
MICRODATO
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
A UNIVAC computer at the Census Bureau, ca. 1960.
En 1880 comenz a realizarse el censo en EEUU y debido a la cantidad de
personas que lo formaba, tard 8 aos en terminarse. Incluso haban
variables que no se llegaron a tabular. Por este motivo, el gobierno de los
EEUU convoc un concurso para encontrar la mejor forma de realizar censos
posteriores. En 1885 Herman Hollerith construye la mquina censadora o
tabuladora, que por medio de tarjetas perforadas reduca el tiempo de
realizacin del censo.
PRUEBA: Procesar los datos del censo 1880 de cuatro reas en St Louis, MO. Tres candidatos:
CAPTURA DE DATOS: 144,5 horas - 100,5 horas - 72,5 horas.
PREPARAR DATOS PARA TABULACIN: 44,5 horas - 55,5 horas - 5,5 horas
Hollerith's electronic tabulator
BIG DATA: Nuevos retos para la estadstica pblica
#SOCIAL_DATA
#OPEN_DATA
#INTERNET_OF_THINGS
#DATA_DRIVEN_JOURNALISM
#DATA_SCIENTIST
#BIG_DATA
#DATA_VISUALIZATION
#LINKED_DATA
#SMART_CITIES
DATIFICACIN
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
SENSORIZACIN
Datificacin completa? de la actividad humana
INTERNET
Automatizacin masiva de recogida de datos a bajo coste?
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
Nuevas fuentes
Sample survey Census Register-based survey
Not included in register
system
Included in register system can be used for other register-based surveys
Uses the register system to define populations and as a source for variables
Sample design, estimation,
measures of uncertainty
System-based thinking and coordination with other
register-based surveys are important
Own data collection produce own questionnaries Uses others- administrative registers
Editing can contact respondents Editing can contact register-providing authority
Nonresponse reminders, when to stop data collection? Mismatch related to missing values or undercoverage
Quality flaws sampling errors, measurement errors
Quality flaws - measure ment errors
Quality flaws relevance errors, lack of comparability
Small tables cannot give estimates for small groups
Presentation large tables with many cells
Uses others- administrative
registers
Editing can contact register-providing authority
Mismatch related to missing
values or undercoverage
Quality flaws relevance errors, lack of comparability
BIG DATA: Nuevos retos para la estadstica pblica
BIG ALL
BIG FREE
BIG OWN
Qu hay de nuevo, viejo?
ECM = b2 + v2
BIG EVERYWHERE
BIG ALLWAYS
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
El pago a travs de tarjetas de crdito o dbito
supone una parte de los pagos totales realizados
en un comercio, dado que aproximadamente el
50% del gasto en comercios se realiza mediante
dinero en efectivo.
Este porcentaje flucta, entre otros, en funcin de
la categora del comercio y su entorno, pero
tambin por sesgos culturales inherentes a la
nacionalidad del usuario.
En este informe ninguno de los resultados presentados es una extrapolacin para deducir el
gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso
las recabadas por los medios de pago electrnico BBVA, y no deben tomarse como cifras
absolutas de gasto realizado por cualquier medio de pago.
BIG DATA: Nuevos retos para la estadstica pblica
Como todos los datasets, ste tambin presenta ciertas
limitaciones que conviene conocer. La situacin de
los telfonos no es totalmente precisa, ya que la
que en realidad se tiene es la de la antena. En
entornos urbanos eso no es demasiado problemtico
puesto que la densidad de antenas es lo bastante alta
como para ofrecer una precisin razonable; pero puede
serlo en zonas rurales.
Otra limitacin se puede producir a la hora de
extrapolar datos totales a partir de la informacin que
se obtiene. Por poner un ejemplo concreto, no todos
los telfonos de los turistas rusos que visitan
Espaa se conectarn a la red de Telefnica, lo que
implica que si se quiere conocer el total de telfonos
rusos hay que realizar ciertas extrapolaciones que
pueden introducir ciertos errores.
Qu hay de nuevo, viejo?
En este informe todos los datos que se presentan no estn extrapolados, as que no deben tomarse como
absolutos. Pero creemos que aun as pueden dar una idea bastante clara de situacin.
BIG DATA: Nuevos retos para la estadstica pblica
PROCESOS
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
The Generic Statistical Business Process Model (GSBPM)
1
Specify
needs
Quality Management / Metadata Management
2
Design
3
Build
4
Collect
5
Process
6
Analyse
7
Disseminate
8
Archive
9
Evaluate
1.1
Determine
needs for
information
2.1
Design
outputs
3.1
Build data
collection
instrument
4.1
Select
sample
5.1
Integrate data
6.1
Prepare
draft
outputs
7.1
Update
outputs
system
8.1
Define
archive
rules
9.1
Gather
evaluation
inputs
1.2
Consult &
confirm
needs
1.3
Establish
output
objetives
1.4
Identify
concepts
1.5
Check
data
availability
1.6
Prepare
business
case
2.2
Design variable
descriptions
2.3
Design data
collection
methodology
2.4
Design frame
& sample
methodology
2.5
Design
statistical
processing
methodology
2.6
Design
production
systems &
workflow
3.2
Build or
enhance
process
components
3.3
Configure
workflows
3.4
Test production
system
3.5
Test
statistical
business
process
3.6
Finalize
production
system
4.2
Set up
collection
4.3
Run
collection
4.4
Finalize
collection
5.2
Classify & code
5.3
Review,
Validate & edit
5.4
Impute
5.5
Derive new
variables &
statistical units
5.6
Calculate
weights
5.7
Calculate
aggregates
5.8
Finalize data
files
6.2
Validate
outputs
6.3
Scrutinize &
explain
6.4
Apply
disciosure
control
6.5
Finalize
outputs
7.2
Produce
dissemination
products
7.3
Manage release
of
dissemination
products
7.4
Promote
dissemination
products
7.5
Manage user
support
8.2
Manage
archive
repository
8.3
Preserve
data and
associated
metadata
8.4
Dispose of
data &
associated
metadata
9.2
Conduct
evaluation
9.1
Agree
action plan
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
PROCESAMIENTO
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
ME YOU US
BIG DATA: Nuevos retos para la estadstica pblica
Qu hay de nuevo, viejo?
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
BIG
HEAVY
SLOW
BIG DATA: Nuevos retos para la estadstica pblica
Scheveningen Memorandum
Big Data and Official Statistics
What happens when official statistics meets BIG DATA
1. Reconocer que el Big Data representa nuevas oportunidades y desafos para las estadsticas
oficiales, y por lo tanto fomentar al Sistema Estadstico Europeo y sus socios a examinar efectivamente
el potencial del BIG DATA en ese sentido. > RECONOCIMIENTO
2. Reconocer que Big Data es un fenmeno que est afectando a muchos mbitos. Por tanto, es esencial
desarrollar una Estrategia de estadsticas oficiales basadas en Big Data y examinar el lugar y las interdependencias de esta estrategia en el contexto ms amplio de una estrategia global del gobierno a
nivel nacional, as como a nivel de la UE. > ESTRATEGIA
3. Reconocer las implicaciones del Big Data en la legislacin de proteccin de datos y derechos de la
persona (por ejemplo, acceso a fuentes de datos en poder de terceros), implicaciones que deben ser
abordadas apropiadamente como un asunto prioritario. > LEGISLACIN
4. Tener en cuenta que varios institutos nacionales de estadstica estn iniciando actualmente o
considerando los diferentes usos del Big Data en un contexto nacional. Es necesario compartir las
experiencias obtenidas en los proyectos Big Data concretos y colaborar dentro de la ESS y ms all, en
un nivel global. > COMPARTIR EXPERIENCIAS
BIG DATA: Nuevos retos para la estadstica pblica
Scheveningen Memorandum
Big Data and Official Statistics
What happens when official statistics meets BIG DATA
5. Reconocer que el desarrollo de las capacidades y habilidades necesarias para explorar con
eficacia los Big Data es esencial para su incorporacin en el Sistema Estadstico Europeo. Esto
requiere esfuerzos sistemticos, como los cursos de formacin adecuados y el establecimiento de
comunidades dedicadas, incluyendo acadmicos, para el intercambio de experiencias y mejores
prcticas. > FORMACIN
6. Reconocer que el carcter multidisciplinar del Big Data, lo que requiere sinergias y asociaciones
entre los expertos y las partes interesadas de diversos dominios, incluyendo gobierno, universidades y
titulares de las fuentes de datos privadas. > COOPERACIN
7. Reconocer que el uso de grandes volmenes de datos en el contexto de las estadsticas oficiales
requiere nuevos desarrollos metodolgicos, de evaluacin de la calidad y de abordaje de los
problemas de TI relacionados. La Sistema Estadstico Europeo debera hacer un esfuerzo especial
para apoyar esos desarrollos. > INNOVACIN METODOLGICA
8. Coinciden en la importancia de dar seguimiento a la implementacin de este memorando, y por lo
tanto se adopta un plan de accin y plan de trabajo del SEE. > PLAN DE ACCIN
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
PRIMARIA SECUNDARIA
Cifras contrastadas con la estadstica pblica
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
PRIMARIA
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
PRIMARIA
ajena propia
BIG DATA: Nuevos retos para la estadstica pblica
What happens when official statistics meets BIG DATA
SECUNDARIA
CONQUISTAR NUEVOS MERCADOS CON DATOS
GRACIAS POR SU ATENCIN
Ms informacin:
www.gobiernodecanarias.org/istac
www.slideshare/istac
@istac_es