BIG DATA: Un nuevo reto para la estadística pública
of 26
/26
-
Author
instituto-canario-de-estadistica-istac -
Category
Government & Nonprofit
-
view
885 -
download
0
Embed Size (px)
description
Presentación del ISTAC en la jornada técnica 'Desmitificando Big Data' organizada el Grupo Taro, con la colaboración de la Unidad de Emprendimiento Emprende.ull de la Fundación General. El evento, de carácter marcadamente técnico, se celebraró el 16 de junio de 2014 en la Escuela Técnica Superior de Ingeniería Informática de la ULL con el objetivo de de poner en valor las personas y los trabajos de los conferenciantes así como exponer el amplio abanico de tecnologías vinculadas al tratamiento masivo de datos.
Transcript of BIG DATA: Un nuevo reto para la estadística pública
- 1. CONQUISTAR NUEVOS MERCADOS CON DATOS DIVULGACIN ESTADSTICA BIG DATA Nuevos retos para la estadstica pblica
- 2. CONQUISTAR NUEVOS MERCADOS CON DATOS DIVULGACIN ESTADSTICA BIG DATA Nuevos retos para la estadstica pblica #BigDataCanarias La Laguna (Tenerife) 16 de junio de 2014 Universidad de La Laguna Escuela Tcnica Superior de Ingeniera Informtica Grupo Taro Alberto Gonzlez Yanes Jefe de Servicio de Estadsticas Econmicas [email protected] @agonzalezyanes
- 3. BIG DATA: Nuevos retos para la estadstica pblica Qu es una Oficina Central de Estadstica? INDUSTRIALIZACIN INDEPENDENCIA INVESTIGACIN INNOVACIN ENCUESTA REGISTROS MACRODATO MICRODATO
- 4. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? A UNIVAC computer at the Census Bureau, ca. 1960. En 1880 comenz a realizarse el censo en EEUU y debido a la cantidad de personas que lo formaba, tard 8 aos en terminarse. Incluso haban variables que no se llegaron a tabular. Por este motivo, el gobierno de los EEUU convoc un concurso para encontrar la mejor forma de realizar censos posteriores. En 1885 Herman Hollerith construye la mquina censadora o tabuladora, que por medio de tarjetas perforadas reduca el tiempo de realizacin del censo. PRUEBA: Procesar los datos del censo 1880 de cuatro reas en St Louis, MO. Tres candidatos: CAPTURA DE DATOS: 144,5 horas - 100,5 horas - 72,5 horas. PREPARAR DATOS PARA TABULACIN: 44,5 horas - 55,5 horas - 5,5 horas Hollerith's electronic tabulator
- 5. BIG DATA: Nuevos retos para la estadstica pblica #SOCIAL_DATA #OPEN_DATA #INTERNET_OF_THINGS #DATA_DRIVEN_JOURNALISM #DATA_SCIENTIST #BIG_DATA #DATA_VISUALIZATION #LINKED_DATA #SMART_CITIES DATIFICACIN Qu hay de nuevo, viejo?
- 6. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? SENSORIZACIN Datificacin completa? de la actividad humana INTERNET Automatizacin masiva de recogida de datos a bajo coste?
- 7. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
- 8. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
- 9. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? Nuevas fuentes Sample survey Census Register-based survey Not included in register system Included in register system can be used for other register- based surveys Uses the register system to define populations and as a source for variables Sample design, estimation, measures of uncertainty System-based thinking and coordination with other register-based surveys are important Own data collection produce own questionnaries Uses others- administrative registers Editing can contact respondents Editing can contact register- providing authority Nonresponse reminders, when to stop data collection? Mismatch related to missing values or undercoverage Quality flaws sampling errors, measurement errors Quality flaws - measure ment errors Quality flaws relevance errors, lack of comparability Small tables cannot give estimates for small groups Presentation large tables with many cells Uses others- administrative registers Editing can contact register- providing authority Mismatch related to missing values or undercoverage Quality flaws relevance errors, lack of comparability
- 10. BIG DATA: Nuevos retos para la estadstica pblica BIG ALL BIG FREE BIG OWN Qu hay de nuevo, viejo? ECM = b2 + v2 BIG EVERYWHERE BIG ALLWAYS
- 11. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? El pago a travs de tarjetas de crdito o dbito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje flucta, entre otros, en funcin de la categora del comercio y su entorno, pero tambin por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolacin para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrnico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago.
- 12. BIG DATA: Nuevos retos para la estadstica pblica Como todos los datasets, ste tambin presenta ciertas limitaciones que conviene conocer. La situacin de los telfonos no es totalmente precisa, ya que la que en realidad se tiene es la de la antena. En entornos urbanos eso no es demasiado problemtico puesto que la densidad de antenas es lo bastante alta como para ofrecer una precisin razonable; pero puede serlo en zonas rurales. Otra limitacin se puede producir a la hora de extrapolar datos totales a partir de la informacin que se obtiene. Por poner un ejemplo concreto, no todos los telfonos de los turistas rusos que visitan Espaa se conectarn a la red de Telefnica, lo que implica que si se quiere conocer el total de telfonos rusos hay que realizar ciertas extrapolaciones que pueden introducir ciertos errores. Qu hay de nuevo, viejo? En este informe todos los datos que se presentan no estn extrapolados, as que no deben tomarse como absolutos. Pero creemos que aun as pueden dar una idea bastante clara de situacin.
- 13. BIG DATA: Nuevos retos para la estadstica pblica PROCESOS Qu hay de nuevo, viejo?
- 14. BIG DATA: Nuevos retos para la estadstica pblica The Generic Statistical Business Process Model (GSBPM) 1 Specify needs Quality Management / Metadata Management 2 Design 3 Build 4 Collect 5 Process 6 Analyse 7 Disseminate 8 Archive 9 Evaluate 1.1 Determine needs for information 2.1 Design outputs 3.1 Build data collection instrument 4.1 Select sample 5.1 Integrate data 6.1 Prepare draft outputs 7.1 Update outputs system 8.1 Define archive rules 9.1 Gather evaluation inputs 1.2 Consult & confirm needs 1.3 Establish output objetives 1.4 Identify concepts 1.5 Check data availability 1.6 Prepare business case 2.2 Design variable descriptions 2.3 Design data collection methodology 2.4 Design frame & sample methodology 2.5 Design statistical processing methodology 2.6 Design production systems & workflow 3.2 Build or enhance process components 3.3 Configure workflows 3.4 Test production system 3.5 Test statistical business process 3.6 Finalize production system 4.2 Set up collection 4.3 Run collection 4.4 Finalize collection 5.2 Classify & code 5.3 Review, Validate & edit 5.4 Impute 5.5 Derive new variables & statistical units 5.6 Calculate weights 5.7 Calculate aggregates 5.8 Finalize data files 6.2 Validate outputs 6.3 Scrutinize & explain 6.4 Apply disciosure control 6.5 Finalize outputs 7.2 Produce dissemination products 7.3 Manage release of dissemination products 7.4 Promote dissemination products 7.5 Manage user support 8.2 Manage archive repository 8.3 Preserve data and associated metadata 8.4 Dispose of data & associated metadata 9.2 Conduct evaluation 9.1 Agree action plan Qu hay de nuevo, viejo?
- 15. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? PROCESAMIENTO
- 16. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? ME YOU US
- 17. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
- 18. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA
- 19. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA BIG HEAVY SLOW
- 20. BIG DATA: Nuevos retos para la estadstica pblica Scheveningen Memorandum Big Data and Official Statistics What happens when official statistics meets BIG DATA 1. Reconocer que el Big Data representa nuevas oportunidades y desafos para las estadsticas oficiales, y por lo tanto fomentar al Sistema Estadstico Europeo y sus socios a examinar efectivamente el potencial del BIG DATA en ese sentido. > RECONOCIMIENTO 2. Reconocer que Big Data es un fenmeno que est afectando a muchos mbitos. Por tanto, es esencial desarrollar una Estrategia de estadsticas oficiales basadas en Big Data y examinar el lugar y las interdependencias de esta estrategia en el contexto ms amplio de una estrategia global del gobierno a nivel nacional, as como a nivel de la UE. > ESTRATEGIA 3. Reconocer las implicaciones del Big Data en la legislacin de proteccin de datos y derechos de la persona (por ejemplo, acceso a fuentes de datos en poder de terceros), implicaciones que deben ser abordadas apropiadamente como un asunto prioritario. > LEGISLACIN 4. Tener en cuenta que varios institutos nacionales de estadstica estn iniciando actualmente o considerando los diferentes usos del Big Data en un contexto nacional. Es necesario compartir las experiencias obtenidas en los proyectos Big Data concretos y colaborar dentro de la ESS y ms all, en un nivel global. > COMPARTIR EXPERIENCIAS
- 21. BIG DATA: Nuevos retos para la estadstica pblica Scheveningen Memorandum Big Data and Official Statistics What happens when official statistics meets BIG DATA 5. Reconocer que el desarrollo de las capacidades y habilidades necesarias para explorar con eficacia los Big Data es esencial para su incorporacin en el Sistema Estadstico Europeo. Esto requiere esfuerzos sistemticos, como los cursos de formacin adecuados y el establecimiento de comunidades dedicadas, incluyendo acadmicos, para el intercambio de experiencias y mejores prcticas. > FORMACIN 6. Reconocer que el carcter multidisciplinar del Big Data, lo que requiere sinergias y asociaciones entre los expertos y las partes interesadas de diversos dominios, incluyendo gobierno, universidades y titulares de las fuentes de datos privadas. > COOPERACIN 7. Reconocer que el uso de grandes volmenes de datos en el contexto de las estadsticas oficiales requiere nuevos desarrollos metodolgicos, de evaluacin de la calidad y de abordaje de los problemas de TI relacionados. La Sistema Estadstico Europeo debera hacer un esfuerzo especial para apoyar esos desarrollos. > INNOVACIN METODOLGICA 8. Coinciden en la importancia de dar seguimiento a la implementacin de este memorando, y por lo tanto se adopta un plan de accin y plan de trabajo del SEE. > PLAN DE ACCIN
- 22. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA PRIMARIA SECUNDARIA Cifras contrastadas con la estadstica pblica
- 23. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA PRIMARIA
- 24. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA PRIMARIA ajena propia
- 25. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA SECUNDARIA
- 26. CONQUISTAR NUEVOS MERCADOS CON DATOS GRACIAS POR SU ATENCIN Ms informacin: www.gobiernodecanarias.org/istac www.slideshare/istac @istac_es