BIG DATA: Un nuevo reto para la estadística pública

Click here to load reader

Embed Size (px)

description

Presentación del ISTAC en la jornada técnica 'Desmitificando Big Data' organizada el Grupo Taro, con la colaboración de la Unidad de Emprendimiento Emprende.ull de la Fundación General. El evento, de carácter marcadamente técnico, se celebraró el 16 de junio de 2014 en la Escuela Técnica Superior de Ingeniería Informática de la ULL con el objetivo de de poner en valor las personas y los trabajos de los conferenciantes así como exponer el amplio abanico de tecnologías vinculadas al tratamiento masivo de datos.

Transcript of BIG DATA: Un nuevo reto para la estadística pública

  • 1. CONQUISTAR NUEVOS MERCADOS CON DATOS DIVULGACIN ESTADSTICA BIG DATA Nuevos retos para la estadstica pblica
  • 2. CONQUISTAR NUEVOS MERCADOS CON DATOS DIVULGACIN ESTADSTICA BIG DATA Nuevos retos para la estadstica pblica #BigDataCanarias La Laguna (Tenerife) 16 de junio de 2014 Universidad de La Laguna Escuela Tcnica Superior de Ingeniera Informtica Grupo Taro Alberto Gonzlez Yanes Jefe de Servicio de Estadsticas Econmicas [email protected] @agonzalezyanes
  • 3. BIG DATA: Nuevos retos para la estadstica pblica Qu es una Oficina Central de Estadstica? INDUSTRIALIZACIN INDEPENDENCIA INVESTIGACIN INNOVACIN ENCUESTA REGISTROS MACRODATO MICRODATO
  • 4. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? A UNIVAC computer at the Census Bureau, ca. 1960. En 1880 comenz a realizarse el censo en EEUU y debido a la cantidad de personas que lo formaba, tard 8 aos en terminarse. Incluso haban variables que no se llegaron a tabular. Por este motivo, el gobierno de los EEUU convoc un concurso para encontrar la mejor forma de realizar censos posteriores. En 1885 Herman Hollerith construye la mquina censadora o tabuladora, que por medio de tarjetas perforadas reduca el tiempo de realizacin del censo. PRUEBA: Procesar los datos del censo 1880 de cuatro reas en St Louis, MO. Tres candidatos: CAPTURA DE DATOS: 144,5 horas - 100,5 horas - 72,5 horas. PREPARAR DATOS PARA TABULACIN: 44,5 horas - 55,5 horas - 5,5 horas Hollerith's electronic tabulator
  • 5. BIG DATA: Nuevos retos para la estadstica pblica #SOCIAL_DATA #OPEN_DATA #INTERNET_OF_THINGS #DATA_DRIVEN_JOURNALISM #DATA_SCIENTIST #BIG_DATA #DATA_VISUALIZATION #LINKED_DATA #SMART_CITIES DATIFICACIN Qu hay de nuevo, viejo?
  • 6. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? SENSORIZACIN Datificacin completa? de la actividad humana INTERNET Automatizacin masiva de recogida de datos a bajo coste?
  • 7. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
  • 8. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
  • 9. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? Nuevas fuentes Sample survey Census Register-based survey Not included in register system Included in register system can be used for other register- based surveys Uses the register system to define populations and as a source for variables Sample design, estimation, measures of uncertainty System-based thinking and coordination with other register-based surveys are important Own data collection produce own questionnaries Uses others- administrative registers Editing can contact respondents Editing can contact register- providing authority Nonresponse reminders, when to stop data collection? Mismatch related to missing values or undercoverage Quality flaws sampling errors, measurement errors Quality flaws - measure ment errors Quality flaws relevance errors, lack of comparability Small tables cannot give estimates for small groups Presentation large tables with many cells Uses others- administrative registers Editing can contact register- providing authority Mismatch related to missing values or undercoverage Quality flaws relevance errors, lack of comparability
  • 10. BIG DATA: Nuevos retos para la estadstica pblica BIG ALL BIG FREE BIG OWN Qu hay de nuevo, viejo? ECM = b2 + v2 BIG EVERYWHERE BIG ALLWAYS
  • 11. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? El pago a travs de tarjetas de crdito o dbito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje flucta, entre otros, en funcin de la categora del comercio y su entorno, pero tambin por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolacin para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrnico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago.
  • 12. BIG DATA: Nuevos retos para la estadstica pblica Como todos los datasets, ste tambin presenta ciertas limitaciones que conviene conocer. La situacin de los telfonos no es totalmente precisa, ya que la que en realidad se tiene es la de la antena. En entornos urbanos eso no es demasiado problemtico puesto que la densidad de antenas es lo bastante alta como para ofrecer una precisin razonable; pero puede serlo en zonas rurales. Otra limitacin se puede producir a la hora de extrapolar datos totales a partir de la informacin que se obtiene. Por poner un ejemplo concreto, no todos los telfonos de los turistas rusos que visitan Espaa se conectarn a la red de Telefnica, lo que implica que si se quiere conocer el total de telfonos rusos hay que realizar ciertas extrapolaciones que pueden introducir ciertos errores. Qu hay de nuevo, viejo? En este informe todos los datos que se presentan no estn extrapolados, as que no deben tomarse como absolutos. Pero creemos que aun as pueden dar una idea bastante clara de situacin.
  • 13. BIG DATA: Nuevos retos para la estadstica pblica PROCESOS Qu hay de nuevo, viejo?
  • 14. BIG DATA: Nuevos retos para la estadstica pblica The Generic Statistical Business Process Model (GSBPM) 1 Specify needs Quality Management / Metadata Management 2 Design 3 Build 4 Collect 5 Process 6 Analyse 7 Disseminate 8 Archive 9 Evaluate 1.1 Determine needs for information 2.1 Design outputs 3.1 Build data collection instrument 4.1 Select sample 5.1 Integrate data 6.1 Prepare draft outputs 7.1 Update outputs system 8.1 Define archive rules 9.1 Gather evaluation inputs 1.2 Consult & confirm needs 1.3 Establish output objetives 1.4 Identify concepts 1.5 Check data availability 1.6 Prepare business case 2.2 Design variable descriptions 2.3 Design data collection methodology 2.4 Design frame & sample methodology 2.5 Design statistical processing methodology 2.6 Design production systems & workflow 3.2 Build or enhance process components 3.3 Configure workflows 3.4 Test production system 3.5 Test statistical business process 3.6 Finalize production system 4.2 Set up collection 4.3 Run collection 4.4 Finalize collection 5.2 Classify & code 5.3 Review, Validate & edit 5.4 Impute 5.5 Derive new variables & statistical units 5.6 Calculate weights 5.7 Calculate aggregates 5.8 Finalize data files 6.2 Validate outputs 6.3 Scrutinize & explain 6.4 Apply disciosure control 6.5 Finalize outputs 7.2 Produce dissemination products 7.3 Manage release of dissemination products 7.4 Promote dissemination products 7.5 Manage user support 8.2 Manage archive repository 8.3 Preserve data and associated metadata 8.4 Dispose of data & associated metadata 9.2 Conduct evaluation 9.1 Agree action plan Qu hay de nuevo, viejo?
  • 15. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? PROCESAMIENTO
  • 16. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo? ME YOU US
  • 17. BIG DATA: Nuevos retos para la estadstica pblica Qu hay de nuevo, viejo?
  • 18. BIG DATA: Nuevos retos para la estadstica pblica What happens when official statistics meets BIG DATA