Estrategia de difusión de información estadística basada en PC-Axis

12
Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT Ponentes: Fernández Vázquez, Sara [email protected] Institut d’Estadística de les Illes Balears (IBESTAT) González Yanes, Alberto [email protected] Instituto Canario de Estadística (ISTAC) 1. Resumen: El Instituto Canario de Estadística (ISTAC) y el Instituto de Estadística de Baleares (IBESTAT) una vez evaluado el volumen y las características de la información estadística a publicar han considerado que la herramienta adecuada para el cumplimiento de tal objetivo es el PC-Axis al tratarse de un sistema para visualización de tablas estadísticas que ofrece: - Una sencilla interfaz de usuario basada en hoja de cálculo. - Personalización de tablas. El usuario decide qué variables y valores intervienen y en qué orden. - Confección de gráficos estadísticos. - Confección de mapas temáticos (se necesita instalar el programa PX-Map y las colecciones de mapas). - Exportación y copia de datos a otras aplicaciones. PC-Axis es una serie de softwares creados para servir de plataforma para la difusión de estadísticas oficiales coherentes, eficientes y amables a los usuarios. Es ideal para oficinas nacionales de estadísticas y otros organismos encargados de la difusión de estadísticas sociales y económicas. La serie soporta a todo el espectro de productos de difusión: bases de datos en línea comprensibles, productos electrónicos como CD-ROM, y publicaciones disponibles en papel o en la red. El formato de archivo PC-Axis es rico en metadatos y es un archivo en ASCII que refleja las ideas utilizadas en el sistema Axis y su sucesor, el modelo macro meta PX. En la ponencia se describirá la experiencia del ISTAC y del IBESTAT en la producción y difusión de información estadística en el estándar PC-Axis. Palabra clave: Difusión estadística, PC-Axis, metadatos, cubos.

description

Ponencia presentada en las JECAS 2010

Transcript of Estrategia de difusión de información estadística basada en PC-Axis

Page 1: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística ba sada en PC-Axis La experiencia del ISTAC y del IBESTAT

Estrategia de difusión de información estadística b asada en PC-Axis La experiencia del ISTAC y del IBESTAT

Ponentes: Fernández Vázquez, Sara [email protected] Institut d’Estadística de les Illes Balears (IBESTAT) González Yanes, Alberto [email protected] Instituto Canario de Estadística (ISTAC)

1.

Resumen: El Instituto Canario de Estadística (ISTAC) y el Instituto de Estadística de Baleares (IBESTAT) una vez evaluado el volumen y las características de la información estadística a publicar han considerado que la herramienta adecuada para el cumplimiento de tal objetivo es el PC-Axis al tratarse de un sistema para visualización de tablas estadísticas que ofrece:

- Una sencilla interfaz de usuario basada en hoja de cálculo. - Personalización de tablas. El usuario decide qué variables y valores intervienen y en

qué orden. - Confección de gráficos estadísticos. - Confección de mapas temáticos (se necesita instalar el programa PX-Map y las

colecciones de mapas). - Exportación y copia de datos a otras aplicaciones.

PC-Axis es una serie de softwares creados para servir de plataforma para la difusión de estadísticas oficiales coherentes, eficientes y amables a los usuarios. Es ideal para oficinas nacionales de estadísticas y otros organismos encargados de la difusión de estadísticas sociales y económicas. La serie soporta a todo el espectro de productos de difusión: bases de datos en línea comprensibles, productos electrónicos como CD-ROM, y publicaciones disponibles en papel o en la red. El formato de archivo PC-Axis es rico en metadatos y es un archivo en ASCII que refleja las ideas utilizadas en el sistema Axis y su sucesor, el modelo macro meta PX. En la ponencia se describirá la experiencia del ISTAC y del IBESTAT en la producción y difusión de información estadística en el estándar PC-Axis. Palabra clave: Difusión estadística, PC-Axis, metadatos, cubos.

Page 2: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

2

LA DIFUSIÓN CONJUNTA DE DATOS Y METADATOS. El Código de Buenas Prácticas de las Estadísticas Euro peas en su principio número 15, sobre accesibilidad y claridad, establece que “Las estadísticas europeas deberían presentarse de forma clara y comprensible, difundirse de forma adecuada y conveniente y estar disponibles, asimismo se debería permitir el acceso a las mismas de forma imparcial, con metadatos y orientación de apoyo”. Una definición utilizada con frecuencia nos dice que los metadatos son "datos sobre datos" , en general un objeto que describe o dice algo sobre otro objet o de información . De manera formal podríamos decir que un metadato es un dato que se encarga de mantener un registro sobre el significado, contexto o propósito de un objeto informativo, con la pretensión de poder descubrir, entender, extraer y administrar dicho o bjeto.

Figura 1. Tipos de metadatos

La estrategia de difusión de información estadística basada en PC-Axis, por la que ha apostado tanto el ISTAC como el IBESTAT, se dirige hacia el cumplimiento del principio anteriormente citado; difundiendo conjuntamente los datos estadísticos con metadatos tanto estructurales como documentales, y con ello poder descubrir, entender, extraer y administrar la información estadística aportada por nuestros institutos.

2. INTRODUCCIÓN A LA FAMILIA PC-AXIS. La familia de software PC-AXIS es un conjunto de herramientas que dan soporte de manera eficiente, fácil y coherente a la difusión de estadísticas. Se trata de una plataforma ideal para oficinas nacionales de estadística y otras organizaciones que se dedican a la publicación de estadísticas sociales y económicas. La familia abarca todo el espectro de productos para la difusión y provee base de datos online y offline. El módulo principal PC-AXIS fue desarrollado por el instituto de estadística nacional sueco y poco a poco se han ido sumando herramientas creadas pos otros institutos. El formato de archivo PC-AXIS contiene una variedad muy rica de metadatos. Se trata de un fichero con extensión PX, lo que explica los nombres de los productos de la familia que comienzan con este prefijo. La suite está desarrollada para el sistema operativo Windows y además de un módulo para la difusión en Internet, posee extensiones SQL. En PC-AXIS es posible organizar tablas, establecer bases de datos estadísticas locales, exportar tablas a una amplia variedad de

Page 3: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

3

formatos, como por ejemplo Microsoft Excel o HTML, y elaborar gráficos estadísticos. Algunos de los programas que componen la familia son los siguientes:

Figura 2. Familia PC-Axis

De forma resumida, de entre otras muchas funcionalidades, se incluyen las siguientes:

− Difusión de estadísticas en línea (componentes PX-Web o JAXI) y sin conexión (Módulo principal PC-Axis).

− Tablas Dinámicas – función para pivotar (Módulos principales PX-Web y PC-Axis).

− Conversión a diferentes formatos de archivo (PX-Web y PC-Axis) por ejemplo Excel,

Lotus, txt, etc. y para PC-Axis únicamente Gesmes/TS y XML.

− Base de datos de resultados (bases de datos PC-Axis y/o SQL).

− Matrices multidimensionales (archivos PC-Axis y bases de datos SQL).

− Modelo de información rico en metadatos en SQL y en el formato de archivo PC-Axis.

− Windows (PC-Axis) e Internet (PX-Web). − Los archivos PC-Axis en una estructura de catalogación forman una base de datos PC-

Axis y es accesible sin tener que utilizar SQL (Módulo principal PC-Axis y PX-Web).

− Las extensiones SQL (Servidores Sybase/Oracle/MS-SQL) para la base de datos SQL se estructuran de acuerdo al modelo macrometa común de información (PCAxis SQL y en algunos casos los componentes PX-Web y PC-Axis/PX-Batch en Internet a una base de datos macro).

− Facilidades de agrupamiento (PC-Axis y PX-Web).

− Gráficas (PX-iGraph).

Módulo

principal de

PC-Axis

Módulo

principal de

PC-AxisPC-ExcelPC-Excel

PX-Web / JAXIPX-Web / JAXI

PX-GraphPX-Graph

PX-MapPX-Map

PX-EditPX-EditMacros SASMacros SAS

Page 4: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

4

− Mapas (PX-Map y PX-iMap).

− Creación de archivos PC-Axis de diferentes fuentes (PC-Axis SQL, PX-Batch, PXMake, PX-Edit y el SuperStar/SuperCross Australiano).

− Tablas creadas en una base de datos SQL o PC-Axis e insertadas en MS-Word o MS-

Excel (PX-Publ).

3. FORMATO DE LOS ARCHIVO PC-AXIS. Un archivo PC-Axis no es más que un formato para almacenar una tabla estadística multidimensional (cubo). La extensión del archivo es .px (ejemplo: tabla.px). Este archivo es un documento estructurado donde las llamadas palabras clave son usadas como identificadores iniciales de secciones de contenido. Por tanto, un fichero PC-Axis no en más que cubo entendido como una tabla multidimensional creada como resultado de una tabulación transversal de diferentes variables. Las diferentes dimensiones de un cubo estadístico (clasificaciones) se denominan variables en PC-Axis. Las variables son descritas en PC-Axis con las palabras clave STUB (variables fila) o HEADING (variables columna). También es posible crear una variable consistente en el contenido de varias variables; la palabra clave CONTVARIABLE se usa para eso. En PC-Axis las variables se dividen en valores (categorías), que se expresan como texto o posibles códigos. Los valores de las variables son indicados por la variable con la palabra clave VALUES y los códigos con CODES. El archivo .px está formando por dos bloques principales: datos y metadatos. Algunas de las palabras clave usadas para la definición de metadatos son obligatorias mientras que otras son opcionales, la parte de los datos es obligatoria y siempre es la última que aparece en el archivo. Un ejemplo de fichero PC-Axis sería:

METADATOS MATRIX="BE001"; SUBJECT-CODE="BE"; SUBJECT-AREA="Population"; TITLE="Population by region, time, marital status a nd sex."; STUB="region"; HEADING="time","marital status","sex"; VALUES("region")="Sweden","Stockholm","Örebro"; VALUES("time")="1990-12-31"; VALUES("marital status")="unmarried","married","tot al"; VALUES("sex")="men","women"; CONTENTS="Population"; UNITS="numbers of persons";

DECIMALS=0;

DATOS DATA= 2155484 1842207 1710484 1713821 4244017 4346613 167965 162184 110463 111697 316041 358411 28909 26791 23822 23982 58352 62592

Figura 2. Ejemplo de fichero de PC-Axis

Cuando todos los datos y metadatos son incluidos y están técnicamente bien grabados, el archivo puede usarse en todas las aplicaciones principales de la familia de productos de PC-Axis: PC-Axis, PX-Web, PX-Map y PX-Edit (a partir de ahora nos referiremos a éstas como

Page 5: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

5

aplicaciones). PX-Edit, que es también una herramienta de corrección y revisión de archivos, puede ser usada para abrir ficheros con contenidos deficientes o ligeramente erróneos a nivel sintáctico. En estos casos, PX-Edit indicará los errores que identifique y para algunos errores típicos, se sugerirán correcciones.

Figura 3. Ejemplo de cubo multidimensional

4. WHY ME?: PC-AXIS FRENTE A OTRAS OPCIONES. 4.1. EL ESTÁNDAR INTERNACIONAL SDMX SDMX es una iniciativa patrocinada por BIS - BCE - EUROSTAT - FMI - OCDE - ONU - Banco Mundial, nacida para fomentar normas de intercambio de información estadística. SDMX proporciona especificaciones técnicas para el intercambio de datos y metadatos basados en un modelo de información común. El objetivo de este esfuerzo es definir formatos para el intercambio de datos estadísticos agregados y los metadatos necesarios para comprender la estructura de los datos. Las características del estándar se resumen en dos puntos: − Estándar de intercambio de Datos y Metadatos Estadísticos. − SDMX, en su versión 1, es una ISO y por tanto un estándar internacional que debe ser un

referente para todas las organizaciones estadísticas (la v2 tiene el proceso de estandarización en marcha).

Es importante saber que SDMX ha sido recomendado oficialmente en los siguientes foros:

− Febrero 2007: SDMX es aprobado por el Comité de Programas Estadísticos de la Unión Europea

− Marzo 2008: La Comisión de las Naciones Unidas declara SDMX como el estándar

preferido para datos y metadatos.

¿Quiénes han optado por SDMX?

Page 6: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

6

− Consejo de la Reserva Federal de los EEUU: Permite realizar selecciones y descargar en formato SDMX. http://www.federalreserve.gov/datadownload/default.htm

− Reserva Federal del Banco de Nueva York: Facilita los datos en formato SDMX.

http://www.newyorkfed.org/xml/index.html − Banco Central Europeo: Posiblemente una de las mejores páginas web que usan SDMX

porque no sólo permiten la descarga de los datos en SDMX sino permite visualizar gráficamente toda la información. http://www.ecb.int/stats/exchange/eurofxref/html/eurofxref-graph-usd.en.html

− Eje Común de la Deuda Externa (WB, IMF, OECD, BIS). http://www.jedh.org − División de Estadísticas de las Naciones Unidas (UN/COMTRADE) http://comtrade.un.org − Cuentas Nacionales de OECD / Eurostat (NAAWE).

http://stats.oecd.org/nawwe/default.aspx − Eurostat − Institutos Nacionales de Estadística, tales como Estadísticas de Canadá o el Sistema

Federal Mexicano − UNESCO − OCDE:

� Representación gráfica e interactiva de las estadísticas: http://stats.oecd.org/nawwe/csp/default.html

� Visor de estadísticas de la OECD que incluye visualización de metadatos, mapas, gráficos,... http://stats.oecd.org/Index.aspx

¿Es posible migrar de PC-Axis a SDMX? El grupo de trabajo ESSnet on SDMX del Sistema Estadístico Europeo (ESS), coordinado por el INE de Portugal, trabaja entre otros temas en el mapeo PC-Axis a SDMX. Asimismo la FAO en su producto CountrySTAT1, con el asesoramiento de Metadata Technology, ya integra PC-Axis con SDMX. Por lo tanto, el paso por PC-Axis es una buena estrategia para la migración hacia el estándar internacional SDMX; pues facilita a las organizaciones estadísticas un primer acercamiento a la producción y difusión de metadatos.

Figura 4. De PC-Axis a SDMX

4.2. SOLUCIONES BASADA EN BUSINESS INTELLIGENCE.

1 http://unstats.un.org/unsd/accsub/2006docs-8th/SA-2006-13Add1-FAO.pdf

PC-AXIS

SDMX

Page 7: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

7

Las soluciones BI son precisamente eso, soluciones BI, con sus aciertos y sus problemas. NO SON SOLUCIONES PENSADAS PARA LA DIFUSIÓN DE ESTADÍSTICAS, aunque en algunos casos pueden ser útiles. 1. ¿Es factible cruzar todo con todo? ¿Cuántos cubos necesitamos?

2. Escasa o nula integración de metadatos

3. En algunos casos no aceptación de valores no numéricos, no diferenciación de distintos

tipos de valores NULL.

4. Problemas de control de secreto estadístico

5. Alto coste y alta dependencia tecnológica de empresas y/o Servicios de Informática

6. Poca flexibilidad 4.3. SOLUCIONES COMERCIALES. Existen múltiples soluciones comerciales, entre las que destacamos Beyond 20/202 o Super Star3, que en buena medida resuelven muchos de los problemas planteados en la difusión de estadísticas; pero suelen ser aplicativos de alto coste y escasa interoperabildad. 4.4. RAZONES PARA OPTAR POR PC-AXIS. Ante lo expuesto anteriormente, las razones barajadas para optar por PC-Axis son las siguientes: 1. Conjunto de metadatos mapeables con el estándar internacional SDMX y fácilmente

interpretables. 2. Estándar de facto, implementado en un amplísimo conjunto de países. 3. Sistema pensado para la difusión de estadísticas públicas con una importante integración

de metadatos de uso estadístico. 4. Estructura de cubos, con posibilidad de simulación OLAP, y aceptación de valores no

numéricos en el conjunto de datos. 5. Alta flexibilidad y prácticamente nula dependencia tecnológica por parte de las unidades de

producción y difusión de estadísticas. 6. Tecnología sencilla basada en ficheros ligeros sobre txt y con un importante conjunto de

herramientas de producción y difusión de uso libre, e incluso abiertas (JAXI).

5. HERRAMIENTAS DE PRODUCCIÓN DE FICHEROS PC-AXIS. En primer lugar se ha elaborado un manual de uso de los metadatos PC-Axis, para normalizar la producción de los mismos. El manual establece los metadatos obligatorios y las normas de cumplimentación de los mismos.

2 http://www.beyond2020.com/ 3 http://www.spacetimeresearch.com/

Page 8: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

8

Las herramientas de producción de ficheros PC-Axis son las siguientes:

- Macro SAS to PC-Axis de Statistics Finland, para dataset de SAS - Macro SAS to PC-Axis del ISTAC para tablas de sumarización - PX-Edit - PX-Tool

Y complementariamente:

- PX-Make de Statistics Denmark (utilizado por el INE) - Notepad++ - Traductor de PC-Axis para la migración entre vocabu larios, del ISTAC - Traductor multilenguaje para la traducción entre le nguas , del IBESTAT - ValPX de validación de normas internas de producción de metadatos, del ISTAC.

Figura 5. Ejemplo del manual de normas de uso de lo s metados PC-Axis

Figura 6. Ciclo básico de producción de fichero PC- Axis

6. HERRAMIENTAS DE DIFUSIÓN DE FICHEROS PC-AXIS. 6.1. DIFUSIÓN OFF-LINE.

Aplicación de

conversión de SAS a PC-AXIS

Page 9: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

9

Para la difusión off-line se utilizan dos de los programas de la familia PC-Axis, que son de distribución gratuita: PC-Axis (con el módulo de PX-Graf) para la difusión de tablas y generación de gráficos, y PX-Map para la generación de mapas temáticos.

Figura 7. Ejemplo visualizaciones en PC-Axis y PX-M ap

6.2. DIFUSIÓN ON-LINE. Para la difusión en la Web, se partió del código fuente del aplicativo JAXI desarrollado por el Instituto Nacional de Estadística (INE). Se optó por el uso del JAXI frente a PX-Web, pues en el primer caso se podía disponer del código fuente y por lo tanto realizar las adaptaciones necesarias a los requisitos previstos por el ISTAC en primer lugar y posteriormente por el IBESTAT. FASE PRIMERA: Mejoras básicas sobre el JAXI-INE desarrollas por el ISTAC En esta primera fase se realizaron las siguientes acciones:

1. Adaptación a la imagen corporativa del ISTAC

• Adaptación general a formato vertical • Solución a textos largos en la página de selección de categorías con

formato vertical • Paginado de tablas en la página de presentación de tablas

2. Lectura de más metadatos por parte del JAXI: AUTOPEN, INFO, UNITS, STOCKFA, CFPRICES, DAYADJ, SEASADJ, REFPERIOD, BASEPERIOD, CONTVARIABLE, PRECISION, SOURCE, SURVEY, CONTACT, NOTE , NOTEX, VALUENOTE, VALUENOTEX, CELLNOTE, CELLNOTEX, DATANOTECELL. 3. Mejoras en las ayudas

FASE SEGUNDA: Mejoras sobre el JAXI-INE desarrollas por el IBESTAT

Page 10: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

10

Sobre las mejoras realizadas por el ISTAC posteriormente el IBESTAT incorporó las siguientes funcionalidades:

1. Lectura de ficheros PC-Axis multilenguaje 2. Generación de mapas temáticos 3. Generación de gráficos

Figura 8. Ejemplo de visualización de resultados de consultas en JAXI-ISTAC

6.3. TECNOLOGÍA PARA LA REPRESENTACIÓN ON-LINE DE G RÁFICOS. La librería para dibujar gráficos estadísticos es JFreeChart, implementada en Java. Entre los gráficos que se pueden dibujar se encuentran: gráfico de líneas, gráfico de barras, gráfico sectorial y pirámide de población.

Page 11: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

11

Figura 9. Ejemplo de gráfico en IBESTAT a partir de un fichero PC-Axis

6.4. TECNOLOGÍA PARA LA REPRESENTACIÓN ON-LINE DE M APAS. La tecnología usada para representar mapas es el framework javascript MapFish. Esta librería permite realizar consultas y editar entidades geográficas. A su vez esta librería se apoya en el framework OpenLayers que permite establecer mapas geográficos en la web. En nuestro caso MapFish nos permite representar mapas temáticos. Nuestra fuente de datos para representar las entidades geográficas será un archivo en formato Shapefile. Con este archivo es posible geolocalizar y pintar el mapa. A continuación se establece una capa con las regiones del mapa temático, esta capa se sirve en formato GeoJson al MapsFish. Además de este GeoJson que representa los datos seleccionados por el usuario, se utiliza otra capa de GeoJson con las entidades básicas a pintar en el mapa. Esta última capa se puede obtener fácilmente a través del shapefile de partida.

Page 12: Estrategia de difusión de información estadística basada en PC-Axis

Estrategia de difusión de información estadística basada en PC-Axis La experiencia del ISTAC y del IBESTAT

Fernández Vázquez, Sara González Yanes, Alberto

12

Figura 10. Ejemplo de mapa temático en IBESTAT a pa rtir de un fichero PC-Axis