dryfta-assets.s3-accelerate.amazonaws.com file · Web viewEl análisis y visualización de datos en...

El análisis y visualización de datos en la gobernanza pública.

Oportunidades, riesgos y retos

Documento para su presentación en el IX Congreso Internacional en Gobierno, Administración y Políticas Públicas GIGAPP. (Madrid, España) del 24 al 27 de septiembre

de 2018.

Autor(es): Jonatan Moreno

Email: [email protected]

Twitter: @partaidetza

Resumen/abstract:

Estamos en la "era del dato", se le llama el nuevo petróleo, cada día se generan cantidades

ingentes de datos. Contamos con innumerables fuentes de datos y cada día surgen nuevas

fuentes que nos ofrecen unas posibilidades de conocimiento inmensas pero también

dibujan un escenario en el que comienza a aflorar entre la ciudadanía el miedo al control

social, a ser permanentemente "vigilados".

En esta era del dato, son muchos quienes hablan del Big Data, aunque son muchos menos

quienes trabajan realmente en estrategias de análisis de datos, y menos aun desde lo

público. Hasta ahora, nos hemos centrado en la apertura de datos, y en muchos casos ni

siquiera nos hemos planteado qué podemos hacer con ellos desde las administraciones.

Ofrecemos este "petroleo" a la sociedad, buscamos reutilizadores, fomentamos el uso de los

mismos pero no nos preguntamos que nos ofrecen estos y otros datos para gestionar mejor,

para conocer mejor, para predecir, para planificar lo que hacemos o lo que podríamos hacer

desde lo público.

En esta era del dato, resulta imprescindible dotarse de recursos desde lo público, no solo

para abrir datos públicos, sino también para poder gestionar todo el ciclo de un proyecto de

datos. Pero además, y tan importante o más que esto, es contar con personas capaces de

definir una buena estrategia de gestión de los datos, necesitamos contar con estrategias

mailto:[email protected]

que nos ayuden a gestionar el dato al servicio de la mejora de las políticas públicas,

utilizando más datos, más complejos, más diversos y de nuevas fuentes en modelos de

datos que vayan más allá de lo que hoy en día tenemos. De este modo podremos conocer

mejor la realidad que afrontamos, predecir mejor necesidades y "eventos" hasta hace poco

impredecibles, ser mucho más eficientes en la gestión de los recursos, en la planificación y

en la respuesta ante situaciones de crisis, podremos comunicar mejor, facilitar la

comprensión y el conocimiento de lo que hacen las administraciones y facilitar la interacción

con ciudadanía y agentes sociales y económicos.

En cuanto a los riesgos, la pérdida de privacidad, el miedo al "control" y sentirse vigilados, a

perder la capacidad y la autonomía de decidir en un entorno copado por algoritmos de

inteligencia artificial que tomen decisiones por nosotros, que sepan antes y mejor que

nosotros lo que debemos hacer y cómo, que puedan predecir nuestro comportamiento.

Pero además, y en un plano más operativo, corremos el riesgo de entrar en una "carrera"

sin sentido por la gestión del dato, una carrera en la que perdamos mucho tiempo y muchos

recursos en algo que no sabemos muy bien por qué lo hacemos ni para qué, pero que "hay

que hacer", ya que es "lo que se lleva", y este riesgo es quizá menos impactante y mediático,

pero mucho más real que el primero.

Las administraciones deben plantearse una estrategia no solo de gestión del dato, sino de

protección de la libertad y la privacidad de las personas en un escenario que tenemos

delante.

¿Qué son los datos?

Un número es un dato?, un sonido? Una letra o una palabra? Veamos la definición que

podemos encontrar en la Wikipedia:

Para una antigua ciudad griega de Tracia, véase Dato (Tracia).

Véase también: Archivo informático

https://es.wikipedia.org/wiki/Archivo_inform%C3%A1tico

https://es.wikipedia.org/wiki/Dato_(Tracia)

https://commons.wikimedia.org/wiki/File:ProcesamientoDatos.svg

Un dato por sí mismo no constituye información, es el procesamiento de los datos lo que nos

proporciona información.

Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de

un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos,

sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios,

los datos representan la información que el programador manipula en la construcción de una

solución o en el desarrollo de un algoritmo.

En cualquier caso, los datos necesitan de un contexto una interpretación humana que les dé

sentido, que pueda interpretarlos. Cuando hablamos de letras, las diferencias en el idioma

son un ejemplo de esto, de la necesidad del “computador” (quien procesa este símbolo y lo

convierte en información, ya sea una persona o una máquina). Esto nos demuestra que los

datos, son símbolos que nacen de las personas, es decir, somos nostros quienes los

construimos y les damos sentido, son un constructo humano.

¿Para qué los queremos?

El uso que podemos hacer de los datos es inmenso, nos permiten recordar, identificar y

reconocer o conocer, comparer, agrupar, asociar, predecir, prescribir… son una herramienta

que nos ayuda a vivir, a trabajar, a relacionarnos, a aprender. Son la base sobre la que

constrimos nuestro comportamiento.

OPORTUNIDADES:

Una primera aproximación al análisis y visualización de datos.

Los datos en si mismos no tienen valor. El valor está en el análisis que hacemos con ellos y

cómo esos datos se pasan a información y de esta forma en conocimiento.

El valor, estriba en cómo las organizaciones usan ese conocimiento y convierten sus

organizaciones en Data Driven o Information Centric que sirve para la toma de decisiones

ágiles de negocio.

La visualización de los datos como una oportunidad.

https://es.wikipedia.org/wiki/C%C3%B3digo_(comunicaci%C3%B3n)

Las instituciones públicas cuentan cada día con un volumen mayor de datos y de

información, y cada vez más instituciones utilizan las visualizaciones para comunicar y

ofrecer estos datos de un modo más estructurado y fácil de comprender.

En este sentido, se cuenta con herramientas que permiten, de un modo sencillo, realizar

visualizaciones de conjuntos de datos. Se trata de herramientas que permiten hacer

visualizaciones interactivas y visualmente atractivas para el gran público, lo cual supone una

gran ventaja a la hora de avanzar en este campo, ya que requieren de un nivel de

conocimiento relativamente sencillo, por lo que cualquier profesional público, puede, de

manera sencilla, realizar este tipo de visualizaciones. Esto permite a la ciudadanía y también

a las instituciones, el acceso a información más compleja o que genera menos interes, en

muchas ocasiones precisamente por las dificultades para “digerir” y comprenderla. Claros

ejemplos de ello son los visualizadores de prespuestos que están proliferando en muchas

administraciones, y que permiten un acceso a la información presupuestaria mucho más

sencillo que lo que había hasta hace bien poco, cuando había que leer eternos pdf´s o, en el

mejor de los casos, tablas de excel.

Esta simplificación de grandes cantidades de datos, es una oportunidad para las

administraciones, que en este caso, pueden mostrar toda la complejidad que hay detrás de

decisiones políticas en las que convergen datos interconectados, no solo de la propia

administración, sino de otras administraciones y agentes económicos y sociales, cuyos puntos

de vista e intereses, son también en muchas ocasiones, opuestos. Sin dejar de lado, que desde

las administraciones, y especialmente cuando hablamos de comunicación política, la

persuasion y el marketing están muy presentes, el poder mostrar la complejidad de la toma de

decisiones mediante representaciones visuales, ayuda a una mejor comunicación y

entendimiento de las decisiones asociadas a las políticas públicas.

Un ejemplo de todo esto es el fenómeno del envejecimiento de la población y los desafíos y

oportunidades que ofrece para el futuro. Poder hacer un análisis basado en datos permitiría

abordar los debates públicos asociados a este fenómeno de un modo diferente, sin perjuicio

de las posturas e intereses legítimos de cada cual.

Las information visualizations (InfoVis) son definidas como “the use of computer-supported,

interactive, visual representations of abstract data to amplify cognition” (Card, Mackinlay, &

Shneiderman, 1999, p.8). Éstas visualizaciones, nos permiten por lo tanto, conocer y

comprender mejor grandes cantidades de datos de orígenes diversos cuya complejidad, nos

sería muy dificil de abordar sin estas herramientas.

Hasta hace poco, las administraciones apenas contaban con repositories de datos abiertos,

algo que está cambiando drásticamente durante los últimos años en todo el mundo. La

apertura de un cada vez mayor volumen de datasets, ofrece una oportunidad de oro para

representar de un modo más accessible y atractivo toda esta información. Si nos limitamos a

ofrecer los conjuntos de datos a reutilizadores, estaremos perdiendo una gran oportunidad de

comunicación y estaremos, como administraciones, dejando en manos de terceros la

realización de visualizaciones, que no siempre contarán con la neutralidad y transparencia

con la que trabajan las administraciones a la hora de ofrecer información y datos.

No toda representación vale

La forma en la que presentamos los datos y los representamos gráficamente es clave para

facilitar la comprensión de los mismos y para apoyar el mensaje que queremos transmitir con

estos datos. Resulta conveniente por tanto, trabajar con una metodología de análisis y

visualización adecuada, ya que la forma de representar es clave para su comprensión. Si bien,

como hamos comentado resulta sencillo acceder a una cada vez mayor cantidad de datos, es

clave el saber cómo estructuralos y cómo realizar visualizaciones adecuadas.

Por ello, podemos considerar que una buena visualización lo es cuando:

1. la visualización de datos es fidedigna. En muchas ocasiones vemos visualizaciones que

distorsionan la realidad que pretenden representar. Algunos ejemplos son los que nos

muestran gráficos en las que la proporción entre las diferentes opciones no se ajusta a los

datos. En este sentido, los famosos gráficos “de queso”, en particular cuando utilizamos

efectos de tres dimensiones, suelen distorsionar y causar un efecto no real de las proporciones

que contiene, sobrerepresentando la parte frontar del gráfico frente al resto, pero hay muchos

otros ejemplos de ello en los que no es una cuestión de elección adecuada del gráfico, sino

que hay una distorsión intencionada de las proporciones.

2. Es accesible. La visualización tiene como objetivo mejorar la comprensión y el acceso a

los datos. Es necesario trabajar en visualizaciones que sean accesibles, y esto implica en

muchas ocasiones centrarse en el objetivo de la visualización, en que ponga por delante el

mensaje, lo que queremos contar, frente a la tentación de utilizar, maravillados por la

tecnología, herramientas complejas, muy interactivas o cargadas de colores que pueden hacer

una visualización “bonita” pero poco accesible.

3. Es elegante, visualmente sencilla. Regla de oro, una buena visualización es una

visualización elegante y sencilla. Esto quiere decir que primamos la accesibilidad y lo que

queremos contar frente al resto de cosas como el color o la interatividad. Y

desafortunadamente, no es tan fácil conseguirlo en un momento en el que muchos de nosotros

nos dejamos maravillar por la tecnología y la interactividad, que en muchas ocasiones no son

más que fuegos de artificio, pero que no aportan un valor añadido a la comunicación.

Una recomendación para trabajar de manera adecuada las visualizaciones es esta publicación

de Kirk, “Kirk, 2016, Data Visualisation: A handbook for Data Driven Design”.

En este sentido, el flujo de trabajo que debemos considerar para trabajar con datos

podría estructurarse en 4 fases:

1. la primera fase, la de contexto, en la que debemos formular el documento informativo.

2. la segunda fase, la de trabajo con los datos, que a su vez es la más compleja y supone todo

el proceso de obtención, preparación, análisis y visualización

3. la fase en la que establecemos los criterios editoriales o de comunicación

4. Por ultimo, la fase en la que realizamos la visualización, la representación de los datos y

para la que debemos tener en cuenta los tres criterios antes mencionados.

De esta forma, cuando hablamos de las oportunidades de la visualización de los datos, se

suele presentar una escala en la que avanzamos, desde los Datos (su recopilación, la creación

de datos nuevos, etc), a la información (momento en el que los datos adquieren significado y

suponen una Fuente de información, para lo cual se requiere de una organización y

presentación de los mismos), la fase del conocimiento, en la que los datos aportan un valor

mayor del meramente informative y nos permiten conocer mejor una determinada situación y

la fase útima, en la que se adquiere la denominada “sabiduría” mediante la experiencia, la

contemplación de los datos, la evaluación y su interpretación y retrospección.

Para Munzner, (2015) las visualizaciones permiten a las personas analizar datos cuando no

saben exactamente que preguntas hacer a priori. Estas oportunidades de descubrimiento

mediante la visualización nos permiten descubir información que de otro modo no podríamos

ver, la forma en la que representamos los datos y se estructuran las visualizaciones, son clave

para ello.

En este sentido, las visualizaciones nos permiten superar nuestra capacidad de memorizar y

de conocer. La vista es, para nosotros el sentido más desarrollado, por lo que nos provee de

un canal con un gran ancho de banda. Mucha de la información visual, la procesamos en

paralelo, a un nivel preconsciente.

El cerebro humano, está “entrenado” para detectar patrones visuales, por lo que las

visualizaciones, son una de las mejores herramientas para ofrecernos información. Una buena

aproximación a esta idea de adecuar las visualizaciones a la forma en que nuestro cerebro

comprende lo que le rodea, la encontramos en el Paper “A Mental Models Perspective on

Designing Information Visualizations for Political Communication”.

De los investigadores Gunther Schreder, Florian Windhager, Michael Smuc y Eva Mayr. Del

departamento para la gestión del conocimiento y la comunicación de la Danube University

Krems, en Austria. En este paper, encontramos una aproximación a la necesaria reflexion

sobre el considerar la forma en que las personas adquieren y organizan sus representaciones

internas mediante las InfoVis Interfaces. En este interesante artículo, hacen un debate acerca

de cómo la teoría de los modelos mentales y sus consecuencias en el diseño y desarrollo de

inferfaces de InfoVis (Information visualizations), especialmente en relación a datos

multidimensionales, para los que es un desafío el diseño accesible y conceptualmente

consistente de este tipo de visualizaciones. Proponen una serie de ejemplos sobre la forma en

la que se pueden organizar algunas características de diseño de este tipo de infovis.

Un ejemplo de ello, puede ser la forma en que se presentaron los datos del proceso de

rendición de cuentas participativo de la Diputación Foral de Bizkaia, en el que, gracias a una

adecuada gestión del dato desde el inicio del proceso, se pudieron estructurar diferentes tipos

de infovis, tanto en la fase de participación/rendición de cuentas, como en la fase de

presentación de resultados. En este caso, además de los criterios de simplicidad,

accesibilidad, modularidad de la información presentada, etc. que hemos mencionado

anteriormente, se planteó un esquema de narración del proceso, teniendo en cuenta todas las

fases, desde la convocatoria hasta la evaluación, con cuadros de mando y visualizaciones de

datos muy variados en cada parte de la visualización. Esta forma de trabajar las

visualizaciones de materializó en una mejora de las evaluaciones en relación a la calidad y la

cantidad de información ofrecida en los encuentros, ya que en los tres primeros de los 10

realizados, se utilizó una presentación y materiales tradicionales, mientras que para los

sucesivos encuentros, se presentaron los datos mediante infografías creadas con una

herramienta de análisis y visualización de datos que además, sirivió, al finalizar la ronda de

encuentros para hacer un análisis más detallado de los resultados del conjunto de encuentros

participativos, desde la convocatoria, los perfiles de participantes por comarca, las

valoraciones a cada parte de la metodología y a la evaluación de los propios encuentros.

En cualquier caso, estas visualizaciones son un buen complemento de otras técnicas y

herramientas para el análisis y la comunicación. No debemos por tanto centrarnos únicamente

en ellas, ni descartar herramientas de análisis y de comunicación tradicionales que funcionan

de modo muy efectivo.

DIKW Pyramid (Wikipedia)

Shedroff, 1994. “Information Interaction Design: A Unified Field Theory of Design”

Algunas claves para facilitar la interpretación de los datos por parte agentes externos a

la administración.

- Permitir el modificar las configuraciones por defecto. Hablamos de interactividad,

pero también de cierto margen de análisis y búsqueda. En este sentido, hay

herramientas de visualización que permiten no solo visualizar, sino también cierto

margen de modificiación y “juego” con lo que vemos en pantalla.

- Simplificar las gráficas. Los gráficos muy complejos, con demasiada información,

con demasiados colores, etc. no ayudan a facilitar una buena interpretación. No

podemos dejarnos llevar por tratar de meter mucha información en una visualización

si esto acaba redundando en una mayor dificultad de intepretar, es mejor poco y claro

que mucho y confuso.

- Destacar algunas observaciones clave. Además de simplificar las gráficas y las

visualizaciones, podemos optar por destacar algunos datos u observaciones que

consideremos clave en relación a lo que queremos contar. Esto tiene la pega de que de

alguna manera “guía” hacia la observación que hemos decidido destacar, pero

también permite una mayor comprensión. Es necesario buscar el equilibrio.

- Añadir variables que aporten contexto. En ocasiones, pecamos de dar por supuesto

ciertas cuestiones que ya conocemos. Si nos lanzamos a visualizar datos que

especifican o se centran en una determinada realidad, pero obviamos el contexto,

podemos estar generando confusion. Por ejemplo, si ofrecemos visualizaciones de

datos sobre servicios sociales o residenciales sobre un mapa, y obviamos los datos de

contexto, como por ejemplo el número de personas usuarias en esos entornos, estamos

generando cierta confusion, o al menos generando la duda de si la información que

ofrecemos se ajusta a un contexto determinado.

- Añadir información estadística. Datos estadísiticos, sociodemográficos, etc. son

fuentes de información fácilente accesibles y que pueden aportar valor a nuestras

visualizaciones. Permiten dar contexto.

Todo ello mediante la interactividad (permitiéndo al usuario/a adaptar la visualización a sus

necesidades). Además la combinación de diferentes tipos de gráficas ayuda a la compression

de grandes volúmenes de datos diversos. Para ello, podemos utilizar cuadros de mando

(cuando hablamos de aplicaciones de visualización), infografías, etc.

Además, cuando hablamos de visualizaciones para la comunicación política, es importante

considerar alguna cuestiones como lo que

Factores de creación de valor en el trabajo con datos.

Cuando hablamos del trabajo en el campo del análisis y la visualización de datos, debemos

tener en cuenta que todo ello ha de tener un objetivo. Además de los elementos

comunicativos que hemos mencionado anteriormente, los proyectos de análisis de datos han

de ofrecer la oportunidad de generar valor, en este caso en el ámbito de la gestión. Nos deben

permitir gestionar mejor, tomar mejores decisiones, planificar y hacer un mejor seguimiento,

una asignación de recursos más ajustada a la realidad, etc.

Si nos ceñimos al sector público, son multiples los ámbitos en lso que podemos encontrar

oportunidades de valor. Desde el ámbito fiscal (predicciones de recaudación, afloramiento de

fraude..) al transporte público y las carreteras (prevenir necesidades), al ámbito social

(reordenar y planificar la oferta de servicios sociales), al ámbito de la promoción económica

(identificando tendencias y ámbitos de future y alineándolos con las políticas de promoción).

Podemos mencionar algunas de las fuentes de creación de valor más relevantes y su impacto.

1. Mayor profundidad de los datos de interacciones: Peticiones, quejas, actos

administrativos, etc.

La mayoría de las administraciones, cuentan con sistemas de recogida de imputs de la

ciudadanía. Desde los buzones de sugerencias, los puntos de registro, incluso los espacios de

participación ciudadana de base tecnológica como las webs y aplicaciones.

Todo este conjunto de fuentes de datos, son una importante Fuente de información, nos

aportan, tanto información clave sobre cuestiones que afectan o preocupan a la ciudadanía,

que como administraciones se han de estudiar y responder adecuadamente.

Pero también, nos dan la oportunidad de trabajar de manera agregada y debidamente

estructurada esta ingente cantidad de información. Sin olvidarnos de los límites que establece

la ley de protección de datos, tenemos la oportunidad de entrar en un Proyecto ambicioso de

estructuración de la recogida de información, que nos permitiría, a posteriori, trabajar en

proyectos de analítica avanzada (o incluso Big Data). Por poner solo unos ejemplos del valor

que podemos obtener:

- Nos permitiría una visión agregada del tipo de interacciones. De este modo, podemos

saber mejor qué tipo de cuestiones concretas o temas (agrupando los imputs) nos

están entrando desde diferentes fuentes.

- Saber si las mismas personas están interactuando desde diferentes canales para

hacernos llegar una petición. Importante para saber si estamos respondiendo o no, y si

las respuestas que estamos dando por diferentes canales son coherentes.

- Microsegmentar, poder hacer análisis que nos permitan descubrir patrones de

interacciones en función de la zona, del género..

- Predecir, en base a un análisis histórico de las interacciones, el tipo de interacción e

incluso los temas que pueden entrar por los diferentes canales, lo que nos permitiría

avanzar en la información que debemos preparar, mejorando la calidad de la

información ofrecida, y el tiempo de respuesta.

Estos tres son solo unos pocos ejemplos de las oportunidades que nos dá el trabajo con los

datos en el campo de las interacciones, pero lo que es seguro, es que la experiencia de las

personas que interactúan puede mejorar sensiblemente si somos capaces de estructurar bien la

manera en la que recogemos la información y nos relacionamos.

2. Trabajo con datos no estructurados:

Tanto a nivel interno (mails, formularios, etc) como externos: redes sociales, noticias,

geolocalizacion, etc.

Este tipo de datos, son los que menos se tratan por parte de las administraciones, pero

también por empresas o agentes sociales, prensa, etc. Se trata de información de gran valor

por su aporte cualitativo, pero que resulta más dificil de trabajar, ya que se trata de conjuntos

de datos no estructurados, para los que el trabajo de ETL (extracción, tratamiento y carga) es

más complejo.

Si bien la complejidad es mayor que a la hora de trabajar con datos, nos puede dar una

información de gran valor que no estamos acostumbrados a tratar de un modo estructurado y

agregado.

3. Velocidad: acceso a los datos en tiempo real o baja latencia.

El poder acceder a los datos de manera rápida, es una de las grandes ventajas del trabajo con

datos. Si tenemos bien estructurada la recogida y el análisis de la información, podremos

acceder a los mismos de manera inmediata, de modo el único límite será el tiempo de

actualización de los datos a los que accedemos, que por lo general, en las administraciones no

son nunca en tiempo real (salvo algunos casos en los que se trabaja con los datos de tráfico o

meteorológicos).

La ventaja de todo ello? Que cuando queremos saber algo relacionado con los datos con los

que estamos trabajando, no necesitamos abrir un proceso de consulta manual que va a llevar

tiempo. Podemos accede a la información ya preparada y montada sobre herramientas de

visualización, cuadros de mando, etc.

Datos de seguimiento de ejecución presupuestaria, de cumplimiento de compromisos de

mandato, de planes sectoriales o de mandato, datos relacionados con cuestiones que afectan a

políticas públicas de las que somos responsables, como por ejemplo el número de menores

que soliciten acceso a becas, o a plazas de colonias de verano, de personas mayores que

puedan ser usuarias de servicios sociales, etc.

4. Analítica predictiva: análisis de causalidad, predicciones.

Un tipo de análisis que puede resultar clave es la analítica predictiva, que nos permita avanzar

situaciones, eventos, etc. para lo que nos debamos preparar.

En qué cuestiones puede ser interesante? Por poner unos ejemplos, los datos de tráfico son

una Fuente valiosa sobre la que hacer análisis predictivos, tanto de afluencias, como incluso

de predicción de accidentes para ponder implementar medidas que eviten o reduzcan el

impacto. Pero también en el campo de la educación (nuevas necesidades de formación, la

connexion entre la formación y la empresa en base a datos, la incorporación de datos

demográficos o socio-demográficos al proceso de toma de decisiones en el campo de la

educación..), de la economía (predicción del fraude, análisis de tendencias y predicción para

implementar políticas de promoción económica más ajustadas a las necesidades futuras del

Mercado, etc).

5. Analítica descriptiva: estadísticios descriptivos, clusterizaciones, etc.

Siendo la analítica predictiva uno de los campos clave y con un gran potecial, también es

posible que sea uno de los más sobrevalorados. El “halo” de magia que envuelve a la

analítica predictiva hace que a veces se ponga poco interés y se dé poco valor al análisis

descriptiivo. Y es posiblemente aquí, donde las administraciones tengan un mayor espacio de

crecimiento y “descubrimiento” (al menos a corto plazo y teniendo en cuenta el estado de

madurez del trabajo con datos por parte de las administraciones).

En muchas ocasiones nos obsesionamos con conocer lo que va a ocurrir en el futuro sin antes

conocer bien la realidad que tenemos entre manos en este momento. En este sentido, además,

no sufrimos la dependencia de series históricas de datos que requiere un análisis predictivo,

que en muchos casos, y por falta de esa “cultura del dato” en las administraciones, o tenemos

acceso, o el trabajo para incorporar las series históricas de datos al análisis supone un

esfuerzo enorme en tiempo y recursos.

Por ello, antes de lanzarnos a proyectos de analítica predictiva, que pueden ser claves en

algunos casos, deberíamos plantearnos la posibilidad de trabajar en el análisis descriptivo.

Los estadísticos descriptivos, los clusters, los análisis factoriales, etc. son análisis

estadísiticos que nos pueden ayudar mucho a conocer mejor la realidad, y por supuesto, tomar

decisiones acorde a ello.

Cuando tomamos la decision de sacar una nueva línea de ayudas ya sea en el campo de la

cultura, o de la economía, ¿cuántas veces se hace un análisis completo de los datos

relacionados con esta decision?. En muchos casos se basa en la “intuición” en el “yo llevo 20

años haciendo esto y sé lo que hace falta”.. o en el mejor de los casos, en decisiones apoyadas

en espacios de consulta con unos pocos agentes del sector en cuestión, que pueden ser

representativos de un tipo de perfil, pero que evidentemente no representan (estadísticamente)

la realidad sobre la que vamos a actuar.

No hablamos aquí de encuestas, o al menos no únicamente, ya que el análisis de datos va

mucho más allá y nos permite apoyar las decisiones en fuentes muy diversas, reforzando así

la calidad de los datos sobre los que nos basamos y aportando no solo en valor cuatitativo,

sino el cualitativo. Se trata de combinar fuentes diversas para tomar mejores decisiones.

Todo esto, nos permite un mayor impacto en:

1. Granularidad de los datos a la hora de tomar decisiones. De los datos agregados y la

segmentación, a la micro-segmentación. Poder tener un “microscopio” de mayor alcance nos

va a permitir ser más precisos a la hora de tomar decisiones, pero también utilizar los datos

para más análisis, poder comparar más fuentes de datos y con mayor detalle. Por poner un

símil, con unas piezas de LEGO, podemos hacer figuras más precisas y más variadas de lo

que podríamos hacer con piezas de tamaño mucho mayor, como las que se utilizan para

bebés. Si los datos fuesen piezas, cuanta mayor granularidad del dato, piezas más pequeñas, y

por lo tanto una mayor precision y libertad para trabajar con ellas.

2. Mayor precision en la toma de decisiones. Aquí no solo hablamos de la granularidad.

Evidentemente, el simple hecho de contar con datos estructurados y preparados para el

análisis, con herramientas de analítica y visualización, ya supone una ventaja competitiva

respecto de quien sigue tomando decisiones sin esto.

3. Mayor rapidez en la toma de decisiones. Un acceso más rápido a datos más completos y

mejor estructurados permite reducir el tiempo de reflexion y análisis previo a la toma de

decisiones. Cuanto mejor estructurados tengamos los datos y el proceso de analítica, más

rápido será la toma de decisiones basadas en datos.

4. Orientar las decisiones a acciones concretas (predecir, optimizar, recomendar..). Volvemos

al asunto de la precision. En este caso, está claro que contar con una mejor información y un

mayor volumen de datos, nos va a ayudar a tomar decisiones más orientadas a acciones

concretas, porque conoceremos mejor la realidad sobre la que vamos a actuar y las

necesidades que debemos cubrir.

Hablando de Gobierno Abierto, ¿qué oportunidades nos dan los datos?

Una gestión adecuada de los datos es ya un potencial avance para un gobierno que aspira a

mayores cotas de apertura. Hemos mencionado ya las posiblidades que nos ofrece desde el

punto de vista de la gestión, de la decision, de la comunicación, etc. Por lo tanto, más allá de

la apertura de datos, que resulta una iniciativa loable y clave para el gobierno abierto, es lo

que podemos hacer con esos datos a nivel interno lo que aporta un mayor potencial de

crecimiento y de mejora en el ámbito del gobierno abierto, porque nos permitiría ser más

eficientes en la gestión de los recursos, en nuestras relaciones (interacciones) con la

ciudadanía, más transparentes en tanto que podemos ofrecer más información y de base más

sólida, y mas “accountables” por cuanto nos puede permitir una mayor (sobre más fuentes de

datos) y más rigurosa rendición de cuentas pública.

Una aproximación a su aplicación en el ámbito de la participación ciudadana.

La participación ciudadana es uno de los elementos del Gobierno Abierto con más historia,

como mayor recorrido e implantación en las diferentes administraciones públicas de todo el

Estado. Quienes llevamos años trabajando en este campo, o al menos la mayoría de nosotros,

nunca nos hemos planteado las posiblidades que nos ofrecen los datos, desde la perspectiva

del análisis y la visualización, para mejorar los procesos y los espacios de participación

ciudadana.

Cuando hablamos de participación, siempre consideramos clave la información, ya que una

buena información es la base sólida sobre la que podemos construir procesos participativos.

Además, reconocemos que es necesario adecuar la información que se dá en los procesos a

los diferentes perfiles de participantes, tanto en su contenido como en su complejidad y en los

canales a través de los que la ofrecemos. En cualquier caso, y como hemos visto

anteriormente, el poder trabajar desde las administraciones con datos preparados (limpios,

normalizados, bien estructurados, etc) nos puede ayudar a ofrecer mas y mejor información,

reduce el esfuerzo que requiere preparar un proceso de participación a la hora de preparar la

información que vamos a utilizar para el mismo y nos facilita la posibilidad de crear

visualizaciones que hagan más sencilla la interpretación de los datos y de la información en

temas que pueden ser complejos, como son los presupuestos, el urbanismo, el debate sobre

normativas, etc. Y como hemos visto, las opciones que nos da la visualización van desde

aplicaciones interactivas de visualización hasta la elaboración de infografías y paneles de

fácil lectura e interpretación. En este sentido, hay ya algunos ejemplos, principalmente en el

ámbito de los prespuestos con visualizadores web, que suponen avances significativos.

En las fases de deliberación y cierre, también podemos apoyarnos en los datos para obtener

procesos más eficientes y abiertos. No solo mediante la información, que ya hemos

mencionado, sino también a través de la analítica, es decir, apoyando el proceso en su

desarrollo de nuevos análisis que surgan como necesidad del propio debate y que a su vez,

contribuyan a una deliberación más profunda y sólida.

Por ultimo, y no por ello menos importante, para hacer una sistematización adecuada de todo

el proceso, haciendo un repositorio de información, de datos de todo lo relacionado con el

mismo de un modo que resulte más fácil de consultar tanto para quienes han participado,

como para la propia administración. El ejemplo es claro, ¿cuantas administraciones han

puesto en marcha procesos de participación en la última década? Seguramente la gran

mayoría, pero es posible que muy pocos o ninguna de ellas, tenga estructurada toda la

información de estos procesos, cuando hablamos de estruturada, queremos decir preparada

para hacer análisis posteriores o cruzados con otros procesos o fuentes de información. La

gran mayoría, en el mejor de los casos, contará con memorias en word o pdf de conclusiones,

actas, etc. Mucha información que posiblemente no se vuelva a consultar, porque volver a

ella supone releer decenas y decenas de páginas. Y tratar de cruzar toda esta información con

la de otros procesos o “interacciones” puede resultar ya una tarea eróica. El paso por tanto es

clave aquí, poder utilizar los datos y sobre todo reutilizar el valor que se genera en un proceso

de este tipo, sistematizando los datos y preparándolos para poder hacer analíticas

complementarias es un reto y también una gran oportunidad.

Por mencionar otro ámbito clave para el gobierno abierto, la rendición de cuentas o

“accountability” es otro de los principales beneficiados de una adecuada gestión del dato

dentro de las administraciones.

Comenzando por la gestión del dato en la elaboración y seguimiento de los planes de gestión

o de gobierno sobre los que podemos rendir cuentas hasta gestión de información y datos de

“contexto” que como hemos visto pueden y deben aportar contexto a la información que

damos para ayudar a comprender mejor las decisiones que se toman, ya que no únicamente

debemos dar cuenta de lo que hacemos sino de por qué lo hacemos, y aquí la información de

contexto y estadística puede jugar un papel clave.

Además, cada vez más instituciones, como la Diputación Foral de Bizkaia, basan sus

procesos de rendición de cuentas en espacios de participación, de encuentro “cara a cara”, en

los que quienes toman las decisiones, son quienes dan la cara y rinden cuentas de ello. En

estos casos, podemos también considerar todas las ventajas que hemos mencionado en los

espacios de participación ciudadana, ya que estos espacios, son esencialmente, espacios

participativos.

DESAFÍOS Y RETOS

¿Nos controlan las máquinas?

La respuesta no es clara. Evidentemente, la inteligencia artificial, el conocido como machine

learning, realiza análisis de datos y “aprende”, toma decisiones o más bien, recomienda. En la

medida en que esos algoritmos mejoren, gracias al trabajo y a la corrección humana, darán

resultados mejores, más afinados, y más fiables. La duda es si en algún momento, seremos

capaces de introducir en una máquina la variabilidad necesaria para conocer y predecir de un

modo preciso, el hasta ahora impredecible comportamiento humano, el libre albedrío.

De momento, parece altamente improbable. Además, como sabemos, los algoritmos de

inteligencia artificial, están ofreciendo algunos resultados no solamente erroneos, sino

además profundamente injustos. Por poner un ejemplo, cuando se nos incluye, en esta

microsegmentación, dentro de un colectivo de potenciales morosos, o de alto riesgo para una

aseguradora, se está haciendo en base a patrones de datos que se obtienen de nuestro perfil en

redes sociales, sociodemográfico, etc. Pero esto no quiere decir que formemos parte de ese

grupo, solo que, según el algoritmo, tenemos altas probabildades de pertenecer a él, lo cual

supone una discriminación a priori que cuado menos debería provocarnos dudas éticas.

En el Mercado libre, en la empresa privada, siguiendo el caso de las aseguradoras, es algo

que ya está sucediendo, y es posible que sin ser una persona que efectivamente cumpla estos

criterios de “baja rentabilidad”, estemos dentro de uno de estos grupos y nos esté costando

que nos ofrezcan un seguro, o estemos pagando un precio muy elevado por él. Si llevamos

este ejemplo a la administración pública, a nadie se le pasa por la cabeza que, fruto de un

análisis predictivo de fraude fiscal, a nadie se le trate como un defraudador “a priori”.

Afortunadamente, en el sector público hay unas garantías de imparcialidad y de protección de

datos personales que nos protegen frente a los abusos que si podemos sufrir en el ambito

privado.

En cualquier caso, actualmente vivimos en un entorno altamente digitalizado en el que las

fuentes de obtención de datos de cada uno de nosotros son cada vez mayores. Si bien el

primer paso de cierta relevancia fue en 2009 cuando Google comenzó a implementar un

algoritmo que adecuaba las búsquedas y lo que vemos en internet a nuestro perfil y nuestras

preferencias, esto se está generalizando a otros espacios como son las redes sociales,

reduciéndo drásticamente nuestro universo de relaciones e información, y en cierto modo,

condicionando altamente qué vemos y qué no, lo cual supone un alto riesgo de ser

manipulados o al menos influídos ya que a pesar de que podamos percibir que estamos ante

un universo de información en el que podemos elegir qué consultar, qué leer, etc. cada día

estamos más limitados por esos márgenes invisibles que se nos imponen a través de la web y

las redes sociales principalmente, sin además ser plenamente conscientes de ello.

Además, la proliferación de wearables y demás aparatos conectados, son en cierto modo una

comodidad y un avance tecnológico, pero también son tuberías que tienen doble entrada, por

un lado nos dan un servicio, pero por otro, ofrecen cantidades ingentes de información acerca

de nosotros mismos, nuestros hábitos deportivos, lo que consumimos, con quién nos

relacionamos, etc. y esto, es también un riesgo para la privacidad y para la libertad de las

personas.

Esto nos pone ante una cuestión que puede ser clave en el future inmediato, y es el papel que

deben asumir las admistraciones ante esta nueva realidad. La cuestión de una adecuada

legislación, no únicamente en lo referido al tratamiento de datos personales, sino también al

uso potencialmente discriminatorio que se puede llegar a hacer mediante el análisis de datos o

el big data.

En cualquier caso, ya hemos mencionado que hasta el momento, cualquier acción que

proviene del big data, de la inteligencia artificial, requiere de una mano y un cerebro

humanos que decidan, que tomen la iniciativa, por lo tanto este temor a ser controlados por

las máquinas, es en cierto modo infundado. El riesgo está más bien en el uso de las máquinas

que pueden hacer otros humanos para controlarnos, guiarnos, manipularnos, etc.

¿Podemos o debemos tomar decisiones exclusivamente basadas en datos?

Cuando hablamos de datos, reconocemos que siempre es necesario el componente humano,

que pone el objetivo del análisis que guía y pone en marcha la máquina con unos objetivos

concretos. Al margen de que esta ofrezca resultados a un análisis exploratorio o predictivo

del que no sabemos qué va a salir. Es decir, la “máquina” puede descubrir por nosotoros, pero

la iniciativa, es algo que aun queda en manos de las personas.

Recientemente el escándalo de Cambridge Analytica nos muestra cómo a través de análisis

de datos, de la microsegmentación y la inteligencia artificial, se puede llegar a hacer un uso

poco honesto de los datos y de las oportunidades que nos dá la tecnólogía y la analítica.

En cualquier caso, y dejando a un lado los temores al control social que sufrimos, hay otro

elemento muy importante que debemos considerar a la hora de trabar con datos. En este caso,

es muy arriesgado dejarse guiar únicamente por los datos, es decir, no solo la IA no puede

tomar decisiones por nosotros, sino que, nosotros mismos, no debemos tomar decisiones

únicamente porque “nos lo dicen los datos”.

En el argot del Big Data, se habla de la figura de la persona “experta de negocio”. Qué es esta

figura? Pues esencialmente una persona que puede saber de datos, de analítica y de big data,

pero que sobre todo debe conocer bien el “negocio” o el ámbito en el que se va a desarrollar

este Proyecto de datos. De lo contrario, los resultados de nuestros análisis nos pueden llevar a

decisiones erroneas que pueden resultar fatales para nuestra organización.

No podemos descartar errores en el análisis, un conjunto de datos no lo bastante completo, el

que ignoremos variables clave en nuestro análsis, bien porque no las hemos podido idenficar,

encontrar, codificar… o simplemente porque no sabemos que están ahi, porque

desconocemos lo que no concemos y esto, puede limitar la calidad de unos resultados que

pueden parecer robustos desde el punto de vista analítico y estadístico, pero que adolecen de

falta de “ojo humano” que es quien a fin de cuentas, y con el conocimiento que tiene y que

pueda adquirir a través del análisis y de la observación de los datos, debe tomar la decision,

matizarla, llevarla a cabo, o desecharla por diferentes motivos (por ejemplo por criterios

politicos o éticos).

Conclusiones.

Este paper ha tratado de hacer una aproximación a este nuevo fenómeno del dato. La “era del

dato” “el nuevo petróleo”, etc son frases que estamos oyendo con frecuencia los últimos

tiempos. Al margen discursos grandilocuentes o alarmistas, tenemos ante nosotros, como

instituciones retos importantes que afrontar.

Por un lado, la necesidad de adecuar la institución a esta “era del dato”, tanto los procesos de

trabajo, la cultura de la organización (que debe acostumbrarse a un mayor control de la

gestión realizada en base a la evaluación y la analítica de datos y menos a la intuición o a la

gestión por inercia), a la creación o readecuación de los perfiles profesionales que permitan

este cambio, a explorar las oportunidades que nos ofrecen los datos para ser más abiertos y

más eficientes, etc.

Pero también, y en lo relativo al “extramuros” de las instituciones, a los riesgos que supone

para la libertad y para la igualdad de las personas esta inmensa cantidad de datos de cada uno

de nosotros que están ya en manos de corporaciones o intereses que no siempre respetan las

reglas de juego que si respetan las instituciones. En este sentido, una demanda clara para que

quienes tienen la capacidad regulatoria reflexionen sobre todo ello y traten de poner unas

reglas de uso de los datos que respeten los principios de igualdad y de libertad y, por otra

parte, a todo lo relative a la apertura y reutilización de los datos, campo en el que se ha

avanzado mucho los últimos años, pero que aun tiene un largo camino por recorrer, y en el

que todo lo relativo a mejorar las posibilidades de acceso, reutilización y comprensión de los

datos, pasan por explorar nuevas formas de presentación de los mismos que vayan más allá

de la publicación de datasets, incorporando visualizaciones que acerquen esta iniciativa a

aquellas personas que pudieran tener interés, pero carecen de ese perfil de “reutilizador” o

periodista que hasta ahora copa el consumo de estos datos para abrirlo al conjunto de la

ciudadanía, lo cual redundará en una mayor percepción de transparencia y ayudará a una más

efectiva rendición de cuentas.

dryfta-assets.s3-accelerate.amazonaws.com file · Web viewEl análisis y visualización de datos en...

Documents

Transcript of dryfta-assets.s3-accelerate.amazonaws.com file · Web viewEl análisis y visualización de datos en...