dryfta-assets.s3-accelerate.amazonaws.com file · Web viewEl análisis y visualización de datos en...
Click here to load reader
-
Upload
truongngoc -
Category
Documents
-
view
214 -
download
0
Transcript of dryfta-assets.s3-accelerate.amazonaws.com file · Web viewEl análisis y visualización de datos en...
El análisis y visualización de datos en la gobernanza pública.
Oportunidades, riesgos y retos
Documento para su presentación en el IX Congreso Internacional en Gobierno, Administración y Políticas Públicas GIGAPP. (Madrid, España) del 24 al 27 de septiembre
de 2018.
Autor(es): Jonatan Moreno
Email: [email protected]
Twitter: @partaidetza
Resumen/abstract:
Estamos en la "era del dato", se le llama el nuevo petróleo, cada día se generan cantidades
ingentes de datos. Contamos con innumerables fuentes de datos y cada día surgen nuevas
fuentes que nos ofrecen unas posibilidades de conocimiento inmensas pero también
dibujan un escenario en el que comienza a aflorar entre la ciudadanía el miedo al control
social, a ser permanentemente "vigilados".
En esta era del dato, son muchos quienes hablan del Big Data, aunque son muchos menos
quienes trabajan realmente en estrategias de análisis de datos, y menos aun desde lo
público. Hasta ahora, nos hemos centrado en la apertura de datos, y en muchos casos ni
siquiera nos hemos planteado qué podemos hacer con ellos desde las administraciones.
Ofrecemos este "petroleo" a la sociedad, buscamos reutilizadores, fomentamos el uso de los
mismos pero no nos preguntamos que nos ofrecen estos y otros datos para gestionar mejor,
para conocer mejor, para predecir, para planificar lo que hacemos o lo que podríamos hacer
desde lo público.
En esta era del dato, resulta imprescindible dotarse de recursos desde lo público, no solo
para abrir datos públicos, sino también para poder gestionar todo el ciclo de un proyecto de
datos. Pero además, y tan importante o más que esto, es contar con personas capaces de
definir una buena estrategia de gestión de los datos, necesitamos contar con estrategias
que nos ayuden a gestionar el dato al servicio de la mejora de las políticas públicas,
utilizando más datos, más complejos, más diversos y de nuevas fuentes en modelos de
datos que vayan más allá de lo que hoy en día tenemos. De este modo podremos conocer
mejor la realidad que afrontamos, predecir mejor necesidades y "eventos" hasta hace poco
impredecibles, ser mucho más eficientes en la gestión de los recursos, en la planificación y
en la respuesta ante situaciones de crisis, podremos comunicar mejor, facilitar la
comprensión y el conocimiento de lo que hacen las administraciones y facilitar la interacción
con ciudadanía y agentes sociales y económicos.
En cuanto a los riesgos, la pérdida de privacidad, el miedo al "control" y sentirse vigilados, a
perder la capacidad y la autonomía de decidir en un entorno copado por algoritmos de
inteligencia artificial que tomen decisiones por nosotros, que sepan antes y mejor que
nosotros lo que debemos hacer y cómo, que puedan predecir nuestro comportamiento.
Pero además, y en un plano más operativo, corremos el riesgo de entrar en una "carrera"
sin sentido por la gestión del dato, una carrera en la que perdamos mucho tiempo y muchos
recursos en algo que no sabemos muy bien por qué lo hacemos ni para qué, pero que "hay
que hacer", ya que es "lo que se lleva", y este riesgo es quizá menos impactante y mediático,
pero mucho más real que el primero.
Las administraciones deben plantearse una estrategia no solo de gestión del dato, sino de
protección de la libertad y la privacidad de las personas en un escenario que tenemos
delante.
¿Qué son los datos?
Un número es un dato?, un sonido? Una letra o una palabra? Veamos la definición que
podemos encontrar en la Wikipedia:
Para una antigua ciudad griega de Tracia, véase Dato (Tracia).
Véase también: Archivo informático
Un dato por sí mismo no constituye información, es el procesamiento de los datos lo que nos
proporciona información.
Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de
un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos,
sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios,
los datos representan la información que el programador manipula en la construcción de una
solución o en el desarrollo de un algoritmo.
En cualquier caso, los datos necesitan de un contexto una interpretación humana que les dé
sentido, que pueda interpretarlos. Cuando hablamos de letras, las diferencias en el idioma
son un ejemplo de esto, de la necesidad del “computador” (quien procesa este símbolo y lo
convierte en información, ya sea una persona o una máquina). Esto nos demuestra que los
datos, son símbolos que nacen de las personas, es decir, somos nostros quienes los
construimos y les damos sentido, son un constructo humano.
¿Para qué los queremos?
El uso que podemos hacer de los datos es inmenso, nos permiten recordar, identificar y
reconocer o conocer, comparer, agrupar, asociar, predecir, prescribir… son una herramienta
que nos ayuda a vivir, a trabajar, a relacionarnos, a aprender. Son la base sobre la que
constrimos nuestro comportamiento.
OPORTUNIDADES:
Una primera aproximación al análisis y visualización de datos.
Los datos en si mismos no tienen valor. El valor está en el análisis que hacemos con ellos y
cómo esos datos se pasan a información y de esta forma en conocimiento.
El valor, estriba en cómo las organizaciones usan ese conocimiento y convierten sus
organizaciones en Data Driven o Information Centric que sirve para la toma de decisiones
ágiles de negocio.
La visualización de los datos como una oportunidad.
Las instituciones públicas cuentan cada día con un volumen mayor de datos y de
información, y cada vez más instituciones utilizan las visualizaciones para comunicar y
ofrecer estos datos de un modo más estructurado y fácil de comprender.
En este sentido, se cuenta con herramientas que permiten, de un modo sencillo, realizar
visualizaciones de conjuntos de datos. Se trata de herramientas que permiten hacer
visualizaciones interactivas y visualmente atractivas para el gran público, lo cual supone una
gran ventaja a la hora de avanzar en este campo, ya que requieren de un nivel de
conocimiento relativamente sencillo, por lo que cualquier profesional público, puede, de
manera sencilla, realizar este tipo de visualizaciones. Esto permite a la ciudadanía y también
a las instituciones, el acceso a información más compleja o que genera menos interes, en
muchas ocasiones precisamente por las dificultades para “digerir” y comprenderla. Claros
ejemplos de ello son los visualizadores de prespuestos que están proliferando en muchas
administraciones, y que permiten un acceso a la información presupuestaria mucho más
sencillo que lo que había hasta hace bien poco, cuando había que leer eternos pdf´s o, en el
mejor de los casos, tablas de excel.
Esta simplificación de grandes cantidades de datos, es una oportunidad para las
administraciones, que en este caso, pueden mostrar toda la complejidad que hay detrás de
decisiones políticas en las que convergen datos interconectados, no solo de la propia
administración, sino de otras administraciones y agentes económicos y sociales, cuyos puntos
de vista e intereses, son también en muchas ocasiones, opuestos. Sin dejar de lado, que desde
las administraciones, y especialmente cuando hablamos de comunicación política, la
persuasion y el marketing están muy presentes, el poder mostrar la complejidad de la toma de
decisiones mediante representaciones visuales, ayuda a una mejor comunicación y
entendimiento de las decisiones asociadas a las políticas públicas.
Un ejemplo de todo esto es el fenómeno del envejecimiento de la población y los desafíos y
oportunidades que ofrece para el futuro. Poder hacer un análisis basado en datos permitiría
abordar los debates públicos asociados a este fenómeno de un modo diferente, sin perjuicio
de las posturas e intereses legítimos de cada cual.
Las information visualizations (InfoVis) son definidas como “the use of computer-supported,
interactive, visual representations of abstract data to amplify cognition” (Card, Mackinlay, &
Shneiderman, 1999, p.8). Éstas visualizaciones, nos permiten por lo tanto, conocer y
comprender mejor grandes cantidades de datos de orígenes diversos cuya complejidad, nos
sería muy dificil de abordar sin estas herramientas.
Hasta hace poco, las administraciones apenas contaban con repositories de datos abiertos,
algo que está cambiando drásticamente durante los últimos años en todo el mundo. La
apertura de un cada vez mayor volumen de datasets, ofrece una oportunidad de oro para
representar de un modo más accessible y atractivo toda esta información. Si nos limitamos a
ofrecer los conjuntos de datos a reutilizadores, estaremos perdiendo una gran oportunidad de
comunicación y estaremos, como administraciones, dejando en manos de terceros la
realización de visualizaciones, que no siempre contarán con la neutralidad y transparencia
con la que trabajan las administraciones a la hora de ofrecer información y datos.
No toda representación vale
La forma en la que presentamos los datos y los representamos gráficamente es clave para
facilitar la comprensión de los mismos y para apoyar el mensaje que queremos transmitir con
estos datos. Resulta conveniente por tanto, trabajar con una metodología de análisis y
visualización adecuada, ya que la forma de representar es clave para su comprensión. Si bien,
como hamos comentado resulta sencillo acceder a una cada vez mayor cantidad de datos, es
clave el saber cómo estructuralos y cómo realizar visualizaciones adecuadas.
Por ello, podemos considerar que una buena visualización lo es cuando:
1. la visualización de datos es fidedigna. En muchas ocasiones vemos visualizaciones que
distorsionan la realidad que pretenden representar. Algunos ejemplos son los que nos
muestran gráficos en las que la proporción entre las diferentes opciones no se ajusta a los
datos. En este sentido, los famosos gráficos “de queso”, en particular cuando utilizamos
efectos de tres dimensiones, suelen distorsionar y causar un efecto no real de las proporciones
que contiene, sobrerepresentando la parte frontar del gráfico frente al resto, pero hay muchos
otros ejemplos de ello en los que no es una cuestión de elección adecuada del gráfico, sino
que hay una distorsión intencionada de las proporciones.
2. Es accesible. La visualización tiene como objetivo mejorar la comprensión y el acceso a
los datos. Es necesario trabajar en visualizaciones que sean accesibles, y esto implica en
muchas ocasiones centrarse en el objetivo de la visualización, en que ponga por delante el
mensaje, lo que queremos contar, frente a la tentación de utilizar, maravillados por la
tecnología, herramientas complejas, muy interactivas o cargadas de colores que pueden hacer
una visualización “bonita” pero poco accesible.
3. Es elegante, visualmente sencilla. Regla de oro, una buena visualización es una
visualización elegante y sencilla. Esto quiere decir que primamos la accesibilidad y lo que
queremos contar frente al resto de cosas como el color o la interatividad. Y
desafortunadamente, no es tan fácil conseguirlo en un momento en el que muchos de nosotros
nos dejamos maravillar por la tecnología y la interactividad, que en muchas ocasiones no son
más que fuegos de artificio, pero que no aportan un valor añadido a la comunicación.
Una recomendación para trabajar de manera adecuada las visualizaciones es esta publicación
de Kirk, “Kirk, 2016, Data Visualisation: A handbook for Data Driven Design”.
En este sentido, el flujo de trabajo que debemos considerar para trabajar con datos
podría estructurarse en 4 fases:
1. la primera fase, la de contexto, en la que debemos formular el documento informativo.
2. la segunda fase, la de trabajo con los datos, que a su vez es la más compleja y supone todo
el proceso de obtención, preparación, análisis y visualización
3. la fase en la que establecemos los criterios editoriales o de comunicación
4. Por ultimo, la fase en la que realizamos la visualización, la representación de los datos y
para la que debemos tener en cuenta los tres criterios antes mencionados.
De esta forma, cuando hablamos de las oportunidades de la visualización de los datos, se
suele presentar una escala en la que avanzamos, desde los Datos (su recopilación, la creación
de datos nuevos, etc), a la información (momento en el que los datos adquieren significado y
suponen una Fuente de información, para lo cual se requiere de una organización y
presentación de los mismos), la fase del conocimiento, en la que los datos aportan un valor
mayor del meramente informative y nos permiten conocer mejor una determinada situación y
la fase útima, en la que se adquiere la denominada “sabiduría” mediante la experiencia, la
contemplación de los datos, la evaluación y su interpretación y retrospección.
Para Munzner, (2015) las visualizaciones permiten a las personas analizar datos cuando no
saben exactamente que preguntas hacer a priori. Estas oportunidades de descubrimiento
mediante la visualización nos permiten descubir información que de otro modo no podríamos
ver, la forma en la que representamos los datos y se estructuran las visualizaciones, son clave
para ello.
En este sentido, las visualizaciones nos permiten superar nuestra capacidad de memorizar y
de conocer. La vista es, para nosotros el sentido más desarrollado, por lo que nos provee de
un canal con un gran ancho de banda. Mucha de la información visual, la procesamos en
paralelo, a un nivel preconsciente.
El cerebro humano, está “entrenado” para detectar patrones visuales, por lo que las
visualizaciones, son una de las mejores herramientas para ofrecernos información. Una buena
aproximación a esta idea de adecuar las visualizaciones a la forma en que nuestro cerebro
comprende lo que le rodea, la encontramos en el Paper “A Mental Models Perspective on
Designing Information Visualizations for Political Communication”.
De los investigadores Gunther Schreder, Florian Windhager, Michael Smuc y Eva Mayr. Del
departamento para la gestión del conocimiento y la comunicación de la Danube University
Krems, en Austria. En este paper, encontramos una aproximación a la necesaria reflexion
sobre el considerar la forma en que las personas adquieren y organizan sus representaciones
internas mediante las InfoVis Interfaces. En este interesante artículo, hacen un debate acerca
de cómo la teoría de los modelos mentales y sus consecuencias en el diseño y desarrollo de
inferfaces de InfoVis (Information visualizations), especialmente en relación a datos
multidimensionales, para los que es un desafío el diseño accesible y conceptualmente
consistente de este tipo de visualizaciones. Proponen una serie de ejemplos sobre la forma en
la que se pueden organizar algunas características de diseño de este tipo de infovis.
Un ejemplo de ello, puede ser la forma en que se presentaron los datos del proceso de
rendición de cuentas participativo de la Diputación Foral de Bizkaia, en el que, gracias a una
adecuada gestión del dato desde el inicio del proceso, se pudieron estructurar diferentes tipos
de infovis, tanto en la fase de participación/rendición de cuentas, como en la fase de
presentación de resultados. En este caso, además de los criterios de simplicidad,
accesibilidad, modularidad de la información presentada, etc. que hemos mencionado
anteriormente, se planteó un esquema de narración del proceso, teniendo en cuenta todas las
fases, desde la convocatoria hasta la evaluación, con cuadros de mando y visualizaciones de
datos muy variados en cada parte de la visualización. Esta forma de trabajar las
visualizaciones de materializó en una mejora de las evaluaciones en relación a la calidad y la
cantidad de información ofrecida en los encuentros, ya que en los tres primeros de los 10
realizados, se utilizó una presentación y materiales tradicionales, mientras que para los
sucesivos encuentros, se presentaron los datos mediante infografías creadas con una
herramienta de análisis y visualización de datos que además, sirivió, al finalizar la ronda de
encuentros para hacer un análisis más detallado de los resultados del conjunto de encuentros
participativos, desde la convocatoria, los perfiles de participantes por comarca, las
valoraciones a cada parte de la metodología y a la evaluación de los propios encuentros.
En cualquier caso, estas visualizaciones son un buen complemento de otras técnicas y
herramientas para el análisis y la comunicación. No debemos por tanto centrarnos únicamente
en ellas, ni descartar herramientas de análisis y de comunicación tradicionales que funcionan
de modo muy efectivo.
DIKW Pyramid (Wikipedia)
Shedroff, 1994. “Information Interaction Design: A Unified Field Theory of Design”
Algunas claves para facilitar la interpretación de los datos por parte agentes externos a
la administración.
- Permitir el modificar las configuraciones por defecto. Hablamos de interactividad,
pero también de cierto margen de análisis y búsqueda. En este sentido, hay
herramientas de visualización que permiten no solo visualizar, sino también cierto
margen de modificiación y “juego” con lo que vemos en pantalla.
- Simplificar las gráficas. Los gráficos muy complejos, con demasiada información,
con demasiados colores, etc. no ayudan a facilitar una buena interpretación. No
podemos dejarnos llevar por tratar de meter mucha información en una visualización
si esto acaba redundando en una mayor dificultad de intepretar, es mejor poco y claro
que mucho y confuso.
- Destacar algunas observaciones clave. Además de simplificar las gráficas y las
visualizaciones, podemos optar por destacar algunos datos u observaciones que
consideremos clave en relación a lo que queremos contar. Esto tiene la pega de que de
alguna manera “guía” hacia la observación que hemos decidido destacar, pero
también permite una mayor comprensión. Es necesario buscar el equilibrio.
- Añadir variables que aporten contexto. En ocasiones, pecamos de dar por supuesto
ciertas cuestiones que ya conocemos. Si nos lanzamos a visualizar datos que
especifican o se centran en una determinada realidad, pero obviamos el contexto,
podemos estar generando confusion. Por ejemplo, si ofrecemos visualizaciones de
datos sobre servicios sociales o residenciales sobre un mapa, y obviamos los datos de
contexto, como por ejemplo el número de personas usuarias en esos entornos, estamos
generando cierta confusion, o al menos generando la duda de si la información que
ofrecemos se ajusta a un contexto determinado.
- Añadir información estadística. Datos estadísiticos, sociodemográficos, etc. son
fuentes de información fácilente accesibles y que pueden aportar valor a nuestras
visualizaciones. Permiten dar contexto.
Todo ello mediante la interactividad (permitiéndo al usuario/a adaptar la visualización a sus
necesidades). Además la combinación de diferentes tipos de gráficas ayuda a la compression
de grandes volúmenes de datos diversos. Para ello, podemos utilizar cuadros de mando
(cuando hablamos de aplicaciones de visualización), infografías, etc.
Además, cuando hablamos de visualizaciones para la comunicación política, es importante
considerar alguna cuestiones como lo que
Factores de creación de valor en el trabajo con datos.
Cuando hablamos del trabajo en el campo del análisis y la visualización de datos, debemos
tener en cuenta que todo ello ha de tener un objetivo. Además de los elementos
comunicativos que hemos mencionado anteriormente, los proyectos de análisis de datos han
de ofrecer la oportunidad de generar valor, en este caso en el ámbito de la gestión. Nos deben
permitir gestionar mejor, tomar mejores decisiones, planificar y hacer un mejor seguimiento,
una asignación de recursos más ajustada a la realidad, etc.
Si nos ceñimos al sector público, son multiples los ámbitos en lso que podemos encontrar
oportunidades de valor. Desde el ámbito fiscal (predicciones de recaudación, afloramiento de
fraude..) al transporte público y las carreteras (prevenir necesidades), al ámbito social
(reordenar y planificar la oferta de servicios sociales), al ámbito de la promoción económica
(identificando tendencias y ámbitos de future y alineándolos con las políticas de promoción).
Podemos mencionar algunas de las fuentes de creación de valor más relevantes y su impacto.
1. Mayor profundidad de los datos de interacciones: Peticiones, quejas, actos
administrativos, etc.
La mayoría de las administraciones, cuentan con sistemas de recogida de imputs de la
ciudadanía. Desde los buzones de sugerencias, los puntos de registro, incluso los espacios de
participación ciudadana de base tecnológica como las webs y aplicaciones.
Todo este conjunto de fuentes de datos, son una importante Fuente de información, nos
aportan, tanto información clave sobre cuestiones que afectan o preocupan a la ciudadanía,
que como administraciones se han de estudiar y responder adecuadamente.
Pero también, nos dan la oportunidad de trabajar de manera agregada y debidamente
estructurada esta ingente cantidad de información. Sin olvidarnos de los límites que establece
la ley de protección de datos, tenemos la oportunidad de entrar en un Proyecto ambicioso de
estructuración de la recogida de información, que nos permitiría, a posteriori, trabajar en
proyectos de analítica avanzada (o incluso Big Data). Por poner solo unos ejemplos del valor
que podemos obtener:
- Nos permitiría una visión agregada del tipo de interacciones. De este modo, podemos
saber mejor qué tipo de cuestiones concretas o temas (agrupando los imputs) nos
están entrando desde diferentes fuentes.
- Saber si las mismas personas están interactuando desde diferentes canales para
hacernos llegar una petición. Importante para saber si estamos respondiendo o no, y si
las respuestas que estamos dando por diferentes canales son coherentes.
- Microsegmentar, poder hacer análisis que nos permitan descubrir patrones de
interacciones en función de la zona, del género..
- Predecir, en base a un análisis histórico de las interacciones, el tipo de interacción e
incluso los temas que pueden entrar por los diferentes canales, lo que nos permitiría
avanzar en la información que debemos preparar, mejorando la calidad de la
información ofrecida, y el tiempo de respuesta.
Estos tres son solo unos pocos ejemplos de las oportunidades que nos dá el trabajo con los
datos en el campo de las interacciones, pero lo que es seguro, es que la experiencia de las
personas que interactúan puede mejorar sensiblemente si somos capaces de estructurar bien la
manera en la que recogemos la información y nos relacionamos.
2. Trabajo con datos no estructurados:
Tanto a nivel interno (mails, formularios, etc) como externos: redes sociales, noticias,
geolocalizacion, etc.
Este tipo de datos, son los que menos se tratan por parte de las administraciones, pero
también por empresas o agentes sociales, prensa, etc. Se trata de información de gran valor
por su aporte cualitativo, pero que resulta más dificil de trabajar, ya que se trata de conjuntos
de datos no estructurados, para los que el trabajo de ETL (extracción, tratamiento y carga) es
más complejo.
Si bien la complejidad es mayor que a la hora de trabajar con datos, nos puede dar una
información de gran valor que no estamos acostumbrados a tratar de un modo estructurado y
agregado.
3. Velocidad: acceso a los datos en tiempo real o baja latencia.
El poder acceder a los datos de manera rápida, es una de las grandes ventajas del trabajo con
datos. Si tenemos bien estructurada la recogida y el análisis de la información, podremos
acceder a los mismos de manera inmediata, de modo el único límite será el tiempo de
actualización de los datos a los que accedemos, que por lo general, en las administraciones no
son nunca en tiempo real (salvo algunos casos en los que se trabaja con los datos de tráfico o
meteorológicos).
La ventaja de todo ello? Que cuando queremos saber algo relacionado con los datos con los
que estamos trabajando, no necesitamos abrir un proceso de consulta manual que va a llevar
tiempo. Podemos accede a la información ya preparada y montada sobre herramientas de
visualización, cuadros de mando, etc.
Datos de seguimiento de ejecución presupuestaria, de cumplimiento de compromisos de
mandato, de planes sectoriales o de mandato, datos relacionados con cuestiones que afectan a
políticas públicas de las que somos responsables, como por ejemplo el número de menores
que soliciten acceso a becas, o a plazas de colonias de verano, de personas mayores que
puedan ser usuarias de servicios sociales, etc.
4. Analítica predictiva: análisis de causalidad, predicciones.
Un tipo de análisis que puede resultar clave es la analítica predictiva, que nos permita avanzar
situaciones, eventos, etc. para lo que nos debamos preparar.
En qué cuestiones puede ser interesante? Por poner unos ejemplos, los datos de tráfico son
una Fuente valiosa sobre la que hacer análisis predictivos, tanto de afluencias, como incluso
de predicción de accidentes para ponder implementar medidas que eviten o reduzcan el
impacto. Pero también en el campo de la educación (nuevas necesidades de formación, la
connexion entre la formación y la empresa en base a datos, la incorporación de datos
demográficos o socio-demográficos al proceso de toma de decisiones en el campo de la
educación..), de la economía (predicción del fraude, análisis de tendencias y predicción para
implementar políticas de promoción económica más ajustadas a las necesidades futuras del
Mercado, etc).
5. Analítica descriptiva: estadísticios descriptivos, clusterizaciones, etc.
Siendo la analítica predictiva uno de los campos clave y con un gran potecial, también es
posible que sea uno de los más sobrevalorados. El “halo” de magia que envuelve a la
analítica predictiva hace que a veces se ponga poco interés y se dé poco valor al análisis
descriptiivo. Y es posiblemente aquí, donde las administraciones tengan un mayor espacio de
crecimiento y “descubrimiento” (al menos a corto plazo y teniendo en cuenta el estado de
madurez del trabajo con datos por parte de las administraciones).
En muchas ocasiones nos obsesionamos con conocer lo que va a ocurrir en el futuro sin antes
conocer bien la realidad que tenemos entre manos en este momento. En este sentido, además,
no sufrimos la dependencia de series históricas de datos que requiere un análisis predictivo,
que en muchos casos, y por falta de esa “cultura del dato” en las administraciones, o tenemos
acceso, o el trabajo para incorporar las series históricas de datos al análisis supone un
esfuerzo enorme en tiempo y recursos.
Por ello, antes de lanzarnos a proyectos de analítica predictiva, que pueden ser claves en
algunos casos, deberíamos plantearnos la posibilidad de trabajar en el análisis descriptivo.
Los estadísticos descriptivos, los clusters, los análisis factoriales, etc. son análisis
estadísiticos que nos pueden ayudar mucho a conocer mejor la realidad, y por supuesto, tomar
decisiones acorde a ello.
Cuando tomamos la decision de sacar una nueva línea de ayudas ya sea en el campo de la
cultura, o de la economía, ¿cuántas veces se hace un análisis completo de los datos
relacionados con esta decision?. En muchos casos se basa en la “intuición” en el “yo llevo 20
años haciendo esto y sé lo que hace falta”.. o en el mejor de los casos, en decisiones apoyadas
en espacios de consulta con unos pocos agentes del sector en cuestión, que pueden ser
representativos de un tipo de perfil, pero que evidentemente no representan (estadísticamente)
la realidad sobre la que vamos a actuar.
No hablamos aquí de encuestas, o al menos no únicamente, ya que el análisis de datos va
mucho más allá y nos permite apoyar las decisiones en fuentes muy diversas, reforzando así
la calidad de los datos sobre los que nos basamos y aportando no solo en valor cuatitativo,
sino el cualitativo. Se trata de combinar fuentes diversas para tomar mejores decisiones.
Todo esto, nos permite un mayor impacto en:
1. Granularidad de los datos a la hora de tomar decisiones. De los datos agregados y la
segmentación, a la micro-segmentación. Poder tener un “microscopio” de mayor alcance nos
va a permitir ser más precisos a la hora de tomar decisiones, pero también utilizar los datos
para más análisis, poder comparar más fuentes de datos y con mayor detalle. Por poner un
símil, con unas piezas de LEGO, podemos hacer figuras más precisas y más variadas de lo
que podríamos hacer con piezas de tamaño mucho mayor, como las que se utilizan para
bebés. Si los datos fuesen piezas, cuanta mayor granularidad del dato, piezas más pequeñas, y
por lo tanto una mayor precision y libertad para trabajar con ellas.
2. Mayor precision en la toma de decisiones. Aquí no solo hablamos de la granularidad.
Evidentemente, el simple hecho de contar con datos estructurados y preparados para el
análisis, con herramientas de analítica y visualización, ya supone una ventaja competitiva
respecto de quien sigue tomando decisiones sin esto.
3. Mayor rapidez en la toma de decisiones. Un acceso más rápido a datos más completos y
mejor estructurados permite reducir el tiempo de reflexion y análisis previo a la toma de
decisiones. Cuanto mejor estructurados tengamos los datos y el proceso de analítica, más
rápido será la toma de decisiones basadas en datos.
4. Orientar las decisiones a acciones concretas (predecir, optimizar, recomendar..). Volvemos
al asunto de la precision. En este caso, está claro que contar con una mejor información y un
mayor volumen de datos, nos va a ayudar a tomar decisiones más orientadas a acciones
concretas, porque conoceremos mejor la realidad sobre la que vamos a actuar y las
necesidades que debemos cubrir.
Hablando de Gobierno Abierto, ¿qué oportunidades nos dan los datos?
Una gestión adecuada de los datos es ya un potencial avance para un gobierno que aspira a
mayores cotas de apertura. Hemos mencionado ya las posiblidades que nos ofrece desde el
punto de vista de la gestión, de la decision, de la comunicación, etc. Por lo tanto, más allá de
la apertura de datos, que resulta una iniciativa loable y clave para el gobierno abierto, es lo
que podemos hacer con esos datos a nivel interno lo que aporta un mayor potencial de
crecimiento y de mejora en el ámbito del gobierno abierto, porque nos permitiría ser más
eficientes en la gestión de los recursos, en nuestras relaciones (interacciones) con la
ciudadanía, más transparentes en tanto que podemos ofrecer más información y de base más
sólida, y mas “accountables” por cuanto nos puede permitir una mayor (sobre más fuentes de
datos) y más rigurosa rendición de cuentas pública.
Una aproximación a su aplicación en el ámbito de la participación ciudadana.
La participación ciudadana es uno de los elementos del Gobierno Abierto con más historia,
como mayor recorrido e implantación en las diferentes administraciones públicas de todo el
Estado. Quienes llevamos años trabajando en este campo, o al menos la mayoría de nosotros,
nunca nos hemos planteado las posiblidades que nos ofrecen los datos, desde la perspectiva
del análisis y la visualización, para mejorar los procesos y los espacios de participación
ciudadana.
Cuando hablamos de participación, siempre consideramos clave la información, ya que una
buena información es la base sólida sobre la que podemos construir procesos participativos.
Además, reconocemos que es necesario adecuar la información que se dá en los procesos a
los diferentes perfiles de participantes, tanto en su contenido como en su complejidad y en los
canales a través de los que la ofrecemos. En cualquier caso, y como hemos visto
anteriormente, el poder trabajar desde las administraciones con datos preparados (limpios,
normalizados, bien estructurados, etc) nos puede ayudar a ofrecer mas y mejor información,
reduce el esfuerzo que requiere preparar un proceso de participación a la hora de preparar la
información que vamos a utilizar para el mismo y nos facilita la posibilidad de crear
visualizaciones que hagan más sencilla la interpretación de los datos y de la información en
temas que pueden ser complejos, como son los presupuestos, el urbanismo, el debate sobre
normativas, etc. Y como hemos visto, las opciones que nos da la visualización van desde
aplicaciones interactivas de visualización hasta la elaboración de infografías y paneles de
fácil lectura e interpretación. En este sentido, hay ya algunos ejemplos, principalmente en el
ámbito de los prespuestos con visualizadores web, que suponen avances significativos.
En las fases de deliberación y cierre, también podemos apoyarnos en los datos para obtener
procesos más eficientes y abiertos. No solo mediante la información, que ya hemos
mencionado, sino también a través de la analítica, es decir, apoyando el proceso en su
desarrollo de nuevos análisis que surgan como necesidad del propio debate y que a su vez,
contribuyan a una deliberación más profunda y sólida.
Por ultimo, y no por ello menos importante, para hacer una sistematización adecuada de todo
el proceso, haciendo un repositorio de información, de datos de todo lo relacionado con el
mismo de un modo que resulte más fácil de consultar tanto para quienes han participado,
como para la propia administración. El ejemplo es claro, ¿cuantas administraciones han
puesto en marcha procesos de participación en la última década? Seguramente la gran
mayoría, pero es posible que muy pocos o ninguna de ellas, tenga estructurada toda la
información de estos procesos, cuando hablamos de estruturada, queremos decir preparada
para hacer análisis posteriores o cruzados con otros procesos o fuentes de información. La
gran mayoría, en el mejor de los casos, contará con memorias en word o pdf de conclusiones,
actas, etc. Mucha información que posiblemente no se vuelva a consultar, porque volver a
ella supone releer decenas y decenas de páginas. Y tratar de cruzar toda esta información con
la de otros procesos o “interacciones” puede resultar ya una tarea eróica. El paso por tanto es
clave aquí, poder utilizar los datos y sobre todo reutilizar el valor que se genera en un proceso
de este tipo, sistematizando los datos y preparándolos para poder hacer analíticas
complementarias es un reto y también una gran oportunidad.
Por mencionar otro ámbito clave para el gobierno abierto, la rendición de cuentas o
“accountability” es otro de los principales beneficiados de una adecuada gestión del dato
dentro de las administraciones.
Comenzando por la gestión del dato en la elaboración y seguimiento de los planes de gestión
o de gobierno sobre los que podemos rendir cuentas hasta gestión de información y datos de
“contexto” que como hemos visto pueden y deben aportar contexto a la información que
damos para ayudar a comprender mejor las decisiones que se toman, ya que no únicamente
debemos dar cuenta de lo que hacemos sino de por qué lo hacemos, y aquí la información de
contexto y estadística puede jugar un papel clave.
Además, cada vez más instituciones, como la Diputación Foral de Bizkaia, basan sus
procesos de rendición de cuentas en espacios de participación, de encuentro “cara a cara”, en
los que quienes toman las decisiones, son quienes dan la cara y rinden cuentas de ello. En
estos casos, podemos también considerar todas las ventajas que hemos mencionado en los
espacios de participación ciudadana, ya que estos espacios, son esencialmente, espacios
participativos.
DESAFÍOS Y RETOS
¿Nos controlan las máquinas?
La respuesta no es clara. Evidentemente, la inteligencia artificial, el conocido como machine
learning, realiza análisis de datos y “aprende”, toma decisiones o más bien, recomienda. En la
medida en que esos algoritmos mejoren, gracias al trabajo y a la corrección humana, darán
resultados mejores, más afinados, y más fiables. La duda es si en algún momento, seremos
capaces de introducir en una máquina la variabilidad necesaria para conocer y predecir de un
modo preciso, el hasta ahora impredecible comportamiento humano, el libre albedrío.
De momento, parece altamente improbable. Además, como sabemos, los algoritmos de
inteligencia artificial, están ofreciendo algunos resultados no solamente erroneos, sino
además profundamente injustos. Por poner un ejemplo, cuando se nos incluye, en esta
microsegmentación, dentro de un colectivo de potenciales morosos, o de alto riesgo para una
aseguradora, se está haciendo en base a patrones de datos que se obtienen de nuestro perfil en
redes sociales, sociodemográfico, etc. Pero esto no quiere decir que formemos parte de ese
grupo, solo que, según el algoritmo, tenemos altas probabildades de pertenecer a él, lo cual
supone una discriminación a priori que cuado menos debería provocarnos dudas éticas.
En el Mercado libre, en la empresa privada, siguiendo el caso de las aseguradoras, es algo
que ya está sucediendo, y es posible que sin ser una persona que efectivamente cumpla estos
criterios de “baja rentabilidad”, estemos dentro de uno de estos grupos y nos esté costando
que nos ofrezcan un seguro, o estemos pagando un precio muy elevado por él. Si llevamos
este ejemplo a la administración pública, a nadie se le pasa por la cabeza que, fruto de un
análisis predictivo de fraude fiscal, a nadie se le trate como un defraudador “a priori”.
Afortunadamente, en el sector público hay unas garantías de imparcialidad y de protección de
datos personales que nos protegen frente a los abusos que si podemos sufrir en el ambito
privado.
En cualquier caso, actualmente vivimos en un entorno altamente digitalizado en el que las
fuentes de obtención de datos de cada uno de nosotros son cada vez mayores. Si bien el
primer paso de cierta relevancia fue en 2009 cuando Google comenzó a implementar un
algoritmo que adecuaba las búsquedas y lo que vemos en internet a nuestro perfil y nuestras
preferencias, esto se está generalizando a otros espacios como son las redes sociales,
reduciéndo drásticamente nuestro universo de relaciones e información, y en cierto modo,
condicionando altamente qué vemos y qué no, lo cual supone un alto riesgo de ser
manipulados o al menos influídos ya que a pesar de que podamos percibir que estamos ante
un universo de información en el que podemos elegir qué consultar, qué leer, etc. cada día
estamos más limitados por esos márgenes invisibles que se nos imponen a través de la web y
las redes sociales principalmente, sin además ser plenamente conscientes de ello.
Además, la proliferación de wearables y demás aparatos conectados, son en cierto modo una
comodidad y un avance tecnológico, pero también son tuberías que tienen doble entrada, por
un lado nos dan un servicio, pero por otro, ofrecen cantidades ingentes de información acerca
de nosotros mismos, nuestros hábitos deportivos, lo que consumimos, con quién nos
relacionamos, etc. y esto, es también un riesgo para la privacidad y para la libertad de las
personas.
Esto nos pone ante una cuestión que puede ser clave en el future inmediato, y es el papel que
deben asumir las admistraciones ante esta nueva realidad. La cuestión de una adecuada
legislación, no únicamente en lo referido al tratamiento de datos personales, sino también al
uso potencialmente discriminatorio que se puede llegar a hacer mediante el análisis de datos o
el big data.
En cualquier caso, ya hemos mencionado que hasta el momento, cualquier acción que
proviene del big data, de la inteligencia artificial, requiere de una mano y un cerebro
humanos que decidan, que tomen la iniciativa, por lo tanto este temor a ser controlados por
las máquinas, es en cierto modo infundado. El riesgo está más bien en el uso de las máquinas
que pueden hacer otros humanos para controlarnos, guiarnos, manipularnos, etc.
¿Podemos o debemos tomar decisiones exclusivamente basadas en datos?
Cuando hablamos de datos, reconocemos que siempre es necesario el componente humano,
que pone el objetivo del análisis que guía y pone en marcha la máquina con unos objetivos
concretos. Al margen de que esta ofrezca resultados a un análisis exploratorio o predictivo
del que no sabemos qué va a salir. Es decir, la “máquina” puede descubrir por nosotoros, pero
la iniciativa, es algo que aun queda en manos de las personas.
Recientemente el escándalo de Cambridge Analytica nos muestra cómo a través de análisis
de datos, de la microsegmentación y la inteligencia artificial, se puede llegar a hacer un uso
poco honesto de los datos y de las oportunidades que nos dá la tecnólogía y la analítica.
En cualquier caso, y dejando a un lado los temores al control social que sufrimos, hay otro
elemento muy importante que debemos considerar a la hora de trabar con datos. En este caso,
es muy arriesgado dejarse guiar únicamente por los datos, es decir, no solo la IA no puede
tomar decisiones por nosotros, sino que, nosotros mismos, no debemos tomar decisiones
únicamente porque “nos lo dicen los datos”.
En el argot del Big Data, se habla de la figura de la persona “experta de negocio”. Qué es esta
figura? Pues esencialmente una persona que puede saber de datos, de analítica y de big data,
pero que sobre todo debe conocer bien el “negocio” o el ámbito en el que se va a desarrollar
este Proyecto de datos. De lo contrario, los resultados de nuestros análisis nos pueden llevar a
decisiones erroneas que pueden resultar fatales para nuestra organización.
No podemos descartar errores en el análisis, un conjunto de datos no lo bastante completo, el
que ignoremos variables clave en nuestro análsis, bien porque no las hemos podido idenficar,
encontrar, codificar… o simplemente porque no sabemos que están ahi, porque
desconocemos lo que no concemos y esto, puede limitar la calidad de unos resultados que
pueden parecer robustos desde el punto de vista analítico y estadístico, pero que adolecen de
falta de “ojo humano” que es quien a fin de cuentas, y con el conocimiento que tiene y que
pueda adquirir a través del análisis y de la observación de los datos, debe tomar la decision,
matizarla, llevarla a cabo, o desecharla por diferentes motivos (por ejemplo por criterios
politicos o éticos).
Conclusiones.
Este paper ha tratado de hacer una aproximación a este nuevo fenómeno del dato. La “era del
dato” “el nuevo petróleo”, etc son frases que estamos oyendo con frecuencia los últimos
tiempos. Al margen discursos grandilocuentes o alarmistas, tenemos ante nosotros, como
instituciones retos importantes que afrontar.
Por un lado, la necesidad de adecuar la institución a esta “era del dato”, tanto los procesos de
trabajo, la cultura de la organización (que debe acostumbrarse a un mayor control de la
gestión realizada en base a la evaluación y la analítica de datos y menos a la intuición o a la
gestión por inercia), a la creación o readecuación de los perfiles profesionales que permitan
este cambio, a explorar las oportunidades que nos ofrecen los datos para ser más abiertos y
más eficientes, etc.
Pero también, y en lo relativo al “extramuros” de las instituciones, a los riesgos que supone
para la libertad y para la igualdad de las personas esta inmensa cantidad de datos de cada uno
de nosotros que están ya en manos de corporaciones o intereses que no siempre respetan las
reglas de juego que si respetan las instituciones. En este sentido, una demanda clara para que
quienes tienen la capacidad regulatoria reflexionen sobre todo ello y traten de poner unas
reglas de uso de los datos que respeten los principios de igualdad y de libertad y, por otra
parte, a todo lo relative a la apertura y reutilización de los datos, campo en el que se ha
avanzado mucho los últimos años, pero que aun tiene un largo camino por recorrer, y en el
que todo lo relativo a mejorar las posibilidades de acceso, reutilización y comprensión de los
datos, pasan por explorar nuevas formas de presentación de los mismos que vayan más allá
de la publicación de datasets, incorporando visualizaciones que acerquen esta iniciativa a
aquellas personas que pudieran tener interés, pero carecen de ese perfil de “reutilizador” o
periodista que hasta ahora copa el consumo de estos datos para abrirlo al conjunto de la
ciudadanía, lo cual redundará en una mayor percepción de transparencia y ayudará a una más
efectiva rendición de cuentas.