Articulo Big Data 0.0

15
 Introducción Lejos de toda duda, vivimos en la era de la información. Se estima 1  que en el año 2012 la capacidad instalada de almacenamiento de información en el mundo alcanzará los 2´5 zetabytes 2 . El incremento de la capa cidad instalada de almacenamiento crecerá en un 50% anual, lo que llevaría a alcanzar los 100 zetabytes en 2020. El almacenamiento de la información en formato electrónico, además, está comenzando a canibalizar la almacenada en formato papel, que lleva ya más de una década decreciendo. 1  Ver “The Big Data opportuni ty”, Policicy Exchange, 2012 2  Un zetabyte es equivalente a un trillón de gigabytes

description

Big Data general article.

Transcript of Articulo Big Data 0.0

  • Introduccin

    Lejos de toda duda, vivimos en la era de la informacin. Se estima1

    que

    en el ao 2012 la capacidad instalada de almacenamiento de

    informacin en el mundo alcanzar los 25 zetabytes2

    . El incremento de

    la capacidad instalada de almacenamiento crecer en un 50% anual, lo

    que llevara a alcanzar los 100 zetabytes en 2020. El almacenamiento de

    la informacin en formato electrnico, adems, est comenzando a

    canibalizar la almacenada en formato papel, que lleva ya ms de una

    dcada decreciendo.

    1 Ver The Big Data opportunity, Policicy Exchange, 2012 2 Un zetabyte es equivalente a un trilln de gigabytes

  • Este crecimiento exponencial del volumen de informacin electrnico

    almacenado en el mundo amenaza nuestra capacidad de procesar la

    misma. Las bases de datos tradicionales y el procesamiento centralizado

    de la informacin se muestran como tcnicas insuficientes para a hacer

    cara a este fenmeno, que ha dado lugar al concepto de Big Data,

    conjuntos de datos demasiado grandes para su tratamiento con

    herramientas tradicionales de gestin de base de datos3

    .

    El reto de hacer frente a un tratamiento efectivo de esta ingente

    cantidad de informacin que permita extraer todo el valor de la misma,

    afecta a todas las organizaciones, incluidas las Administraciones

    Pblicas. Este artculo es una primera aproximacin a los retos y

    oportunidades a los que nos enfrentamos.

    Acotando el concepto de Big Data

    Siempre es difcil identificar como surgen los conceptos y paradigmas

    en un entorno rpidamente cambiante como el de las Tecnologas de la

    Informacin. Big Data no supone una excepcin a esta regla, siendo

    difcil identificar si surge como consecuencia o acompaante de otros

    conceptos como el Open Data. Sin embargo, la popularizacin del

    trmino viene, indudablemente, ligada al documento seminal del

    concepto publicado por McKinsey Global Insitute (MGI) en Junio de

    20114

    , donde se define como conjuntos de datos cuyo tamao va ms

    all de la capacidad de captura, almacenado, gestin y anlisis de las

    herramientas de base de datos.

    La definicin de Big Data facilitada por el MGI tiene una orientacin

    claramente tecnolgica, que se refleja insuficiente en organizaciones

    3 Definicin de Big Data facilitada en The Big Data opportunity, Policicy Exchange, 2012 4 Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute, 2011

  • que buscan la aplicacin de la tecnologa para un objetivo concreto. De

    igual modo, adolece de una caracterizacin clara del problema al que

    nos enfrentamos en trminos diferenciadores respecto a la situacin

    previa.

    Desde la presentacin del trmino por el MGI han existido diversos

    intentos de acotacin del concepto. Una de las aproximaciones ms

    completas, y que usaremos como punto base de este artculo es la

    facilitada por Gartner5

    .

    Big data son activos de informacin caracterizados por su alto

    volumen, velocidad y variedad, que demandan soluciones

    innovadoras y eficientes de procesado para la mejora del

    conocimiento y toma de decisiones en las organizaciones.

    Como puede apreciarse, en la definicin facilitada se realiza una

    caracterizacin de la informacin, los requerimientos tecnolgicos que

    presenta y los resultados que obtendremos de superarlos. Este artculo

    trata de desgranar los mismos.

    Realmente hablamos de un tipo distinto de informacin?

    La caracterizacin de la informacin que realiza Gartner, captura la

    principal diferencia de la informacin que nuestros sistemas han de ser

    capaces de procesar respecto a la que tradicionalmente se enfrentaban.

    Son, sin embargo, todos ellos conceptos relativos que permiten dar

    estabilidad a la definicin. Esta relativizacin es importante, ya que lo

    5 The importance of Big Data: A definition, Gartner, Junio 2012

  • que hoy consideramos un alto volumen, gran velocidad o elevada

    variedad de formatos, resultar trivial el da de maana cuando nuestros

    sistemas evolucionen de acuerdo a la Ley de Moore.

    El reto que presenta el Big Data no son, aun siendo importantes, tanto

    las tres Vs que popularmente le caracteriza (velocidad, volumen,

    variedad), sino la complejidad de tratar los mismos. Esta complejidad

    viene derivada de la multiplicidad

    de fuentes de informacin que

    inciden sobre cualquier

    organizacin y estn

    caracterizadas por estas 3 V. A las

    tradicionales fuentes internas, ya

    complejas de combinar en las

    grandes organizaciones, se suman

    las provenientes del exterior en

    forma de Redes Sociales, actuando

    como factor multiplicador las cada vez ms ubicuas tecnologas de

    movilidad. Es decir, el mayor problema no es tanto el tamao de los

    conjuntos de datos, sino la complejidad derivada de la variedad de

    fuentes.

    En definitiva, podemos identificar cuando saltamos de un entorno

    tradicional de manejo de la informacin a un entorno Big Data de

    observando los siguientes parmetros

    Volumen: Las capacidades de nuestros sistemas tradicionales de

    almacenamiento y procesamiento se ven sobrepasadas por la

    cantidad de datos a tratar

    Velocidad: Parte o toda la informacin la recibimos en tiempo real,

    sin poder identificar un patrn en el ritmo de recepcin de la

    misma

  • Variedad: No podemos establecer una tipologa o estructura de la

    informacin, cuyo formato y estructura desconocemos hasta el

    momento de su tratamiento

    Complejidad: Carencia de relacin aparente entre las fuentes de

    informacin sobre la que hemos de aplicar nuevas capacidades de

    anlisis, de naturaleza distribuida y proveniente de varios actores

    La diferenciacin expuesta queda resumida en la siguiente tabla.

    Datos tradicionales Big Data

    Gigabytes/Terabytes Volumen Petabytes/Exabytes

    Batch Velocidad Streaming

    Estructurada

    Modelo de datos

    estable

    Variabilidad Semiestructurada/desestructurada

    Carencia de Esquemas

    Centralizados

    Relacin conocida

    Complejidad Distribuidos

    Ausencia de relacin

    Es tambin importante resaltar que la informacin Big Data no queda

    eximida de que realicemos controles ms tradicionales antes de

    ofrecerla a los consumidores de la informacin. La calidad de la

    informacin, su caducidad, clasificacin y cumplimiento con las

    legislaciones diversas aplicables ha de ser mantenida dentro del entorno

    de velocidad, variedad, volumen y complejidad. Slo manteniendo estos

    controles en el nuevo entorno ser posible extraer todo el valor de la

    informacin para las reas de negocio.

    Mantener la calidad de la informacin resulta crtico en el entorno Big

    Data. Una mayor disponibilidad de informacin, tanto en cantidad como

    fuentes, no supone necesariamente una mayor utilidad, que slo es

    cierta si sabemos mantener el balance entre cantidad y utilidad de la

    informacin. En un smil con el mundo de la transmisin de la

  • informacin, podemos hablar de la necesidad de aumentar la seal sin

    que ello signifique el aumento del ruido.

    La velocidad que caracteriza al Big Data nos presenta tambin el reto de

    mantener el valor temporal de la informacin.

    Finalmente, las limitaciones de la legislacin son ms difciles de

    mantener en este entorno. De un lado, la necesidad de mantener las

    restricciones derivadas del mantenimiento de la privacidad. El temor a

    su quebranto ha llevado a algunos crticos a hablar de Big Brother en

    lugar de Big Data, apareciendo ciertamente nuevos dilemas ticos a raz

    del aumento de las capacidades de tratamiento de la informacin. La

    utilizacin para la prevencin del crimen o la aplicacin al mbito de la

    investigacin en la salud, hace aparecer nuevas consideraciones en lo

    referente a cundo la privacidad de los datos personales estn o no

    supeditados a su valor para la comunidad. De otro lado, la variedad de

    fuentes, y en muchos casos la ausencia de capacidad de control sobre el

    contenido de la informacin que nos facilitan, puede llevarnos en su

    tratamiento a rupturas no deseadas de las leyes de propiedad

    intelectual.

    El valor para el negocio

    La explotacin del valor del Big Data no resulta trivial. Esta dificultad, ha

    llevado a los analistas a concluir que durante el 2015 hasta el 85% de las

    organizaciones del ranking Fortune 500 no sern capaces de ello6

    .

    Como suele suceder ante nuevos paradigmas, ello se deber en gran

    medida en un desconocimiento relativo a cul es el valor que podemos

    extraer del mismo.

    6 From Data to Decision: Delivering value from Big Data, Gartner, Marzo 2012

  • La informacin slo es valiosa en la medida en la que sirva para mejorar

    el negocio. Ello, como ya se indic anteriormente, implica la necesidad

    de mantener la calidad en el entorno de disponibilidad de informacin

    extrema que supone el Big Data. La mejora del negocio ser tanto mayor

    en cuanto ms completa sea la informacin de la que disponemos,

    pudiendo en caso contrario completarla con ms informacin. De no ser

    as, no obtendremos la mejora de conocimiento que nos lleve a mejorar

    el proceso de toma de decisiones en la organizacin, siendo los

    recursos dedicados al Big Data carentes de valor.

    El resultado del tratamiento del Big Data es informacin de mayor valor

    aadido. Dicha informacin slo ser valiosa en la medida en que la

    organizacin confe en su correccin. Es por ello necesario presentar la

    misma sin ruptura en la cadena histrica de anlisis. El modelo de

    informacin resultante ha de mostrarse slido en la perspectiva

    histrica (hindsight), mostrndose vlido para entender el pasado; en la

    perspectiva presente (insight), siendo concluyente para comprender la

    situacin actual; proyectndose hacia el futuro (foresight), facilitando

    modelos predictivos crebles. En la medida que seamos capaces de

    mantener la continuidad entre las tres perspectivas, mantendremos la

    confianza y el valor para el negocio de los resultados de la aplicacin del

    paradigma Big Data.

    La aplicabilidad del anlisis realizado permite a las organizaciones

    obtener el valor del Big Data profundizando en los objetivos del

    tratamiento de la informacin:

    Mayor personalizacin: El aumento de la granularidad de la

    informacin permite desplazar el rea de conclusiones del nivel

    macro al nivel micro. Ello es importante, por ejemplo, en la

    prestacin de cualquier servicio final al cliente, ya que facilita una

    mayor personalizacin del mismo.

    Ampliacin de la capacidad de resolucin de problemas: El mayor

    volumen de datos junto con nuevos algoritmos permite descubrir

  • patrones hasta ahora ocultos en los datos. Nuevas correlaciones

    que facilitan la resolucin de problemas antes irresolubles por

    falta de capacidad.

    Aprendizaje: La combinacin de fuentes de informacin,

    especialmente las externas a las organizaciones, permite

    establecer nuevos indicadores de rendimiento de las

    organizaciones. El seguimiento de la evolucin de los mismos

    aporta ms informacin de cmo mejorar las capacidades.

    El valor para el negocio del Big Data depende en gran medida de las

    caractersticas del mismo. No obstante, existen reas transversales

    tradicionales de amplio espectro dnde son de aplicacin:

    Motores de recomendaciones basados en cantidades masivas de

    informacin de clientes, tales como los utilizados en redes

    sociales y profesionales o en los vendedores online

    Anlisis de sentimientos, a partir de los comentarios de un tema o

    marca realizados en redes sociales

    Modelizacin del riesgo, que permita el diseo de acciones

    basado en datos histricos de larga serie y minimizando as las

    posibilidades de fracaso

    Deteccin de fraude, a partir de anlisis ms profundo de

    transacciones y datos contextuales de las mismas y quien las

    realiza

    Marketing e influencia social, incorporando informacin de

    tendencias y preferencias de mayor granularidad de un conjunto

    mayor de potenciales clientes

    Optimizacin y seguridad de redes de telecomunicaciones,

    considerando los datos de una mayor cantidad de sondas dentro

    de las herramientas de anlisis de redes y deteccin de

    intrusiones

  • Todo el valor del Big Data depender, no obstante, de que sepamos

    hacer uso de las tecnologas adecuadas y, sobre todo, adquiramos para

    la organizacin las capacidades necesarias.

    Nuevas tecnologas y nuevas capacidades para un nuevo paradigma

    Las caractersticas especficas del Big data requiere innovaciones

    tecnolgicas en todos los mbitos del tratamiento de la informacin.

    Consecuentemente, nuevas herramientas en lo referente a la captura,

    almacenamiento, acceso, anlisis y gestin de los datos que manejamos.

    Las soluciones tecnolgicas para el procesamiento del Big data se

    orientan al tratamiento paralelo de la informacin. Sobre todas ellas,

    destaca Apache Hadoop, una

    solucin de software libre

    diseada para el tratamiento de

    hasta exabytes de datos distribuidos en mltiples nodos. Hadoop se ha

    convertido en un estndar de facto sobre el que se desarrollan

    herramientas comerciales por compaas tradicionales.

    La solucin Hadoop se basa en un desarrollo de Google del ao 2009

    denominado MapReduce, y que actua en dos fases. La primera fase,

    Map, introduce una query en en el sistema de nodos. Determinados en

    que nodos estn los datos relevantes, se les hace llegar la query, y la

    procesan en paralelo. En la fase Reduce, se recopilan las respuestas de

    cada nodo individual para componer la respuesta final a la pregunta

    inicial. Est respuesta es analizada con respuestas de anlisis

    especficas.

    El sistema de almacenamiento, dado el carcter no estructurado de la

    informacin se apoya en bases de datos no relacionales, denominadas

  • tambin bases de datos NoSQL. Estn orientadas a almacenar

    informacin dee diversa tipologa, y que no encaja con el modelo de

    tablas usado en las bases de datos relacionales. Adicionalmente, se

    caracterizan por su capacidad de escalado horizontal, lo que les

    convierte en elemento ideal para una infraestructura Big Data. Entre las

    implementaciones de software libre de bases de datos NoSQL

    existentes, es acompaante habitual de Apache Hadoop la base de

    datos Apache Cassandra.

    No obstante, los expertos consideran ms problemtico que la

    tecnologa necesaria para el despliegue de las soluciones Big Data la

    disponibilidad de las capacidades para explotarla. Ms all del

    conocimiento especfico de la tecnologa subyacente, siempre

    problemtico cuando se produce un cambio de paradigma, las

    organizaciones requieren de un nuevo perfil profesional: El analista o

    cientfico de datos. El profesional del anlisis de datos debera aunar

    tres caractersticas bsicas: Gestin de datos, modelado de anlisis y

    anlisis de negocio. Adicionalmente, dada la diversidad de fuentes de la

    que es necesario dotar a los proyectos Big Data para extraer

    plenamente su valor, el perfil adecuado de este profesional debe

    incorporar caractersticas propias

    de los entornos de trabajo open,

    tal como la comunicacin,

    creatividad, colaboracin y pasin.

    Es de prever inicialmente una

    extrema carencia de profesionales

    con el perfil adecuado para ser

    analista de datos. En su estudio

    seminal de la disciplina Big Data7

    ,

    McKinsey estimaba que, en USA,

    habra en el ao 2018 una carencia

    7 Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute, 2011

  • del 50%-60% de la demanda de analistas de datos que sera necesario

    cubrir. Este hueco entre oferta y demanda afectara tambin al nivel

    directivo. Las decisiones basadas en datos, aunque ampliamente

    valoradas hasta el punto que un 84% de los directivos reconocen haber

    tomado alguna8

    , requieren de un nuevo tipo de perfil de mando. La

    formacin a futuros directivos para evitar el cuestionamiento del trabajo

    de los analistas de datos resulta crtica. Dada la automatizacin de

    decisiones tcticas o estratgicas de bajo alcance que puede derivarse y

    que vean los mismos como una amenaza a su posicin.

    Big Data y Administracin Pblica

    Las Administraciones Pblicas son unas de las reas de negocio donde

    se estima que el concepto Big Data tendr mayor aplicabilidad. Tres

    razones existen para ello. De un lado, las Administraciones Pblicas es

    uno de los sector de negocio que ms gasta en infraestructuras de

    almacenamiento a nivel mundial. Es ms, se espera que la tendencia

    contine, de tal modo que en el ao 2016 las Administraciones Pblicas

    sean un 20% de los 43,7 billones9

    de dlares de volumen de negocio que

    ser para entonces este mercado.

    De otro lado, las Administraciones Pblicas son, probablemente, el

    sector de negocio con mayor volumen de Dark Data. Este tipo de datos

    agrupa a aquellos generados en el desempeo de la actividad habitual

    de negocio, que si bien no se analizan o procesan, son almacenados por

    cuestiones regulatorias o por prevencin.

    8 Global survey: Is Big Data producing big returns?, Avanade, Junio 2012 9 En todo el artculo, se toma como equivalencia al billn la interpretacin anglosajona de 1.000 millones

  • Finalmente, existen amplias sinergias entre el concepto de Big Data y

    polticas pblicas ya impulsadas en un gran nmero de

    Administraciones. Tanto el impulso de la reutilizacin de la informacin

    del sector pblico como cmo la promocin del gobierno abierto son

    dos tendencias con puntos de contacto con el Big data.

    Ejemplos potenciales de aplicacin del concepto de los grandes datos en

    las Administraciones Pblicas podran ser los tres siguientes:

    Gestin del rendimiento en tiempo real, facilitando a los gestores

    polticos datos mltiples de acciones automatizadas y no

    automatizadas que suceden en la Administracin Pblica. Un

    ejemplo podra ser el desarrollo de una campaa concreta de

    recepcin de escritos ciudadanos por diversos medios, como

    puede ser la anual campaa del IRPF

    Lucha contra el fraude fiscal, combinado los datos de

    declaraciones de impuestos con datos administrativos de otra

    ndole (por ejemplo, pensiones o empleo) o provenientes del

    mundo privado (por ejemplo, informacin capturada en webs de

    ventas de activos inmobiliarios)

    Salud, realizando un anlisis conjunto de historiales mdicos

    anonimizados a fin de identificar tendencias y patrones en

    enfermedades y epidemias

    Personalizacin de servicios, realizando a los ciudadanos una

    oferta proactiva de la Administracin Electrnica a partir de los

    datos disponibles, aunque esto requerira para su plena

    explotacin algn tipo de reforma en el marco legal de proteccin

    de datos personales

    El estudio seminal de McKinsey mencionado varias veces a lo largo de

    este artculo, eran identificados tres grandes reas de impacto

    econmico para las Administraciones Pblicas derivados de la aplicacin

    del concepto Big Data. Estas reas son los ahorros derivados de una

  • mayor eficiencia, las reducciones en fraudes y errores, y las mejoras en

    la recoleccin de impuestos. La consultora estimaba en

    aproximadamente entre 150 y 300 billones de Euros los beneficios

    econmicos anuales para la Unin Europea.

    El impacto econmico en el caso de Espaa en estos mismos mbitos lo

    calculamos siguiendo dos aproximaciones. Una primera aproximacin

    es estimando que el potencial impacto econmico para Espaa sera

    proporcional al peso de su PIB en la Unin Europea. De acuerdo a los

    datos del Eurostat10

    , en 2011 el PIB nominal de Espaa es

    aproximadamente un 8,5% del PIB de la Unin Europea.

    Consecuentemente, el impacto econmico sobre la Administracin

    espaola sera aproximadamente entre 12,75 billones de Euros y 25,5

    billones de Euros.

    Una segunda aproximacin puede realizarse aplicando los mismos

    multiplicadores que aplica McKinsey en su estudio a los datos

    macroeconmicos espaoles, siguiendo las pautas que han sido

    seguidas en informes dentro del Reino Unido11

    . Ello nos lleva a una

    estimacin ms modesta del potencial impacto del Big Data en la

    Administracin pblica Espaola, situado entre los 6,7 billones de Euros

    y los 14,8 billones de Euros.

    La necesidad de crear nuevas infraestructuras y de adquirir nuevas

    capacidades tecnolgicas y de anlisis, hace del Big Data un objeto

    10 Ver http://epp.eurostat.ec.europa.eu/portal/page/portal/national_accounts/data/main_tables 11 The Big Data opportunity, Policy Exchange, Junio 2012

    Base para anlisis (billones)

    Alcance posible 20% 25% 1% 3% 5% 10%

    Ahorros potenciales 15% 20% 30% 40% 10% 20%

    Total (billones) 5,1 8,5 0,4 1,7 1,1 4,5 6,7 14,8

    Min Max Min Max Min Max Min Max

    Potencial impacto en la

    Administracin espaola

    Mejora de eficiencia

    operativa

    Reduccin de fraudes y

    erroresIncremento impuestos

    170,8 145,2 225,9

    http://epp.eurostat.ec.europa.eu/portal/page/portal/national_accounts/data/main_tables

  • natural de un Centro de Competencia especfico. Ello conllevara la

    ventaja de evitar duplicidad de esfuerzo en una materia novedosa y,

    adems, es necesario dado que el mayor potencial valor de un proyecto

    Big data es directamente proporcional a la diversidad de las fuentes de

    datos utilizadas.

    Conclusiones

    El paradigma Big Data es una consecuencia de nuestro tiempo, del

    desarrollo de ms de una dcada de la Sociedad de la Informacin. Es

    quizs el fruto que ms va a contribuir a que recojamos sus beneficios.

    Nuevas capacidades y tecnologas es necesario para ello, tambin

    nuevos modelos organizativos, pero no explotar su potencial sera

    equivalente a no realizar el sprint final en una carrera de fondo.

    Big Data nos plantea nuevos retos, especialmente en el mbito de las

    Administraciones Pblicas dnde tanta informacin manejamos. Pero los

    beneficios anunciados exigen que los asumamos como medio de

    conseguir mejores y ms eficientes organizaciones que sean capaces de

    facilitar servicios ms personalizados y efectivos.