Inteligencia corporativa 2.0

47
Dr. Hugo A. Banda Gamboa CORDICYT 2016

Transcript of Inteligencia corporativa 2.0

Dr. Hugo A. Banda GamboaCORDICYT

2016

La Evolución de BI

Business Intelligence y Data Warehouses

Conceptos Básicos Relacionados a BI 2.0

Retos Tecnológicos de BI 2.0

Conclusión

© Dr. Hugo A. Banda Gamboa - 2016 2

© Dr. Hugo A. Banda Gamboa - 2016 3

Las soluciones tradicionales de Business Intelligence (BI) permiten a los decisores consultar, comprender y analizar los datos almacenados en sus organizaciones para poder tomar decisiones

Sin embargo, la realidad del entorno actual determina que ya no es suficiente operar sólo con la información disponible en la propia organización.

© Dr. Hugo A. Banda Gamboa - 2016 4

Un visión integral de la inteligencia organizacional también requiere de la inclusión de información presente en la WEB, el uso de inteligencia colectiva, la colaboración a través de redes sociales, del apoyo de cloud computing y otras tecnologías.

La investigación en estas áreas ha dado lugar a soluciones consolidadas, técnicas y metodologías, disponibles en una variedad de productos y herramientas computacionales.

© Dr. Hugo A. Banda Gamboa - 2016 5

A medida que la tecnología y la sociedad evolucionan, se requieren mejores y más rápidas decisiones, lo que ha originado una creciente demanda de soluciones informáticas.

Según estudios de Gartner [1, 2], en la última década el uso de herramientas de BI ha tenido un incremento sostenido entre el 5% y el 8% anual. Estas soluciones van desde data warehousing, data mining y OLAP, hasta gestión del desempeño del negocio (BPM) y reportes en tiempo real.

[1] http://www.gartner.com/newsroom/id/2340216

[2] http://www.gartner.com/newsroom/id/3198917

© Dr. Hugo A. Banda Gamboa - 2016 6

Más recientemente, una nueva generación de aplicaciones de BI ha aparecido, que no limita el análisis de datos a los de su propia organización sino que también se alimenta de datos del entorno, a través de la WEB [3]: Precios de productos de los competidores.

Opiniones registradas por los clientes.

Tendencias del mercado.

Esto permite incorporar en las decisiones una visión más dinámica e integral acerca de los procesos y el entorno del negocio.

[3] http://www.gartner.com/newsroom/id/2970917

© Dr. Hugo A. Banda Gamboa - 2016 7

© Dr. Hugo A. Banda Gamboa - 2016 8http://bias.csr.unibo.it/golfarelli/Papers/Dolap04.pdf

© Dr. Hugo A. Banda Gamboa - 2016 9http://bias.csr.unibo.it/golfarelli/Papers/Dolap04.pdf

Enterprise Application Integration

Business Activity Monitoring

Dynamic Data Store

Right-Time Integrator

© Dr. Hugo A. Banda Gamboa - 2016 10

Source: Gartner (February 2016)

© Dr. Hugo A. Banda Gamboa - 2016 11

© Dr. Hugo A. Banda Gamboa - 2016 12

© Dr. Hugo A. Banda Gamboa - 2016

Desde mediados de los 1990´s aplicaciones de Data Warehouse (DW) y Business Intelligence (BI), ha sido desarrolladas para consolidar datos organizacionales y facilitar la toma de decisiones oportuna e informada.

Sin embargo, en la actualidad, la disponibilidad de enormes cantidades de datos provenientes de diferentes dominios requiere de un cambio en la forma en que las prácticas de DW y BI, se están realizando.

13

Resulta evidente que para muchos tipos de aplicaciones de BI, la forma tradicional de recolectar los datos organizacionales del día a día en un enorme repositorio, para luego proceder a su análisis, requiere de una revisión para lograr un manejo más eficiente de datos a gran escala.

Fuentes de datos a escala masiva se vuelven cada vez más comunes, imponiendo nuevos retos a la comunidad de investigadores relacionada con arquitecturas y herramientas de DW.

© Dr. Hugo A. Banda Gamboa - 2016 14

Nuevas arquitecturas de bases de datos han sido propuestas: El paralelismo se ha convertido en una opción para

procesamiento en grandes DW [4]. Bases de datos de almacenamiento en columnas son fuertes

candidatas para arquitecturas de DW ya que tienen un desempeño superior a las bases de datos de almacenamiento en filas, cuando se tienen tablas de hechos con una enorme cantidad de atributos.

El modelo MapReduce [5] cada vez es más popular, constituyéndose en un fuerte retador de las arquitecturas de DBMS tradicionales [6]. La DW de Facebook está construida con Hadoop (una implementación de código abierto de MapReduce) [7].

[4] Stonebraker, M. Stonebraker on data warehouses. Commun. ACM 54 (5), pp. 10-11, 2011.[5] Dean J, Ghemawat S. MapReduce: a flexible data processing tool. Commun. ACM 53 (1), pp. 72-77, 2010[6] Stonebraker M, Abadi D J, DeWitt D J, Madden S, Paulson E, Pavlo A, Rasin A. MapReduce and Parallel DBMSs: Friends or foes? Comm.

ACM 53 (1), pp. 64-71, 2010[7] https://people.csail.mit.edu/matei/courses/2015/6.S897/readings/facebook-warehouse.pdf

© Dr. Hugo A. Banda Gamboa - 2016 15

© Dr. Hugo A. Banda Gamboa - 2016 16

Fuente: Hao Zhang, Gang Chen, Beng Chin Ooi, Kian-Lee Tan, Meihui Zhang. In-Memory Big Data Management and Processing: A Survey. IEEE Transactions on Knowledge and Data Engineering, Vol. 27, No. 7, July 2015

Los datos recopilados por las organizaciones pueden contener de manera escondida dos componentes importantes para su análisis: espacio y tiempo.

Se estima que el 80% de los datos corporativos tiene un componente espacial (posición, forma, orientación o tamaño) [8].

El tiempo es otro componente fundamental de los datos y su consideración puede ser crucial para la toma de decisiones.

[8] Franklin, C. 1992. An Introduction to Geographic Information Systems: Linking Maps to Databases. Database, April, pp. 13-21.

© Dr. Hugo A. Banda Gamboa - 2016 17

Para tomar ventaja de las dimensiones espaciales de los datos, en la toma de decisiones, se ha configurado una herramienta que fusiona las funcionalidades de las herramientas OLAP con las de un Sistema de Información Geográfico (GIS): Spatial On-Line Analytical Processing(SOLAP) [9].

Al incorporar a OLAP y GIS, las dimensiones temporales y los tipos de datos móviles, se puede configurar una taxonomía de data warehousingespacio – temporal [10].

[9] http://yvanbedard.scg.ulaval.ca/wp-content/documents/publications/306.pdf[10] http://code.ulb.ac.be/dbfiles/VaiZim2009incollection.pdf

© Dr. Hugo A. Banda Gamboa - 2016 18

© Dr. Hugo A. Banda Gamboa - 2016 19

Fuente: http://code.ulb.ac.be/dbfiles/VaiZim2009incollection.pdf

Tradicionalmente, los datos se capturan en las bases de datos transaccionales cuando una operación relacionada con los procesos del negocio ocurre.

Luego, en algún momento establecido por el ciclo de refresco de la DW, los nuevos datos son acondicionados, procesados y cargados por los procesos ETL (bulk feed).

Posteriormente, los datos pueden ser utilizados para análisis y toma de decisiones, que conlleva a alguna acción.

A medida que el tiempo transcurrido entre el evento y la consecuente acción (data latency) se minimiza, se aproxima más al tiempo real.

© Dr. Hugo A. Banda Gamboa - 2016 20

En general, el proceso de refresco de datos es el que más aporta al data latency. Por lo que se requieren modificaciones en el proceso de ETL y en el modelo de almacenamiento en la DW: Direct Trickle Feed (DTF)

Trickle and Flip

Near-Real Time ETL

Capture, Transform and Flow (CTF) en lugar de ETL.

Real – Time Data Caching (RTDC)

In – Memory databases (RTDC para grandes volúmenes de datos)

© Dr. Hugo A. Banda Gamboa - 2016 21

© Dr. Hugo A. Banda Gamboa - 2016 22

Fuente: http://research.ijcaonline.org/volume81/number2/pxc3891990.pdf

© Dr. Hugo A. Banda Gamboa - 2016 23

Análisis de uso de páginas Web (Rango de horas a días).

Collaborative filtering (Rango de horas).

Detección de fraudes (Uso de Tarjetas de Crédito) (Rango de minutos).

Aplicaciones de Call Center (Rango de minutos).

Monitoreo de Actividades en Negocios y Gestión del Desempeño Operativo (Rango de minutos).

© Dr. Hugo A. Banda Gamboa - 2016 24

© Dr. Hugo A. Banda Gamboa - 2016 25

En esta sección se introducen algunos conceptos básicos relacionados con la BI 2.0.

A más del requerimiento de tiempo real presentado anteriormente, es necesario tomar en consideración otros aspectos o soluciones tecnológicas que permitan hacer realidad la nueva visión de las aplicaciones para inteligencia de negocios en la era del conocimiento.

© Dr. Hugo A. Banda Gamboa - 2016 26

Se originó mediante la integración en red de varios elementos heterogéneos. Una capa mediadora provee de una interfaz homogénea para el acceso de los usuarios, escondiendo los detalles de la tecnología subyacente.

La nube también permite la incorporación de nuevos elementos facilitando el incremento de la capacidad de la red para satisfacer una determinada demanda según sea necesario, dependiendo de la carga de trabajo.

© Dr. Hugo A. Banda Gamboa - 2016 27

Se refiere al SW que se desarrolla para ser usado a través de arquitecturas orientadas al servicio (SOA). El protocolo de estas arquitecturas (SOAP) provee la forma de invocar servicios abstrayendo la implementación tecnológica.

Recientemente, esta visión ha sido aplicada a las soluciones BI. Lo cual permite acceder a través de Internet, mediante renta, a aplicaciones basadas en Cloud Computing, que son mucho más escalables que las soluciones tradicionales.

© Dr. Hugo A. Banda Gamboa - 2016 28

Este término fue utilizado inicialmente para referirse al comportamiento emergente en colonias, que es más complejo que el de los individuos que la conforman.

Un ejemplo de esto puede verse en redes sociales, donde grupos descentralizados de gente sin líder pueden tomar decisiones y promover iniciativas que serían imposibles para un solo individuo.

© Dr. Hugo A. Banda Gamboa - 2016 29

Se refiere a la delegación de ciertas tareas a una multitud. La efectividad de este enfoque viene del hecho que, con un pequeño esfuerzo individual, el grupo puede alcanzar su meta.

Más aún, con la presencia de la inteligencia colectiva en la multitud, se pueden obtener soluciones que serían difíciles de obtener por un solo individuo, aún en el caso que esté dedicado exclusivamente a esa tarea [11].

[11] http://icdt.tu-dortmund.de/proceedings/edbticdt2010proc/workshops/beweb/papers/edbt_2010_submission_565.pdf

© Dr. Hugo A. Banda Gamboa - 2016 30

Consisten de una colección de datos provenientes de los propios participantes, así como de las relaciones entre ellos. Estas redes permiten la interacción entre los participantes para generar información que viene a enriquecer la ya existente.

La colaboración entre participantes provee resultados más rápidos y mejores de los que se conseguiría de un solo individuo. Los investigadores están incorporando estos conceptos a las nuevas aplicaciones de BI.

© Dr. Hugo A. Banda Gamboa - 2016 31

Se refiere a la idea de relacionar cada pieza con el resto de la información que le afecta o a la que puede afectar.

Idealmente, linked data significa conocer y ser capaz de aprovechar las relaciones existentes entre cada pieza de información registrada. Esto implica que las relaciones deben estar semánticamente etiquetadas de tal forma que un computador las pueda utilizar para algún proceso de razonamiento.

Este aspecto es especialmente relevante para obtener automáticamente conocimiento a partir de la información disponible en la Web e información almacenada en el DW.

© Dr. Hugo A. Banda Gamboa - 2016 32

Se refiere al proceso de describir el sentimiento general u opiniones de un grupo de personas hacia cierto elemento.

Opinion Mining implica ser capaz de comprender un conjunto dado de opiniones y derivar conclusiones relevantes y útiles.

Esta información se la encuentra típicamente en la Web en forma de datos no estructurados. Sin embargo, esta información puede ser altamente relevante para una organización ya que le podría permitir identificar que producto tiene una mejor percepción por parte de los clientes y por qué.

© Dr. Hugo A. Banda Gamboa - 2016 33

Es un punto de vista que se enfoca en los procesos y su lógica, relacionando los datos almacenados con el desempeño de los procesos del negocio (BPM), en lugar orientarse a presentar simplemente un conjunto de datos e información en diferentes formatos.

Esta nueva perspectiva podrá permitir la identificación y reestructuración de procesos que no estén contribuyendo al logro de las metas organizacionales.

© Dr. Hugo A. Banda Gamboa - 2016 34

© Dr. Hugo A. Banda Gamboa - 2016

Las organizaciones deben incorporar tanta información como sea posible para la toma de sus decisiones estratégicas.

Más aún, estas decisiones deben ser ágiles para reaccionar a tiempo ante los problemas o amenazas identificadas o cubrir posibles debilidades.

Estas necesidades, que están íntimamente relacionadas con la conectividad a Internet, demandan la modificación de diferentes aspectos relacionados con las soluciones de BI y otros procesos asociados a los servicios Web.

35

Entre los principales aspectos asociados a la evolución de la Web y las soluciones de BI, se pueden mencionar: Las interfaces de usuario.

Períodos más cortos para actualización de la información.

La forma colectiva de tomar decisiones.

Interactividad entre los usuarios y el sistema de BI, a través de blogs, aplicaciones Web, hojas electrónicas, etc.

Presentación de información a través de formas más amigables.

Enfoque en analítica predictiva.

© Dr. Hugo A. Banda Gamboa - 2016 36

© Dr. Hugo A. Banda Gamboa - 2016 37

Los nuevos aspectos a ser introducidos en BI 2.0 no podrán ser logrados, a menos que la tecnología necesaria sea desarrollada.

Para que la nueva visión de las aplicaciones de BI sea convertida en una realidad, una serie de retos tecnológicos deben ser superados.

© Dr. Hugo A. Banda Gamboa - 2016 38

© Dr. Hugo A. Banda Gamboa - 2016

Para lograr el flujo de datos en tiempo real y el correspondiente procesamiento, se han evidenciado los siguientes requerimientos: Minimizar los tiempos de los procesos de

refrescamiento de la DW.

Reducir el retardo que introducen las consultas mediante paralelización, aceleración del hardware y bases de datos en memoria principal.

Evitar inconsistencias en el análisis debido al constante flujo que modifica los datos dentro de la DW, mediante análisis episódico de capturas sucesivas.

39

Los problemas de escalabilidad pueden afectar diferentes aspectos del proceso de decisión. Desde las bases de datos transaccionales hasta la DW utilizada como fuente de datos para la solución de BI, incluyendo la red que provee los resultados a los diferentes usuarios.

Tres principales alternativas se han propuesto para resolver estas dificultades:1. Incorporar elementos de hardware más poderosos2. Simplemente incorporar mayor número de elementos

de hardware.3. Una combinación de las dos anteriores, buscando una

solución de mejor beneficio – costo.

© Dr. Hugo A. Banda Gamboa - 2016 40

1. Más poderosos servidores de DW con alto número de núcleos y enormes tamaños de RAM. La información puede ser almacenada y mantenida dentro de la organización con mayor privacidad y seguridad: Exadata de ORACLE.

Arquitectura de DW de IBM Netezza.

2. Servicios de Cloud Computing. Más flexibles para satisfacer fluctuaciones en la demanda, sin incurrir en costos innecesarios: Amazon Services.

Azure Cloud de Microsoft.

iCloud de Apple.

© Dr. Hugo A. Banda Gamboa - 2016 41

Actualmente, los clientes intercambian opiniones a través de las redes sociales y registran opiniones en foros, blogs, etc., a medida que las empresas presentan sus ofertas a través de sus sitios Web.

Esto implica que los negocios no tienen almacenados todos en sus servidores los datos relevantes y necesarios.

Toda esta información externa útil debe ser recopilada, sin embargo mucha de ella está en formato semiestructurado (Archivos XML), como lenguaje natural no estructurado o como contenido en una página WEB.

Se han desarrollado algunas propuestas para integrar estos datos, pero todavía es un área de investigación abierta [12].

[12] http://www.aclweb.org/anthology/S10-1099

© Dr. Hugo A. Banda Gamboa - 2016 42

A medida que el enfoque de análisis se orienta al futuro inmediato, se incrementa la importancia del análisis predictivo.

Ya que la cantidad de información a ser analizada para tomar una decisión es demasiado grande para un experto humano, el análisis debe ser realizado de manera automática, utilizando algoritmos de fácil aplicación, en un tiempo reducido.

A pesar que existe un buen número de técnicas predictivas de minería de datos, estas deben obtener resultados en períodos delimitados de tiempo, aún cuando se pierda cierta precisión.

Ésta también es un área abierta para futura investigación.

© Dr. Hugo A. Banda Gamboa - 2016 43

Los modelos de procesos del negocio describen el flujo de datos a través de las diferentes actividades específicas, detallando la forma en que los estados de los objetos de datos evolucionan a través del proceso.

La investigación en esta área ha permitido identificar cuellos de botella dentro de los procesos, proporcionando niveles de abstracción para hacerlos más comprensibles.

Sin embargo, los modelos de los procesos del negocio carecen de información acerca de la estructura de los datos subyacentes, así como de las relaciones entre los procesos y la estrategia del negocio.

Estos procesos están relacionados con la inteligencia de los procesos del negocio (BPI) y es un área abierta a la investigación.

© Dr. Hugo A. Banda Gamboa - 2016 44

Una de las características importantes para el análisis de un conjunto de datos corresponde a las relaciones entre este conjunto y otros datos.

Algunas de estas relaciones (hechos, dimensiones y jerarquías) están explícitamente incluidas en los datos almacenados en la DW, pero otras que son implícitas deben ser descubiertas a través de técnicas de minería de datos.

Para modelar estas relaciones, una forma de enlazar los datos (linking data) debe ser desarrollado. Entre las propuestas publicadas, se pueden mencionar: enfoques de trazabilidad, uso de ontologías y etiquetado semántico. También es un área abierta a la investigación.

© Dr. Hugo A. Banda Gamboa - 2016 45

© Dr. Hugo A. Banda Gamboa - 2016 46

Herramienta MicroStrategy Pentaho Cognos SAS Microsoft SAP

Interfaz Web Si Si Si Si Combinada Combinada

Scorecards SiRequiere Esfuerzo

Si Si Si Si

Dashboards Si Si Si Si Si Si

Interactividad No No Si Si Limitada -

Colaboración entre usuarios

No LifeRay Si - Algo En desarrollo

Información Enriquecida

No No Si No Algo En desarrollo

AnálisisPredictivo

Funciones Matemáticas

WEKASW

Adicional- EXCEL

Apoyo Completo

Procesos de Negocio

No No No No No Si

IntegraciónPlataforma

ÚnicaMódulos

IndependientesPlataforma

ÚnicaPlataforma

ÚnicaSW Múltiple SW Múltiple

CaracterísticasAdicionales

BI Móvil Dedicada

BI Open Source -Herramientas de

VisualizaciónSoporta Web

DataIntegración Empresarial

Si tienes suficiente

información para hacer un

plan de negocio de tu idea

es que ya es demasiado

tarde.

- Bill Gates

© Dr. Hugo A. Banda Gamboa - 2016 47