Clase 6 Conceptos Básicos BI, DWH, DM

download Clase 6 Conceptos Básicos BI, DWH, DM

of 21

description

conceptos basicos

Transcript of Clase 6 Conceptos Básicos BI, DWH, DM

  • 1

    ANTECEDENTES Y MARCO TEORICO:

    Antecedentes de las carreras informticas en Argentina y en la UNJu

    Para llegar a comprender la situacin actual de la carrera Licenciatura en Sistemas de la

    Facultad de Ingeniera, mbito en el cual se desarrollan los temas vistos en el actual

    Proyecto de Trabajo Final de Memoria Docente, se plantea una lnea de tiempo con los

    principales antecedentes de computacin, de las carreras informticas en el pas y en la

    UNJu (Universidad Nacional de Jujuy):

    1.955: El Doctor Manuel Sadosky se incorpora a la Facultad de Ciencias Exactas y

    Naturales como profesor del Departamento de Matemtica de la UBA (Universidad

    de Buenos Aires) y comienza a plantearse el desarrollo de la matemtica aplicada

    en el pas (Jacovskis, 2.004).

    1.956: el Ingeniero Jorge Santos en Baha Blanca de la Universidad Nacional del

    Sur constituye el Seminario de Computadores con alumnos avanzados de la

    carrera de Ingeniero Electricista

    1957: la UBA (Universidad de Buenos Aires) comienza la construccin de su nuevo

    edificio, el Pabelln I, en la Ciudad Universitaria, en donde el doctor Manuel

    Sadosky plantea obtener una computadora para la Facultad, que sirviera tanto para

    tareas cientficas como servicio para diversos usuarios, y crear un Instituto de

    Matemtica Aplicada, que sirva de base institucional al uso de la computadora,

    aprobndose un ao despus el presupuesto de dicho Pabelln gracias al Doctor

    Rolando Garca Vicepresidente del CONICET

    1.960: comienza a funcionar el primer Instituto de Clculo de la UBA siendo

    aprobado por el Consejo Superior en 1962 y su director es el Dr. Manuel Sadosky

    1.961: se incorpora la primer computadora al Pabelln I, la misma es utilizada

    hasta 1.966 (Czemerinski y Jacovkis: 2.012)

    1.961: comienza el proyecto CEUNS (Computadora Electrnica de la Universidad

    Nacional del Sur) dirigido por el Ing. Jorge Santos (Carnota y Rodriguez: 2.010)

    cuyo desafo es disear y construir la primer computadora en Argentina

    1.962: se crea la primera Carrera de Computador Cientfico, la cual es aprobada

    por el Consejo Directivo de la Facultad de Ingeniera de la UBA en dicho ao, y por

    el Consejo Superior en 1963. Tiene menor duracin que las tradicionales

    licenciaturas, y su objetivo es formar "auxiliares de cientficos": programadores,

    analistas, etc.

  • 2

    1.966: se crea la primera Carrera de Computador Cientfico,

    En el ao 1966 la Universidad Nacional de La Plata (UNLP) creo la carrera de

    Calculista Cientfico, en el Departamento de Matemticas de la Facultad de

    Ciencias Exactas. Es una carrera con fuerte contenido matemtico, orientada a

    incorporar la programacin de aplicaciones sobre computadoras, especialmente

    dentro del mbito cientfico.1

    1.982: Creacin de la licenciatura en computacin en Buenos Aires.

    A partir de estas fechas se crean innumerables carreras de grado y postgrados en

    informtica a lo largo del pas.

    1.992: la Facultad de Ingeniera de la Universidad Nacional de Jujuy crea la primer

    carrera universitaria informtica en Jujuy, de pregrado Tcnico Universitario en

    Informtica, posteriormente convalidada por el Ministerio de Cultura y Educacin

    por Resolucin N724/97 y del Consejo Superior Resolucin de la UNJu N150/952

    1.995: en la Universidad Nacional de Jujuy el Consejo Acadmico de la Facultad de

    Ingeniera aprueba la primer carrera universitaria informtica en Jujuy de grado

    Ingeniera en Informtica mediante Resolucin CAFI N 151/95 y posteriormente

    convalidada por el Ministerio de Cultura y Educacin por Resolucin N722/97 y del

    Consejo Superior de la UNJu Resolucin N204/963. En dicha Resolucin del

    Ministerio de Cultura y Educacin tambin se le otorga reconocimiento oficial a la

    carrera de pregrado Analista Programador Universitario solicitado por el Consejo

    Superior de la UNJu Resolucin N150/95

    2.002: por Resolucin N5784 del Ministerio de Educacin, Ciencia y Tecnologa

    otorga el reconocimiento oficial y validez nacional a la carrera Licenciatura en

    Sistemas, aprobada previamente por resolucin del Consejo Superior de la UNJu

    N 049/01. Es importante mencionar que uno de los alcances que el mismo plantea

    es Investigar fenmenos desarrollados con los procesos de diseos conceptuales

    de sistemas, as como para valorar estrategias de bsqueda de fuentes de

    1 Pgina de la Universidad Nacional de la Plata. Disponible en http://www.info.unlp.edu.ar/resena_historica. Accedido

    en Julio del 2.013 2 Resolucin 724 del ministerio de cultura y educacin. Disponible en

    http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83297/5645.pdf?sequence=1. Accedido en Julio

    del 2.013. 3Resolucin 722 del ministerio de cultura y educacin. Disponible en

    http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83294/5643.pdf?sequence=1. Accedido en Julio

    del 2.013. 4 Resolucin N578 del Ministerio de Educacin, Ciencia y Tecnologa. Disponible en

    http://repositorio.educacion.gov.ar:8080/dspace/bitstream/handle/123456789/86065/8884.pdf?sequence=1. Accedido en

    Julio del 2.013.

  • 3

    informacin de manera de lograr comunicar en forma efectiva los resultados de la

    investigacin, ya que este plantea las bases de conceptos que luego dieron lugar

    al Data Warehouse.

    2.012: la Facultad de Ingeniera de la de la UNJu acredita la carrera de Licenciatura

    en Sistemas mediante Resolucin de la CONEAU N 1230/12, por un perodo de

    tres (3) aos con los compromisos de desarrollar proyectos de investigacin,

    incrementar la cantidad de docentes con postgrados e incrementar las

    dedicaciones de los docentes5

    Data Warehouse y Cubos de Informacin OLAP como exigencia de la CONEAU

    En el punto 3 del actual Proyecto de Trabajo Final de Memoria Docente se mencion que

    el tema de Data Warehouse y Cubos de Informacin OLAP, son considerados como un

    punto clave que se requiere a las Facultades con Carreras Informticas para su

    Acreditacin. Esto se afirma cuando en la memoria anual del ao 2.0056 solicita en los

    proyectos de acreditacin que sean tenidos en cuenta otros aspectos concernientes a

    su integracin con futuros proyectos. Se detallan a continuacin dos posibles vas de

    desarrollo en donde uno de ellos menciona la utilizacin de los datos enviados por las

    instituciones para discernir relaciones entre los datos y extraer conclusiones de los

    mismos a travs del uso de herramientas de datawarehousing (tales como Anlisis

    estadstico, consultas OLAP, etc.). Esto muestra a las claras las necesidades de

    incorporar dicho tema a la competencia del profesional informtico.

    En el ao 2.009 CONEAU7 exige como contenido mnimo especfico para la acreditacin

    de la carrera Licenciatura en Sistemas en el rea Ingeniera de Software, Base de Datos y

    Sistemas de Informacin (cantidad de horas para el rea 650 en total), se incorpore los

    temas de Data Warehouse y Data Mining. El autor del actual Proyecto de Trabajo Final

    es integrante de la subcomisin de autoevaluacin en la acreditacin de la carrera

    Ingeniera en Informtica, y participe en mltiples reuniones para la acreditacin de la

    Licenciatura en Sistemas de la Facultad de Ingeniera en el ao 2.009 (Resolucin de la

    Facultad de Ingeniera N159/10). En dichas reuniones los referentes nombrados por el

    seor decano con la gua de la CONEAU informan a todos los participantes los contenidos

    5Resolucin CONEAU N1230/12. Disponible en http://www.coneau.gov.ar/archivos/resoluciones/Res1230-

    12E804086610.pdf. Accedido en Julio del 2.013. 6 Resolucin CONEAU N657/05. Disponible en http://www.coneau.gob.ar/archivos/657.pdf. Accedido en Julio del

    2.013. 7 Resolucin CONEAU N789/09. Disponible en http://www.coneau.gov.ar/archivos/Res786_09.pdf. Accedido en Julio

    del 2.013.

  • 4

    mnimos especficos y las horas que deban cumplir las ctedras que incluyan Data

    Warehouse y Data Mining.

    En el ao 2.010 la Facultad de Ingeniera de la Universidad Nacional de Jujuy mediante

    resolucin CAFI 005/10 agrega el nuevo plan de estudios 2.010 para la carrera

    Licenciatura en Sistemas8, en el cual incorpora un 5to.ao y en el mismo, la materia

    Aplicacin de Base de Datos 1 en el primer cuatrimestre, con una carga horaria semanal

    de 5 hs. y una carga horaria total de 75 hs. Dicha materia actualmente es dictada por la

    persona que escribe el actual Proyecto de Trabajo Final de Memoria Docente; tiene como

    contenido mnimo fundamental el tema de Data Warehouse, con todos los conceptos

    que el mismo involucra, en donde unos de los tems principales que posee son los Cubos

    de Informacin OLAP y Business Intelligence.

    Como se mencion antes, en el ao 2.012 se acredita la carrera Licenciatura en Sistemas

    de la Facultad de Ingeniera, Universidad de Jujuy, donde uno de los puntos ms

    importantes de dicha resolucin de la CONEAU es que ante la falta de dichos temas en

    los planes de estudios anteriores, solicita que con el objeto de subsanar los dficits

    detectados se agreguen al plan de transicin anterior Mdulos Complementarios a los

    aprobados por Resolucin CAFI N 086/11, con lo cual, requiere, entre otras cosas la

    creacin de un Taller de Aplicacin de Base de Datos que tenga como contenido mnimo

    principal Data Warehouse para los planes de estudios anterior de la licenciatura 2.001 y

    2.007.

    Relacin en Business Intelligence de Base de Datos Relacionales, Data Marts, Data

    Warehouse, Cubos de Informacin OLAP y ETL

    Para comprender en profundidad los diferentes conceptos que rodean a Business

    Intelligence, los cuales se detallan a continuacin se muestra el Grfico N1 en el cual se

    observa una primera aproximacin en la relacin entre Base de Datos Relaciones, Data

    marts, Data Warehouse, Cubos de Informacin OLAP y ETL.

    8 Plan de Estudios de la carrera Licenciatura en Sistemas, aprobado por resolucin CAFI 005 del 2.010. Disponible en

    http://www.fi.unju.edu.ar/component/option,com_docman/task,doc_download/gid,183/. Accedido en Julio del 2.013.

  • 5

    Grfico N1: Relacin en Business Intelligence de

    Base de Datos Relacionales, Data marts,

    Data Warehouse, Cubos de Informacin OLAP y ETL

    Base de Datos (BD)

    Diversas son las definiciones que mencionan distintos autores sobre Base de Datos:

    Date (2.001: 10) sostiene que una BD es un conjunto de datos persistentes, que se

    emplean en los sistemas informticos de alguna organizacin.

    Elmasri y Navathe (2.007: 4) y Silberschatz, Korth y Sudarshan (2.002: 1)

    mencionan definiciones similares al afirma que las BD estn formadas por una

    coleccin de datos, que se encuentran con una relacin lgica, y que al mismo

    tiempo necesitan de Sistemas de Informacin para acceder a ellos.

    Para todos estos autores este conjunto o coleccin de datos es tan ampliamente usado

    por todas las organizaciones de la sociedad que se pierde nocin de la importancia

    significativa que tienen dentro de cada una de ellas; se pueden ver en todos aquellos

    lugares en donde se necesite almacenar informacin, desde las principales instituciones

    modernas que conforman la sociedad tales como hospitales, bancos, universidades, etc

    hasta las ms pequeas como un kiosco o un almacn. Todas requieren almacenar

    registros de la informacin que se procesan dentro de ella. Es impensado creer que una

    institucin como un Hospital puede existir en la actualidad sin llevar registros de sus

    pacientes, tratamientos o remedios. O que un banco puede realizar cualquier operacin

  • 6

    crediticia sin conocer fehacientemente la situacin financiera de sus clientes. A pesar de

    lo expresado en general no se es consciente de la gran importancia que tienen las BD en

    la vida diaria. Por ejemplo, sin ellas las empresas telefnicas no podran registrar las

    llamadas que se realizan a diario y por lo tanto no habra comunicaciones, o las compras

    que se realizan tan naturalmente en un supermercado no existiran como tales. El mismo

    internet que se usa a diario no podra almacenar informacin alguna y dejara de existir

    como tal.

    Conjuntamente con la BD debe existir un software de aplicacin para el usuario (tal como

    se mencion anteriormente), del tipo Cliente-Servidor que permita acceder a ellas

    desarrollado tanto en ambientes de escritorios como en ambientes web.

    Base de Datos Relacionales

    Las Bases de Datos Relacionales son BD que cumplen con un modelo bien formado de

    datos, lo que implica cumplir con aspectos estructurales, de integridad y de manipulacin

    que forman un tipo de relacin especial, con cierto vnculo entre las diferentes tablas de

    informacin que forman las BD (Date, 2.001: 59-82), tal como se puede ver en el Grfico

    N2.

    Grfico N2: Caso de una Base de Datos Relacional de Ventas

    En dicho grfico se observan los componentes principales en los que se basa el modelo

    relacional: tabla, fila, columna y relaciones. Estos componentes se encuentran

    especialmente desarrollados en el libro de Elmasri y Navathe (2.007: 123-144)) donde se

    hace fuerte hincapi en las restricciones que se le imponen a la Base de Datos Relacional

    para ser considerada como tal, distinguiendo claramente los conceptos de Dominio,

    Atributos, Tuplas o Registros y Relaciones.

  • 7

    Este modelo relacional se basa en una lgica de predicados y teora de conjunto cuyos

    principios se postularon en 1970 por Edgar Frank Codd y que a partir de esa fecha se ha

    convertido en el estndar usado en BD (Silberschatz et al., 2002: 1-3). Si bien existen

    antes otros modelos para el manejo de datos como el Modelo Jerrquico y el de Red, los

    mismos tienen innumerables inconvenientes que se superaron con el Modelo Relacional.

    Actualmente el modelo que est empezando a tener auge es el Modelo Orientado a

    Objetos, el cual puede ser llegado a considerar como una extensin del Modelo

    Relacional, ya que adems de las caractersticas definidas por este incorpora los

    conceptos de Objetos, Clases y Herencia, permitiendo que unos objetos se construyan a

    partir de otros objetos con un comportamiento especfico. En la actualidad el Modelo

    imperante en gran parte de las BD del mundo sigue siendo el Relacional.

    Business Intelligence (BI)

    Laudon y Laudon (2.008: 12-19) afirman que muchos gerentes operan en un banco de

    niebla en relacin con la informacin, ya que nunca tienen la informacin correcta en el

    momento adecuado para tomar una decisin informada. Por el contrario, se apoyan en

    pronsticos, buenos deseos y la suerte, esto lo dicen para remarcar la necesidad que

    existe en una toma de decisiones gerencial mejorada, en obtener una ventaja competitiva

    en relacin con sus competidores y sobrevivir en el competitivo mundo actual. Remarcan

    las caractersticas que deben satisfacer los sistemas de informacin gerenciales.

    Edison Medina la Plata (2009:2-3) define BI o Inteligencia de Negocios como el conjunto

    de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento

    mediante el anlisis de datos existentes en una organizacin es decir que la misma

    organizacin se gestiona en base a los registros que ella misma genera a diario. Se debe

    tener en cuenta que la informacin de una organizacin puede clasificarse en

    Operacional, Tctica y Estratgica segn el usuario que la utilice tal cual lo muestra el

    Grfico N3:

  • 8

    Grfico N3: Tipos de Informacin y Usuarios que la emplean

    Los sistemas de BI toman los datos diarios registrados por los Sistemas Operacionales y

    los convierte en informacin valiosa usada en los niveles tcticos y estratgicos. Es muy

    difcil que esta transformacin que sea realizada por los Sistemas de Informacin (SI)

    tradicionales por las siguientes razones (Sinnexus, 2007):

    Gran rigidez a la hora de extraer datos: porque el usuario utiliza los informes ya

    definidos

    Necesidad de conocimientos tcnicos: ya que la generacin de nuevos informes

    necesita de personal tcnico

    Largos tiempos de respuesta: porque consultas complejas requieren la unin de

    grandes tablas complejas

    Deterioro en el rendimiento del SI: debido a que las consultas antes mencionadas

    pueden causar grandes degradaciones del sistema

    Falta de integracin que implica islas de datos: porque por lo general las

    instituciones trabajan sus base de datos sin estar integradas

    Datos errneos, obsoletos o incompletos: por la calidad de los datos de la

    organizacin

    Problemas para adecuar la informacin al cargo del usuario: porque la informacin

    se debe adecuar al usuario segn la posicin que el mismo ocupe en la

    organizacin

    Ausencia de informacin histrica: en los sistemas operacionales se trabaja con la

    informacin diaria, no permitindose comparar con la de aos anteriores

  • 9

    Es por ello que las BI se basan en la integracin y universalizacin de la informacin, no

    solo de la informacin que se genera en cada sector o departamento del mismo sino en

    toda la organizacin en su conjunto.

    Existen una serie de factores que se deben cumplir para garantizar el xito de las BI

    (Medina la Plata, 2009:6-7):

    Apoyo de la Gerencia: sin el soporte del personal directivo o de la/s persona/s que

    toman las decisiones en la organizacin el BI est destinado a fracasar

    Compromiso de los usuarios: hay usuarios que son claves para el proyecto, sin

    ellos no se puede recopilar la informacin necesaria

    Metodologa de la Implementacin: los primeros proyectos de BI fracasaron por no

    contar con una metodologa que defina claramente los pasos que a seguir, porque

    se intenta en muchos casos realizar la implementacin de forma similar a la de los

    sistemas de informacin tradicionales

    Seleccin de la Herramienta analtica: existen en la actualidad diferentes

    herramientas que facilitan el anlisis gerencial y directivo, cada una con sus

    caractersticas propias, es por ello que se debe seleccionar el ms adecuado para

    el proyecto de estudio.

    Rapidez de Implementacin: el realizar un proyecto de BI, si su implementacin

    demora una excesiva cantidad de tiempo har fracasar al mismo. Los cambios que

    se producen en la organizacin obligan a que el sistema que se desarrolle para la

    toma de decisin se realice con la mayor celeridad posible

    Experiencia: realizar un proyecto de este tipo necesita de profesionales con

    experiencia en BI que garanticen el mejor aprovechamiento de los recursos

    disponibles

    Tambin existen una serie de errores comunes que se realizan en la implementacin de

    las BI y que se deben evitar (Medina la Plata, 2012:2-6):

    Enfoque netamente tcnico: implementar una solucin de BI no es solamente

    generar un nuevo repositorio de datos (Data Warehouse o Data Smart), con

    informacin ms limpia y preparada; implica adems sumar un valor agregado que

    se obtiene de un estudio de las necesidades de la gestin de la organizacin

    Mala seleccin del equipo de trabajo o de la tecnologa que se emplee: ya sea que

    el proyecto de BI se desarrolle en forma interna o por una empresa externa, el

    mismo debe contar con expertos en el tema, no basta con que sean expertos en

  • 10

    soluciones transaccionales sino que deben serlo en soluciones de BI. La eleccin

    de la tecnologa que se utilice tambin es clave ya que han aparecido varias y la

    tecnologa elegida debe cubrir las necesidades globales de la organizacin y no

    solamente la de un departamento o sector en particular

    Mala calidad de datos: si el origen del cual se obtienen los datos no tienen la

    calidad suficiente el proyecto de BI se ver comprometido, por lo cual al inicio del

    mismo se debe analizar este problema y trabajar en atenuarlos

    Falta de Planificacin de la iniciativa de BI: antes de empezar con el proyecto de BI

    se debe analizar y planificar cuales son las reas de la empresa que demandan

    este tipo de iniciativa, cual es la tecnologa a usar, cuales son las necesidades de

    informacin, las funcionalidades que se solicitan y la calidad de los datos existentes

    Presupuesto inadecuado: una iniciativa de BI demanda un adecuado clculo de los

    costos que el mismo involucra: licencias, infraestructura tecnolgica, consultora,

    ampliacin de requerimientos, etc

    Mala seleccin de herramientas: existen muchas herramientas a utilizar para BI, es

    por ello que se debe elegir cuidadosamente la que mejor se adapta al proyecto en

    cuestin

    No propiciar el cambio: las variaciones que implica BI debe atender a las

    necesidades de gestin, propiciando e impulsando cambios en la organizacin

    centralizando la informacin en BI, alineando las expectativas en una estrategia de

    negocios, fortaleciendo los equipos tcnicos, mostrando adems a los usuarios del

    negocio las ventajas del BI y generando proyectos que sean dinmicos, con un

    rea dedicada al soporte de estas soluciones

    Data Warehouse

    El mismo Edgar Codd afirma que las Base de Datos Relacionales no son suficientes para

    trabajar en BI, es por ello que se comienza a hablar de Data Warehouse (DWH) con dos

    importantes autores que escriben libros sobre este tema (considerados como los pilares

    del DWH) Ralph Kimball y William Inmon, con muchos puntos en comn pero con

    filosofas muy distintas a la hora de disear la estrategia de datos.

    William H. Inmon (al cual tambin se lo conoce en mucha bibliografa como Bill Inmon y el

    padre del DWH), acu el trmino de Data WareHouse en 1.992 en su libro Building the

  • 11

    Data Warehouse como aplicaciones para la toma de decisiones, afirmando que el mismo

    es un almacn de datos con ciertas caractersticas (Inmon, 2.005: 29-33):

    Orientado al sujeto: Los datos de la BD estn organizados de manera que todos los

    elementos de datos relativos al mismo evento u objeto del mundo real quedan

    unidos entre s

    Integracin: esta caracterstica refiere al hecho de que la misma se obtiene a partir

    de diferentes Base de Datos Operacionales, las cuales pueden no tener siempre la

    misma estructura y encontrarse sobre distintos motores de BD (SQL Server,

    Oracle, MySql, PostgreSQL, etc)

    De Tiempo Variante: en el ambiente operacional la informacin solicitada es

    obtenida en el momento en el que se realiz el requerimiento, mientras que en una

    Base de Datos DWH el almacenamiento es usado como un depsito en el que el

    horizonte de tiempo de la informacin obtenida, ronda de 5 a 10 aos, lo cual

    implica adems que la informacin almacenada no puede sufrir modificaciones,

    como en cambio si lo hacen continuamente las Base de Datos Operacionales

    No voltil: en una Base de Datos Operacional la informacin cambia o se actualiza

    continuamente en tiempo real, a diferencia de una Base de Datos DWH en la cual

    la informacin una vez cargada no sufre modificaciones

    Inmon utiliza un enfoque Top-down o ir de arriba hacia abajo, en donde la informacin

    debe estar en los mximos niveles de detalle, los Data marts (concepto que se explicar

    en los siguientes prrafos), son tratados como subconjuntos del DWH. Es decir que lo

    primero a la hora de desarrollar el DWH es establecer una estructura de datos en 3FN

    (tercera forma normal), perfectamente normalizada y limpia. Los datos se insertan en esta

    estructura, siendo depurados antes de pasar a la estructura normalizada del DWH.

    A partir de esa estructura, se pueden establecer una serie de Data marts que agrupen de

    una forma ms lgica (y si se quiere multidimensional) la informacin del DWH principal.

    A continuacin se muestra el grfico N4 con el diseo Top-down planteado por Inmon

    Grfico N4 Diseo Top-down aplicando Inmon

  • 12

    El otro gran autor de DWH es Ralph Kimball (1.996: 310) quien afirma que el DWH es a

    copy of transaction data specifically structured for query and analysis o una copia de las

    transacciones de datos especficamente estructurada para la consulta y el anlisis,

    tambin menciona que un DWH no es ms que la unin de todos los Data marts de una

    entidad. Por lo tanto lo que este autor plantea a la hora de disear un DWH es que la

    metodologa que se emplee sea la ascendente o bottom-up o ir de abajo a arriba, es decir

    que las partes individuales se disean con detalle y luego se enlazan para formar

    componentes ms grandes, que a su vez se enlazan hasta que se forma el sistema

    completo. A continuacin se muestra el grfico N5 con el diseo Bottom-up de Kimball

    Grfico N5 Diseo Bottom-up aplicando Kimball

    Kimball parte de los datos y procesos existentes y modela el DWH para que se adapte a

    ellos, tomando como premisas la eficiencia en tiempo y la representacin natural de datos

    a costa de la normalizacin. El clculo de los datos sirve para que la toma de decisiones

    sea rpida, por lo que estructura los datos del DWH sigue patrones dimensionales. Esto

    mejora el rendimiento a la hora de realizar consultas y organiza los datos de una forma

    ms intuitiva y natural para los usuarios.

    Roberto Espinosa el cual es un escritor muy reconocido sobre BI afirma en su artculo

    Kimball vs Inmon. Ampliacin de conceptos del Modelado Dimensional (2.010) que el

    enfoque Inmon es ms apropiado para sistemas complejos, donde adems queremos

    asegurar su perdurabilidad y consistencia aunque cambien los procesos de negocio en la

    organizacin. Pero para pequeos proyectos, donde adems queremos asegurar la

    usabilidad de los usuarios con un sistema fcil de entender y el rpido desarrollo de la

    solucin, el enfoque Kimball es ms apropiado, es decir que segn sean las

    caractersticas del proyecto de BI que se encare conviene seguir con el enfoque de Inmon

    o el de Kimball.

  • 13

    Data marts (DM)

    Inmon, Imhoff y Sousa definen DM como as a subset of a data warehouse that has been

    customized to fit the needs of a department" (1.998, 70) o sea un subconjunto de un DW

    que se ha hecho a la medida de un departamento. Lo que afirma es que un DM es un

    subconjunto de los datos del DWH con el objetivo de responder a un determinado anlisis,

    funcin o necesidad y con una poblacin de usuarios especfica.

    Kimball tambin trabaja con DM, pero para el se define por procesos y no por

    departamentos. Tambin insiste en que las dimensiones deben ser

    conformadas/compartidas entre los distintos DM, a lo que llama bus architecture.

    Un DM puede ser dependiente o independiente de un DWH, tal cual puede observarse en

    el Grfico N6 que se muestra a continuacin, lo cual depende si el DM se encuentra en el

    mismo equipo del DWH (imagen de la derecha) o si el DM est en otro equipo

    independiente del DWH (imagen de la izquierda) (Inmon, 2.005: 384-385):

    Grfico N6 DM independiente de un DWH DM dependiente de un DWH

    Dependiendo el tipo de proyecto esta independencia puede ser o no conveniente para

    algunos casos y para otros no.

    Entonces la principal diferencia entre un DM y un DWH es el alcance. El DM est pensado

    para cubrir las necesidades de un grupo de trabajo o de un determinado departamento

    dentro de la organizacin, mientras que el mbito del DWH es la organizacin en su

    conjunto o sea que trabajan con los datos corporativos comunes.

  • 14

    ETL

    ETL son las siglas en ingles de Extract, Transform y Load o sea extraccin,

    transformacin y carga. Kimball y Ross (2.002, 401) define ETL como el conjunto de

    procesos mediante los cuales los datos origen son preparados para el DWH Consiste

    en extraer los datos operacionales de una aplicacin de origen , transformarlo, cargarlo e

    indexarlo, asegurando su alta calidad y publicacin.

    Inmon (2.005, 18) por su parte menciona la grandes ventajas que tiene el uso del ETL el

    cual puede automatizar gran parte del tedioso proceso de la integracin de datos

    complejos. Adems, este proceso de integracin se debe realizar slo una vez.

    Adzic, Fiore y Sisto (2.006, 89-90) sealan claramente el ambiente donde trabaja ETL al

    afirmar que se lleva a cabo en una amplia zona entre el origen de datos y una base de

    datos de destino en el sistema de gestin (DWH); en el medio, estn todos las

    condiciones necesarias para llevar y mantener los datos histricos en una forma

    adecuada para el anlisis. A continuacin en el Grfico N7 puede observarse el

    escenario con el que se trabaja en ETL:

    Grfico N7 Escenario de ETL

    Espinosa Roberto cuando escribe en DATAPRIX (2.010) afirma que ETL es el proceso

    que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y

    limpiarlos, cargndolos en otra BD, DM, o DWH para analizar, o en otro sistema

    operacional para apoyar el BI. Este proceso ETL se caracteriza por:

    Extraccin: realizar un proceso de extraccin con un software ETL consiste en

    EXTRAER los datos de los sistemas de origen, los cuales generalmente provienen

    de diferentes sistemas de origen que pueden tener formatos distintos (Base de

    Datos Relacionales, ficheros planos, Base de Datos no Relacionales, etc). Esta

    fase de extraccin convierte los datos a un formato diseado para el proceso de

    transformacin, analizando los mismos y rechazndolos si correspondiera. Este

    proceso debe ser diseado cuidadosamente ya que debido al volumen de datos

  • 15

    puede ocasionar que el sistema operacional tenga una sobrecarga y los usuarios

    del personal operativo no puedan trabajar, es por ello que generalmente se

    programa en horarios de poca o ninguna actividad

    Transformacin: transformar los datos usando herramientas ETL significa aplicar

    funciones a los datos extrados con el fin de convertirlos a un formato til para su

    carga, estas funciones tambin se les llama reglas de negocio, ya que describe las

    definiciones de la informacin en la organizacin. Esta transformacin puede incluir

    manipulaciones sobre las mismas que pueden ser de tipos variados tales como

    juntar columnas o desagregarlas, aplicar funciones de agrupamiento (realizar

    conteos, sumarizaciones, promedios, etc), generacin de claves, unificacin de

    mltiples fuentes, transformar valores de los campos, etc.

    Carga: en este proceso los datos ya transformados de la etapa anterior se cargan

    en la nueva Base de Datos del DWH. Dependiendo de cmo se disee esta fase se

    puede sobreescribir la informacin antigua o agregar solamente los nuevos

    registros. Existen incluso reglamentaciones legales de esta fase, ya que la

    modificacin de registros ya existentes no es permitida porque las decisiones

    gerenciales se basan en las mismas y una modificacin en ella puede provocar

    cambios en el rumbo de la organizacin. Hay dos formas de desarrollar este

    proceso, por acumulacin simple que consiste en realizar funciones de

    agrupamiento y guardar esos resultados en la Base de Datos del DWH o realizar

    un rolling en donde se opta por mantener un cierto nivel de granularidad,

    manteniendo informacin resumida por niveles jerrquicos en una o ms

    dimensiones del DWH.

    Los procesos ETL son generalmente complejos y deben ser planificados cuidadosamente

    para evitar inconvenientes. Se debe estudiar la calidad de datos existente en las Base de

    Datos Operacionales y las diferentes herramientas existentes en el mercado, tanto

    Software Propietario como Software Libre (u Open Source). Las herramientas ms

    populares en el momento en el que se escribe el actual Proyecto Final de Memoria

    Docente son:

    IBM Webspher

    Pentaho Data Integration (Kettle ETL) (Herramienta Open Source BI)

    SAS ETL Studio

    Oracle Warehouse Builder

  • 16

    Informatica PowerCenter

    Cognos Decisionstream

    Ab Initio

    BusinessObjects Data Integrator (BODI)

    Microsoft SQL Server Integration Services (SSIS)

    Cubos de Informacin OLAP

    Una de las herramientas ms importantes a la hora de trabajar con Data Warehouse es

    el llamado Cubo de Informacin OLAP, el trmino original OLAP (Date, 2.001:715)

    ("Procesamiento Analtico en Lnea") fue acuado en el artculo Providing OLAP (Online

    Analytic Processing) to User-Analysts: An IT Mandate escrito por el mismo Edgar Codd

    para Arbor Software Corp. en 1993 y puede ser definido como "el proceso interactivo de

    crear, mantener, analizar y elaborar informes sobre datos". Es usual asumir que los datos

    en cuestin son percibidos y manejados como si estuvieran almacenados en un "arreglo

    multidimensional", a diferencia del modelo relacional que plantea las tablas con filas y

    columnas.

    Hurtado y Gutierrez (2.006, 37) define que un cubo de datos es el conjunto de todas las

    posibles vistas del cubo definidas sobre una lista de dimensiones, una tabla base y

    medidas agregacin, aqu tambin se observa que aparecen conceptos nuevos como

    dimensiones y medidas de agregacin, que se vern en detalle a continuacin.

    Bernabeu (2.010: 33) simplifica este concepto afirmando que un Cubo de Datos

    representa o convierte los datos planos que se encuentran en filas y columnas, en una

    matriz de N dimensiones. Es decir, que la informacin deja de considerarse en dos

    dimensiones, tal cual sera el caso de una planilla Excel, y pasa a tener N dimensiones de

    anlisis, en donde la cantidad de dimensiones depende del estudio del problema en

    cuestin.

    La definicin clsica que menciona Roberto Espinosa en El Rincn del BI (2.009) es que

    son las herramientas que se basan en la capacidad de analizar y explorar por los datos,

    y que tiene un enfoque, el cual a travs de las herramientas OLAP de reportes, permite

    analizar el por qu est pasando? a travs de navegar y profundizar en los datos y ya

    no solamente observar el qu est pasando? tradicional.

    Estas herramientas OLAP permite hacer un anlisis interactivo de las dimensiones e

    indicadores (estos conceptos tambin se explicarn a continuacin), permitiendo

  • 17

    moverse en ellas, es decir se seleccionan las dimensiones e indicadores que se tengan

    disponibles y en base a eso obtendr diferentes reportes de los datos, resultando esto

    totalmente transparente al usuario. Inclusive no es necesario que el usuario directivo o

    gerencial tenga conocimientos avanzados de informtica (aunque es recomendable que

    tenga cierto manejo del mismo) ya que con un conocimiento de las reglas del negocio

    podr navegar entre las diferentes dimensiones que tenga disponible, obteniendo

    distintas visiones del negocio.

    Como se mencion arriba para trabajar con cubos OLAP es necesario operar con los

    siguientes conceptos:

    Indicadores o Coeficientes de Gestin: son variables que se obtienen por medio de

    operaciones matemticas que se realizan sobre algn hecho o expresiones

    basadas en estas, pertenecientes a una tabla de hechos.

    Atributos: hacen referencia a los campos o criterios de anlisis, pertenecientes a

    tablas de dimensiones.

    Nivel de Agregacin o Jerarqua de la Dimensin: las cuales representan una

    relacin lgica entre dos o ms atributos.

    Existen una serie de acciones que se pueden realizar con los conceptos arriba

    mencionados:

    Swap: rota filas por columnas o sea permuta dos dimensiones de anlisis

    Down: bajar el nivel de visualizacin en las filas a una jerarqua inferior

    Drilldown: genera un detalle de una fila en concreto, de datos a un nivel inferior

    Expand: similar al anterior sin perder la informacin a nivel superior para ste y el

    resto de los valores.

    Collapse: operacin inversa de la anterior

    A continuacin en el Grfico N8 se muestra la forma de representar un indicador a travs

    de los atributos en un cubo de informacin multidimensional.

  • 18

    Grfico N8: Cubos de Informacin Multidimensional

    En el Grfico N9 se muestra un caso con el uso de fecha en la aplicacin de jerarquas

    en un Data Warehouse

    Grfico 9: Jerarqua de fecha en un Cubo de Informacin

    Es importante mencionar que tal como afirman Elmasri y Navathe (2.007: 854) el

    rendimiento de la consulta en las matrices multidimensionales puede ser mucho mejor

    que en el modelo de datos relacional y este es el objetivo principal que se persigue al

    utilizar cubos multidimensionales de informacin en Base de Datos DWH sobre el empleo

    de las BD Operativas. Es cierto que se pueden obtener los mismos resultados, pero no es

    lo mismo para un gerente tomar una decisin crtica en el que est en juego el futuro en la

    organizacin en un par de segundos con cubos multidimensionales a tener una espera de

    minutos o hasta horas de consulta en las tradicionales Base de Datos Operativas. En este

    nivel los sistemas de informacin deben dar respuestas acordes a las circunstancias, que

    permitan obtener estadsticas, proyecciones y consultas en forma rpida y eficiente.

  • 19

    11.- BIBLIOGRAFIA CITADA Y DE CONSULTA

    Adzic Jovanka, Fiore Valter y Sisto Luisella, 2.006. Captulo 4: Extraction,

    Transformation, and Loading Processes de Data Warehouses and OLAP:

    Concepts, Architectures and Solutions de Wrembel Robert y Koncilia Christian.

    Hershey. Idea Group Inc

    Bernabeu Ricardo Dario. 2.010. HEFESTO Data Warehousing: Investigacin y

    Sistematizacin de Conceptos - Hefesto: Metodologa para la Construccin de un

    Data Warehouse. Disponible en

    http://sourceforge.net/projects/bihefesto/files/Hefesto/HEFESTO.gz/download.

    Versin Digital 2.0. Accedido en Julio 2.103.

    Carnota Ral y Rodriguez Ricardo. 2.010. Fulgor y Ocaso de CEUNS. Una

    apuesta a la tecnologa nacional en el Sur de Argentina. Proyecto SAMCA

    (Salvando la Memoria de la Computacin Argentina).Disponible en

    http://www.cos.ufrj.br/shialc/content/docs/2.1_30SHIALCCarnota_Paper.v2.pdf.

    Accedido en Julio del 2.013

    Czemerinski Hernan y Jacovkis Pablo. 2.012. La llegada de la computacin a la

    Universidad de Buenos Aires. Revista iberoamericana de ciencia tecnologa y

    sociedad. Disponible en http://www.scielo.org.ar/scielo.php?pid=S1850-

    00132012000100006&script=sci_arttext. Accedido en Julio del 2.013

    Date Christopher. 2.001. Introduccin a los Sistemas de Bases de Datos. Mxico.

    Pearson Educacin. 7ma Edicin.

    Elmasri Ramez y Navathe Shamkant. 2.007. Fundamentos de Sistemas de Bases

    de Datos. Madrid. 5ta. Edicin. Pearson Educacin.

    Espinosa Roberto. 2.009. El Rincn del BI: Descubriendo el Business Intelligence.

    Artculo Cubos OLAP (On-Line Analytic Processing). Disponible en

    http://churriwifi.wordpress.com/2009/11/24/2-2-cubos-olap-on-line-analytic-

    processing/. Ultimo acceso Julio 2.013

  • 20

    Espinosa Roberto. 2.010. El Rincn del BI: Descubriendo el Business Intelligence.

    Artculo Kimball vs Inmon. Ampliacin de conceptos del Modelado Dimensional.

    Disponible en http://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion-

    conceptos-del-modelado-dimensional/. Ultimo acceso Julio 2.013.

    Espinosa Roberto. 2.010. DATAPRIX Knowledge Is the Goal Artculo

    Herramientas ETL. Que son, para que valen?. Productos ms conocidos. ETLs

    Open Source.. Disponible en

    http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-

    valen-productos-mas-conocidos-etl-s-open-sour. Ultimo acceso Julio 2.013

    Jacovskis Pablo M. 2.004. Breve resumen de la historia de la computacin en

    Argentina. Disponible en

    http://www.sadio.org.ar/modules.php?op=modload&name=News&file=article&sid=5

    0. Accedido en Julio del 2.013.

    Garcia Sevilla Julia. 2.008. El aprendizaje basado en problemas en la enseanza

    universitaria. Murcia. EDITUM.

    Goleman Daniel. 1.998. La prctica de la Inteligencia Emocional. Disponible en

    http://webs.uvigo.es/pmayobre/master/textos/evangelina_garcia/practica_inte_emo

    cional.pdf. Accedido en Julio 2.103. Barcelona. Kairs S.A.

    Hurtado Carlos y Gutierrez Claudio. 2.006. Captulo 2: Handling Structural

    Heterogeneity in OLAP de Data Warehouses and OLAP: Concepts, Architectures

    and Solutions de Wrembel Robert y Koncilia Christian. Hershey. Idea Group Inc

    Inmon William, Imhoff Claudia y Sousa Ryan. 1.998. Corporate Information

    Factory.NY, John Wiley & Sons, Ltd.

    Inmon. 2.005. Building the Data Warehouse. Indianpolis. Wiley Publishing, inc.

    4ta. Edicin.

    Laudon Kenneth C. y Laudon Jane P. 2.008. Sistemas de Informacin Gerencial:

    administracin de la empresa digital. Mxico. Pearson Educacin. 10ma Edicin.

  • 21

    Medina la Plata, Edison. 2.009. Business Intelligence: la informacin como arma

    competitiva. Portal de revistas UPC (Universidad Peruana de Ciencias Aplicadas):

    Sinergia e Innovacin. Revista N5. Disponible en

    http://revistas.upc.edu.pe/index.php/sinergia/article/view/112/77. Ultimo acceso

    Julio 2.013

    Medina la Plata, Edison. 2.012. Business Intelligence: Errores comunes en su

    implementacin. Portal de revistas UPC (Universidad Peruana de Ciencias

    Aplicadas): Sinergia e Innovacin. Revista N17. Disponible en

    http://revistas.upc.edu.pe/index.php/sinergia/article/view/30/20. Ultimo acceso Julio

    2.013

    Kimball Ralph. 1.996. The Data Warehouse Toolkit: Practical Techniques for

    Building Dimensional Data Warehouses. NY. John Wiley & Sons, Ltd.

    Kimball Ralph y Ross Margy. 2.002. The Data Warehouse Toolkit, The Complete

    Guide to Dimensional Modeling. NY. John Wiley & Sons, Inc.

    Prez Lpez Cesar y Gonzlez Daniel Santn. 2.008. Minera de Datos: tcnicas y

    herramientas. Madrid. Thompson. 2da. Edicin

    Silberschatz Abraham, Korth Henry F., Henry y Sudarshan S. 2.002. Fundamentos

    de Base de Datos. Madrid. Mc Graw-Hill. 4ta. Edicin.

    Sinnexus. Manual de Business Intelligence. Sinergia e Inteligencia de Negocio

    S.L.. Disponible en http://www.sinnexus.com/business_intelligence/index.aspx.

    Accedido en Julio 2.013.

    Vizcarro Carmen y Jurez Elvira. 2008. Qu es y cmo funciona el aprendizaje

    basado en problemas? En Garca Sevilla, J. (coord.). El aprendizaje basado en

    problemas en la enseanza universitaria. Murcia. EDITUM.

    SIE - Servicio de Innovacin Educativa. 2.008. Aprendizaje Basado en Problemas:

    Guas rpidas sobre nuevas tecnologas. Madrid. Disponible en

    http://innovacioneducativa.upm.es/guias/Aprendizaje_basado_en_problemas.pdf.

    Accedido en Julio 2.103.