datawarehouse-130526222034-phpapp02.ppt

101
1

Transcript of datawarehouse-130526222034-phpapp02.ppt

  • *

    Administracin de las Tecnologas de la Informacin

  • Un Data Warehouse es un conjunto integrado de bases de datos, con orientacin temtica, que estn diseados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algn momento del tiempoBill H. Inmon"una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis o"la unin de todos los Data marts de una entidadRalph KimballYo considero al DW como algo que provee dos beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsicoSusan Osterfeldt

    *

    Administracin de las Tecnologas de la Informacin

  • Hacer la informacin de la organizacin accesibleHacer a la informacin de la organizacin consistenteControlar el acceso efectivo a los datosGenerar informacin de manera flexibleServir de ayuda a la toma de decisiones

    *

    Administracin de las Tecnologas de la Informacin

  • Un Data Warehouse tiene como objetivo almacenar y proveer a la Organizacin de informacin relevante y a tiempo*

    Administracin de las Tecnologas de la Informacin

  • Mejorar la Entrega de Informacin:. Mejorar el Proceso de Toma de DecisionesImpacto Positivo sobre los Procesos Empresariales*

    Administracin de las Tecnologas de la Informacin

  • La amplitud; el nmero de diferentes temas y puntos de focoFuentes que proveern datos brutos.Los medios por los cuales los datos se transportan de las aplicaciones fuente y son cargados al Data Warehouse.Las reglas de negocio que se aplican a la data en bruto para producir activos de datos de alta calidad.Las bases de datos receptoras, en la que estos activos de datos sern almacenados.Los activos de datos; los elementos, el nivel de detalle de cada elemento, y cunta historia se ha mantenido, por ejemplo.La Inteligencia de negocioHerramientas de nivel usuario para acceder a los activos de datos.La arquitectura y complejidad en general del entorno.

    *

    Administracin de las Tecnologas de la Informacin

  • Royal bank of canadaPaypal3MCoca-Cola CompanyVerizonFord Motor CompanyHerramientas de nivel usuario para acceder a los activos de datos.La arquitectura y complejidad en general del entorno.

    *

    Administracin de las Tecnologas de la Informacin

  • IBM Cognoshttp://www-01.ibm.com/software/data/cognos/Teradatahttp://www.teradata.comOracle Hyperionhttp://www.oracle.com/hyperion/index.htmlMicroStrategyhttp://www.strategy.comSAShttp://www.sas.com

    *

    Administracin de las Tecnologas de la Informacin

  • Orientado a un temaAdministra grandes cantidades de informacinGuarda informacin en diversos medios de almacenamientoComprende mltiples versiones de uno (o varios) esquema de base de datosCondensa y agrega informacinIntegra y asocia informacin de muchas fuentes*

    Administracin de las Tecnologas de la Informacin

  • *

    SISTEMAS TRADICIONALESDATAWAREHOUSE

    Predomina la actualizacin.Actividad operativa (da a da).Proceso puntual.Estabilidad.Datos desagregados.Dato actual.Respuesta de la transaccin inmediata.Estructura relacional.Usuarios de perfiles bajos.Explotacin de la informacin relacionada con operatividad de cada aplicacin Predomina la consultaAnlisis y decisin estratgica.Proceso masivo.Dinamismo.Niveles de detalle/agregacin.Dato histrico.Respuesta masivaEstructura MultidimensionalUsuarios de perfiles altos.Explotacin de informacin interna y externa relacionada con el negocio.

    Administracin de las Tecnologas de la Informacin

  • Metodologa de Inmon (Top Bottom)

    *

    Administracin de las Tecnologas de la Informacin

  • *

    Administracin de las Tecnologas de la Informacin

  • *

    Administracin de las Tecnologas de la Informacin

  • Page *Arquitectura de un Data Warehouse*

  • Productionsystems

    Other sourcesCRMBillingActivationsystemsOtherDBsFilesETLDataWarehouseOLAPcubesBusinessUsersQuerying &ReportingtoolsAcquisitionStorage /ArchivingRestitutionDatamartsFlujo de Datos de un DW*

  • Page * Base de datos operacional / Nivel de base de datos externo. Nivel de acceso a los datos Nivel de organizacin de datosNivel de data warehouse Nivel de acceso a la informacin Nivel de gestin de proceso

    Arquitectura de un Data Warehouse*

  • Page *

    Base de datos operacional / Nivel de base de datos externo (Fuentes de datos) Los sistemas operacionales procesan datos para apoyar las necesidades operacionales crticas, tales como ERPs, SCMs, tambin se procesa informacin de fuentes de datos externas, tales como de la internet, INEI, BCRP.

    Nivel de acceso a los datos Es responsable de la interfaces entre las herramientas de acceso a la informacin y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar Query Lenguaje)

    Elementos de la Arq. De un DW*

  • Page *

    Nivel de organizacin de datos El componente final de la arquitectura data Warehouse es la organizacin de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depsito y acceder a la informacin desde bases de datos operacionales y/o externas

    Nivel de data warehouse En un data Warehouse fsico, el almacenaje de data procesada, incluso en forma redundante

    Elementos de la Arq. De un DW*

  • Page *Nivel de acceso a la informacin Este nivel se incluye el hardware y software involucrados en representar y proveer de informacin al usuario final normalmente usa da a da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.

    Nivel de gestin de proceso El nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la informacin del directorio de datos.

    Elementos de la Arq. De un DW*

  • 1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE Establecer una asociacin de usuarios, gestin y gruposConstruir prototipos rpida y frecuentementeImplementacin incrementalReportar activamente y publicar los casos exitosos Administracin de las Tecnologas de la Informacin *Fase 1: Organizacin

    Administracin de las Tecnologas de la Informacin

  • 2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE

    Administracin de las Tecnologas de la Informacin *Quin es el auditorio? Cul es el alcance? Qu tipo de data warehouse debera construirse?1ra.: Establecer un ambiente "data warehouse virtual. 2da.: Construir una copia de los datos operacionales desde un sistema operacional nico y posibilitar al data warehouse de una serie de herramientas de acceso a la informacin. 3ra.: Finalmente, la estrategia data warehousing ptima es seleccionar el nmero de usuarios basados en el valor de la empresa y hacer un anlisis de sus puntos, preguntas y necesidades de acceso a datos.

    Administracin de las Tecnologas de la Informacin

  • **3 ESTRATEGIAS PARA EL DISEO DE UN DATA WAREHOUSE1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales.

    2da.: El diseo de un data warehouse, con frecuencia involucra lo que se piensa en trminos ms amplios y con conceptos del negocio ms difciles de definir que en el diseo de un sistema operacional. Al respecto, un data warehouse est bastante cerca a Reingeniera de los Procesos del Negocio (Business Process Reengineering).

    3ra.: Finalmente, la estrategia de diseo ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down).

  • *Administracin de las Tecnologas de la Informacin *4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE 1ra.: Un data warehouse es una inversin buena slo si los usuarios finales realmente pueden conseguir informacin vital ms rpida y ms barata de lo que obtienen con la tecnologa actual.

    2da.: La administracin debe reconocer que el mantenimiento de la estructura del data warehouse es tan crtico como el mantenimiento de cualquier otra aplicacin de misin-crtica.

    3ra.: La gestin debe comprender tambin que si se embarcan sobre un programa data warehousing, se crearn nuevas demandas sobre sus sistemas operacionales, que son: Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc.

    Administracin de las Tecnologas de la Informacin

  • **Se ha reconocido los beneficios del procesamiento analtico en lnea (On Line Analytical Processing - OLAP), ms all de las reas tradicionales de marketing y finanzas. El crecimiento de la computacin cliente/servidor, ha creado servidores de hardware y software ms poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnolgicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas. Fase 2: Desarrollo1. PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?

  • **2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un nmero de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse Redundancia de datos Tipo de usuario final

  • **3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difciles de trabajar en su entorno, costoso para arreglar y difcil de justificar. Para conseguir que la implementacin del depsito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construccin: Arquitectura total del depsito Arquitecturas del servidor Sistemas de Gestin de Base de DatoHay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un nmero de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse Redundancia de datos Tipo de usuario final

  • **4 CONFIABILIDAD DE LOS DATOS La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad.

    No importa cmo est diseado un programa o cun hbilmente se use. Si se alimenta mala informacin, se obtendr resultados incorrectos o falsos.

    Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de lnea comercial operacionales pueden ser basura en lo que concierne a la aplicacin data warehousing

  • **5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE La data sucia es un serio peligro para el xito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podra no ser posible dirigirlo rpidamente y abaratarlo. Los principales factores son: El tiempo que toma la programacin interna El costo de las herramientas Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solucin que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema.

  • **Proyecto Total o Proyecto en FasesEs ms viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al trmino de varios aos. Por ello, el proyecto debe estar centrado en un rea o un proceso. Modelo lgico de datos El modelo lgico de datos debe tener un alcance ms alto y cubrir todas las reas de inters, as como los procesos ms estratgicos de cada una de ellas.Proyecto Especializado o Proyecto Base Decidir sobre qu tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso especfico, por ejemplo: retencin de clientes.Un proyecto base entrega capacidad genrica de anlisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solucin de un problema especfico o el soporte especializado de un proceso especfico.

    FASE 3: IMPLEMENTACION 1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

  • **2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION Identificar el problema en el cual el uso estratgico de la informacin detallada, permita conseguir una solucin para generar una ventaja competitiva o un ahorro de costos. Definir el modelo lgico de datos a implementar para resolver el problema planteado.

  • *Administracin de las Tecnologas de la Informacin *3 ESTRATEGIAS EN LA IMPLEMENTACION Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe estar orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lgico que est orientado al usuario y a la facilidad de consulta. Definir los procesos de extraccin, filtro, transformacin de informacin y carga de datos que se deben implementar para poblar ese modelo de datos. Definir los procesos de administracin de la informacin que permanece en el data warehouse Definir las formas de consultas a la informacin del data warehouse que se le proporcionar al usuario. Para sto, debe considerarse la necesidad de resolver un problema y la potencia de consulta.Completar el modelo de consulta base, relativo al rea seleccionada. Implementar los procesos estratgicos del rea de trabajo, es decir, implementar herramientas especializadas de scoring, herramientas especializadas para induccin de conocimiento (Data Mining), etc.Completar las reas de inters, en forma similar a lo descrito anteriormente.

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Qu clases de costos excedieron el presupuesto en ms del 10% en cada uno de los 12 meses pasados? Se aumentaron los presupuestos en ms de 5% para cualquier rea dentro de los ltimos 18 meses? Cmo especificar las clases de gasto entre diferentes departamentos? Entre divisiones? A travs de las regiones geogrficas? Cmo tener mrgenes de operacin sobre los dos ltimos aos en cada rea de negocio? Donde han disminuido los mrgenes, se han incrementado los costos? FASE 4: EVALUACION1 EVALUACION DE RENDIMIENTO DE LA INVERSION

    Administracin de las Tecnologas de la Informacin

  • Administracin de las Tecnologas de la Informacin **CASO PRACTICOEn un estudio encargado por 20 vendedores y consultores, se encontr un Retorno Promedio Total de la inversin (Return On Investment-ROI) de 401%.Tambin, se excluyeron los proyectos fracasados, as como los ejecutados excepcionalmente, tanto buenos como malos.

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *1.1 COSTOS Y BENEFICIOS Costos preliminares Planificacin Diseo Modelamiento /Ingeniera de Informacin Costos iniciales Plataforma de hardware Software de base de datos Costos en procesamiento Mantenimiento de datos Desarrollo de aplicaciones Capacitacin y soporte Beneficios Tcticos Impresin y emisin de reporte reducido Demanda reducida para consultas de clientes Entrega ms rpida de informacin a los usuarios Beneficios Estratgicos (Potencialidad) Aplicaciones y herramientas de acceso para los usuarios finales Decisiones con mayor informacin Toma de decisiones ms rpida Capacidad de soporte a la informacin organizacional

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *2 BENEFICIOS A OBTENER Para la Empresa El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de informacin de la empresa y volver ese valor potencial en valor verdadero. Para los UsuariosEl data warehouse extiende el alcance de la informacin para que puedan accesar directamente en lnea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no.Para la Organizacin en Tecnologas de Informacin El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de produccin

    Administracin de las Tecnologas de la Informacin

  • Importante: El Modelo de DatosEs el modelo por el cual se disea el esquema de funcionamiento de la Base de Datos que provee al Data Warehouse.

    Existen varios enfoques en este sentido:

    Fbrica de informacin corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa Esquema en estrella: Este mtodo replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, especficamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalizacin de base de datos y se ponen los datos donde tienen ms sentidoData vault (Arquitectura de modelado fundacional comn -CFIMA): Esta es una arquitectura de integracin de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas nicamente enlazadas que soportan una o ms reas funcionales de las tablas de negocio con tablas satlites para rastrear cambios histricos. Este enfoque hbrido rene lo mejor del cruce entre la tercera forma normal (3NF)

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Page *DATA WAREHOUSE VS BD OPERACIONAL*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Modelo de Estrella*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • ExtraccinMultiples FuentesOrientadas a trabajo Batch : cagas de estos sistemas son ms fuertes cuando los sistemas de produccin tienen poca cargaConectvidad a diferentes tecnologas, diferentes manejadores de BDsTransformacinManipulacin de data complejaReunin de diferentes fuentesImplementacin de reglas de negocioLimpiado, ordenado, eliminacin de duplicidadesOptimizado para el desempeo y para grandes volmenesCargaCargar la data en tablas de hechos y dimensionesProduce un historial en archivos o en la BD para trazabilidadOtrosControla los flujos de ejecucin: maneja las dependencias entre tareas, control de ejecucin, gestin de errores, registros histricos.*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Transformacin de Bsqueda difusaBusca valores en las tablas usando criterios difusosEjemplo: Para un campo de texto la data puede contener muchas variantes de la misma palabra (friend, a friend, freind, etc). La lgica difusa puede ayudar a reunir las variantes.

    Transformacin de dimensiones de cambio lentoAyuda a manejar la actualizacin de una dimensin de cambio lentoEjemplo : la informacin sobre los consumidores cambia constantemente, pero queremos una historia de estosCambio de direccin no queremos el valor anteiror (reemplazo)Un cambio en el valor VAT duplicamos la entrada del consumidor agregando los datos adicionales (para propsitos financieros)

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Los datos son muy sensibles, la calidad de los reportes depende la calidad de estosCargar un Data Warehouse puede implicar reglas complejas de extraccin, transformacin y cargaLos usuarios del negocio no confiarn en un DW si no confan en su carga

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Flujo de control y flujo de datos*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Son Instancias intermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la dataEstacin de transformacin interina: un rea en la cual grupos de datos extrados de alguna de las fuentes pasan por un proceso de transformacin antes de moverse hacia la base de datos del almacn.Estacin de aseguramiento de la calidad: Un rea en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacn de datos.

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Solucin: crear almacenes de datos especializados por rea, que reciben los datos desde el almacn centralizado, estos almacenes se conocen como Data Marts.*Administracin de las Tecnologas de la Informacin *Problema: al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo.

    Administracin de las Tecnologas de la Informacin

  • Toma de decisionesUn Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica.

    Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

    DATAMART*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Puede ser alimentado desde los datos de un DWH, o integrar por si mismo un compendio de distintas fuentes de informacin.

    Administracin de las Tecnologas de la Informacin

  • Data Warehouses Vs. Data MartsData MartDepartamentalUn solo tema Pocos < 100 GBMesesData WarehousePropiedadAlcanceTemaFuente de datos

    Tamao (tpico)

    Tiempo de implementacinData WarehouseEmpresarialMltiplesMuchas100 GB to > 1 TBMeses a aos*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Su objetivo es agilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementacin de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos. Soporte anlisis multidimensional y procesamiento analtico en lnea(OLAP)*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Soporte anlisis multidimensional y procesamiento analtico en lnea(OLAP)Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes anlisis de los datos que contienen.

    Los Usuarios pueden formular consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a datos detallados.

    CARACTERISTICAS*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Clasificacin segn el tipo de motor en el que estn almacenados los datos:*Administracin de las Tecnologas de la Informacin *

    ROLAP (Relational OLAP)MOLAP (multidimensional OLAP)Almacena los datos en un motor relacional Almacena los datos en una base de datos multidimensional Muchas dimensiones Diez o menos dimensiones Soportan analisis OLAP contra grandes volumenens de datos Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb) Herramienta flexible y general Solucin particular con volmenes de informacin y numero de dimensiones mas modestos

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Trim4Trim1Trim2Trim3Dimensin tiempoSantiagoQuitoArequipaDimensin CiudadManzanaPaalYogurtLimaMelonDimensin Producto

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Hechos Principales

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Medidas

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Medida :cuenta de suscriptor x mes

    (para agilizar clculos)

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Medida:Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago.

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Dimensiones

    La Dimensin fecha se usa ms de una vez (dimensin con rol)

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    RelacionesUna relacin regular

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    RelacionesUna relacin de hecho

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    RelacionesUna relacin referenciada

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *RelacionesUna relacin de muchos a muchos

    Dim Product Fact ChargesFact Charges Dim SubscriberDim Subscriber Fact Subscriber

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • DATA MINING*Administracin de las Tecnologas de la Informacin *1. What is Data Mining?

    Administracin de las Tecnologas de la Informacin

  • El data mining es el conjunto de tcnicas y tecnologas que permiten explorar grandes BBDD, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Arte/Ciencia de descubrir y aprovecha enforma automtica informacin no-obvia y til en grandes bases de datos

    *Administracin de las Tecnologas de la Informacin *nfasis en: no-obvia (no intuitivas) til (coste vs beneficio) grande (proceso automtico)

    No hay reglas siempre que el proceso sea eficiente entiempo, dinero y recursos humanos

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Preparacin de los datosAnlisis de datosToma de decisionesRedes Neuronales

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Extraccin / IntegracinTransformacinSeleccinLimpiezaData warehouse50-80% tiempo del proyecto

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin * Eliminar redundancia Eliminar datos y variables irrelevantes Tratar datos ausentesmedia, substitucin astuta, interpolacin, ignorar, ? Correccin errores Outliers (datos fuera de rango) Verificar consistencia

    Reservar todo preprocesamiento relevante hasta el anlisis

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Tcnicas:

    rboles de decisin Reglas de asociacin Ajustes (regresiones..) Algoritmos genticos Redes neuronales Tareas conceptuales:

    Clasificacin Optimizacin Interpolacin Modelacin Prediccin Objetivos:

    Target marketing Segmentacin Control Prediccin ventas Descubrir imperfecciones

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Los resultados del anlisis pueden resultar inescrutablesEl analista debe entender el problema a fondoLos resultados deben presentarse con honestidadEl post-procesamiento y la inclusin de factores subjectivos son a menudo necesariosValidacin estricta

    Administracin de las Tecnologas de la Informacin

  • Las empresas de todos los tamaos necesitan aprender de sus datos para crear una relacin one-to-one con sus clientes.Las empresas recogen datos de todos lo procesos.Los datos recogidos se tienen que analizar, comprender y convertir en informacin con la que se pueda actuar y aqu es donde Data Mining juega su papel*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • El Data Warehouse proporciona los datos.La inteligencia permitir buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuroSe estudiarn las tcnicas y herramientas que aaden la inteligencia al datawarehouse para explotar los datos de los clientes y sacar el mximo rendimiento

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Relacin con el Data Mining Est asociado al escaln ms alto de la pirmide (Nivel Estratgico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos.

    Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la informacin calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de anlisis.

    Aunque este mtodo se puede considerar como exagerado, nunca ser tan caro, como lo que le costara a la organizacin el tomar las decisiones equivocadas.

    Administracin de las Tecnologas de la Informacin

  • Qu clientes permanecern fieles?Qu clientes estn a punto de abandonar?Dnde debemos localizar la prxima sucursal?Qu productos se deben promocionar a qu prospectos?...Las respuestas a estas preguntas estn enterradas en los datos y se necesitan las tcnicas de Data Mining para buscarlas

    *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Identificar un problemaUsar data mining para transformar los datos en informacin Actuar basndonos en la informacinMedir los resultados

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

    Direccin de Promocin de Exportaciones

    Subdireccin de Inteligencia y Prospectiva Comercial

    7Distribuir informacin a sectoristas

    FIN

    Especialista en Procesamiento e Informacin Estadstica

    6Clasificar informacin por sector

    Departamento de Informacin y Negocios Electrnicos

    Leyenda

    1Coordinar disponibilidad de informacin

    2Extraer informacin de base de datos SUNAT

    INICIO

    INICIO / FIN

    Entidad Externa

    Actividad

    Decisin?

    Otro Procedimiento

    A

    1

    Conector dentro de pgina

    Conector a otra pgina

    Inicio y fin de actividades en paralelo

    5Coordinar actualizacin

    Es conforme?

    3Transferir informacin a INFOTRADE

    4Validar informacin cargada

    No

    Si

    SUNAT

    SUNAT

    Elab. base datos compradores internacionales

    Elaboracin de informe mensual de exportaciones

    Elaboracin de informes especiales

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

    Direccin de Promocin de Exportaciones

    Subdireccin de Inteligencia y Prospectiva Comercial

    INICIO

    FIN

    Especialista de Promocin Comercial

    Departamento de Informacin y Negocios Electrnicos

    Leyenda

    1Recopila informacin de fuentes externas

    3Transfiere informacin a base de datos

    INICIO / FIN

    Soporte y Mantenimiento Plataforma SIICEX

    Actividad

    Decisin?

    Otro Procedimiento

    A

    1

    Conector dentro de pgina

    Conector a otra pgina

    Inicio y fin de actividades en paralelo

    Subdireccin de Promocin Comercial

    Informacin encontrada?

    7Busca informacin de compradores

    5Actualiza informacin de base de datos

    Especialista en PROCOM y Portal Institucional

    2Ordena y guarda informacin

    Usuarios Internos y/o Externos

    Si

    4Califica acceso de informacin

    10Prioriza atencin

    8Remite requerimiento

    Coordinador de Informacin y Negocios Electrnicos

    Entidad Externa

    11Extrae informacin de compradores

    No

    A

    A

    9Registrar el requerimiento

    6Califica acceso de informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Administracin de las Tecnologas de la Informacin **Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo.Aunque los algoritmos son importantes, la solucin es ms que un conjunto de tcnicas y herramientas.Las tcnicas se tienen que aplicar en el caso correcto a los datos correctos

    Administracin de las Tecnologas de la Informacin

  • Administracin de las Tecnologas de la Informacin **El concepto de DWH est teniendo una gran aplicacin en la actualidad para el desarrollo de las empresas, como almacn de datos. Sus objetivos incluyen la reduccin de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre aos, ms que sobre meses de informacin.Para disear una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Adems, hacer un buen diseo del rea de transformacin de datos, cules son las transformaciones que se van a realizar y cmo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.

    Administracin de las Tecnologas de la Informacin

  • Administracin de las Tecnologas de la Informacin **Provee un esquema de organizacin cules son los componentes que la forman, cmo ellos se interrelacionan, quin es el dueo de cada parte y cules son las prioridades.

    Mejora la flexibilidad permite que rpidamente se aadan nuevas fuentes de datos.

    Desarrollo rpido y reuso los desarrolladores de DWH son ms capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio ms rpidamente.

    Herramientas de comunicaciones define y comunica la direccin y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *Fuente: Jos Ignacio LatorreUniversitat de Barcelonahttp://sophia.ecm.ub.es/latorre/

    Administracin de las Tecnologas de la Informacin

  • *Administracin de las Tecnologas de la Informacin *

    Explotacin bruta de las bases de datos da resultados sin sentido o no-competitivos Sentido comn y buena formacin = coste elevado

    S se emplea, pero poca gente es consciente

    Data Mining

    Administracin de las Tecnologas de la Informacin

  • Redes Neuronales*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Qu es una red neuronal?DatosDatos histricosvariables objetivosDatos nuevosvariables ??Las redes neuronales aprenden a partir de ejemplosEconomista/Matemtico/Fsico/Analista Aproximante universal(Permiten un ajuste a partir de ejemplos enun gran espacio de funciones sin sesgo,robusto, flexible que implementa inferencia bayesiana)Economista/Empresario Herramienta de prediccin (objetivo, consolidado, adaptable a problemas complejos, integrable)Modelo del cerebroRedes neuronales*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Redes neuronalesPara qu sirven una red neuronal? ClasificacinClientes buenos/malos, comprometidos o no, asequibles o noReconocimiento de patrones InterpolacinAdivinar el comportamiento de un nuevo clienteCrear una nueva pintura PrediccinVentas, meteorologa, finanzas, control de produccin Las redes neuronales pueden ser aplicadas a cualquierproblema de inferencia estadstica*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Cmo funciona una red neuronal?capa 1

    capa 2

    capa l

    .....

    Red neuronalfeedforwardmulticapaRedes neuronales*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Redes neuronales La funcin de activacin da flexibilidad para que la respuesta de cada neurona pueda ser no lineal Los pesos w y los umbrales t determinan la forma en que la informacin es procesada por cada neurona El nmero de capas y de neuronas por capa definen la arquitectura de la red neuronal El algoritmo de aprendizaje por correccin de errores hacia atrs, back-propagation (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos. Hemos aprendido a aprender!*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Redes neuronalesT vs C CTcTCTTCEntrenamiento

    0. w y t aleatorios1. Introducir un ejempo (T)Output = T bienOutput = CerrorPropagar un cambio de w and t a travs de la red para reducir el error4.Repetir con todos los ejemplos varias vecesAprendizaje supervisado de T / CTRobusto UniversalSin sesgo*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Redes neuronalesBelgrado 19/04/1999Una red neuronal es entrenada con patrones de aviones

    La red detecta un avinmilitar escondido bajo unavin comercial*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • FinanzasData MiningDivorciosCienciaBancaReconocimientode patrones*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Tarjetas de crdito50000 clientes reciben la oferta

    Un red neuronal es entrenada conlas respuestas

    La red predice la respuesta de los450000 clientes restantes

    Un banco desea ofrecer una nueva tarjeta a sus clientesDepsitos SalarioEdad Sexo CrditosHipotecas Educacin S / NoRed neuronalEjemplos*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • EjemplosLift Chart% de clientes contactados% deRespuestas positivasretenidas*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • Promedios sobre redes entrenadas a partir de pesos aleatorios Si existe un modelo subyacente, las redes son equivalentesSi no existe un modelo subyacente, las redes producen dispersin Lanzamos 100 redes sobre datos entrenar/validar Para cada dato tenemos un promedio y una dispersin Descartamos 3 sigma

    AlarmasArbitraje.

    -1 sigma

    + 1sigma NNRealEjemplosSeries temporales de cotizaciones*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

  • EjemplosEstoy divorciado? Una red neuronal ha sido entrenada con

    rea del apartamento es relevante la virginidad? divorciado? salario s / no visitas de los suegros salud,..Acierto: 88%Matemticas / Filosofa 100%*Administracin de las Tecnologas de la Informacin *

    Administracin de las Tecnologas de la Informacin

    ************************************************Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *************Administracin de las Tecnologas de la Informacin Data MiningData MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *Data MiningAdministracin de las Tecnologas de la Informacin *