Comparativa herramientas etl

6
Comparativa herramientas ETL 1. 1. Comparativa Herramientas ETL JORGE BUSTILLOS 2014 2. 2. Tabla contenidos Introducción ¿Para que se utilizan herramientas ETL? ¿Por qué utilizar herramientas ETL? Herramientas ETL Pentaho Kettle Talend Informatica PowerCenter Inabplex Inaport IBM Cognos Data Manager Oracle Warehouse Builder Microsoft Integration Services Comparación Tabla comparativa Costo total de dominio Riesgos Facilidad de Uso Soporte Implementación Velocidad Calidad de la data Monitoreo Conectividad 3. 3. Introducción ¿Para que se utilizan herramientas ETL? ¿Por qué utilizar herramientas ETL? 4. 4. ¿Para que se utilizan herramientas ETL? Extraer data de varias fuentes de información (Legacy DB). Enviar data a: Un sistema optimizado de manejo de transacciones (nuevo gestor BD). Un sistema optimizado de reporte. Un sistema de análisis. Sincronizar información de distintas bases de datos. Depurado de información para remover errores Cargar información a un Data Warehouse 5. 5. ¿Por qué utilizar herramientas ETL? Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversión personalizados a desarrollar para migrar o concentrar al información. Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologías de Bases de Datos entre si. “Permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.” 6. 6. Herramientas ETL • Pentaho Kettle • Talend • Informatica PowerCenter • Inabplex Inaport • IBM Cognos Data Manager • Oracle Warehouse Builder • Microsoft Integration Services 7. 7. Pentaho Kettle Se utiliza a través de un acercamiento basado en meta datos, y tiene posee una GUI para acelerar los procesos. La compañía Pentaho

Transcript of Comparativa herramientas etl

Page 1: Comparativa herramientas etl

Comparativa herramientas ETL

1. 1. Comparativa Herramientas ETL JORGE BUSTILLOS 2014 2. 2. Tabla contenidos Introducción ¿Para que se utilizan herramientas ETL?

¿Por qué utilizar herramientas ETL? Herramientas ETL Pentaho Kettle Talend Informatica PowerCenter Inabplex Inaport IBM Cognos Data Manager Oracle Warehouse Builder Microsoft Integration Services Comparación Tabla comparativa Costo total de dominio Riesgos Facilidad de Uso Soporte Implementación Velocidad Calidad de la data Monitoreo Conectividad

3. 3. Introducción ¿Para que se utilizan herramientas ETL? ¿Por qué utilizar herramientas ETL?

4. 4. ¿Para que se utilizan herramientas ETL? Extraer data de varias fuentes de información (Legacy DB). Enviar data a: Un sistema optimizado de manejo de transacciones (nuevo gestor BD). Un sistema optimizado de reporte. Un sistema de análisis. Sincronizar información de distintas bases de datos. Depurado de información para remover errores Cargar información a un Data Warehouse

5. 5. ¿Por qué utilizar herramientas ETL? Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversión personalizados a desarrollar para migrar o concentrar al información. Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologías de Bases de Datos entre si. “Permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.”

6. 6. Herramientas ETL • Pentaho Kettle • Talend • Informatica PowerCenter • Inabplex Inaport • IBM Cognos Data Manager • Oracle Warehouse Builder • Microsoft Integration Services

7. 7. Pentaho Kettle Se utiliza a través de un acercamiento basado en meta datos, y tiene posee una GUI para acelerar los procesos. La compañía Pentaho empezó operaciones en el año 2001. Tiene una comunidad activa de usuarios grande, alrededor de 13,500 usuarios. Funciona utilizando Java, presentando como ventaja el ser una solución multiplataforma.

8. 8. Talend Talend es una herramienta OpenSource para la integración de información. Usa un enfoque hacia la generación de código para la manipulación de información y posee una GUI implementada en Eclipse RC. Lanzó su primera versión en el año 2006. Genera código en Java o Scripts en Pearl que pueden ser implementados en servidores que lo soporten. Cuenta con una gran variedad de testimonios por parte de compañías importantes.

9. 9. Informatica PowerCenter Informatica tiene una muy buena suite empresarial de integración de datos. Fue fundada en el año de 1993. Líder actual del sector Data Integration (Gartner Dataquest). Tiene alrededor de 2600 clientes, entre los cuales figuran Bancos como Grupo BBVA, organizaciones Gubernamentales, etc. La compañía se enfoca meramente en soluciones para la integración de datos.

10. 10. Inaplex Inaport Fundado en Reino Unido desde el año 2004 para satisfacer la migración de información hacia distintas soluciones CRM y software contable como Sage y Goldmine. Microsoft Dynamics CRM Sage CRM Solutions

Page 2: Comparativa herramientas etl

Family SalesLogix SageCRM ACT! by Sage GoldMine from FrontRange GoldMine Corporate and Premium

11. 11. IBM Cognos Data Manager IBM® Cognos Data Manager proporciona funciones dimensionales de extracción, transformación y carga (ETL) para conseguir una inteligencia empresarial de alto rendimiento. Se puede integrar con la GUI de IBM Data Manager Designer para diseñar y crear prototipos Se pueden ejecutar compilaciones y secuencias de trabajos en sistemas remotos desde un sistema de entorno de diseño de Data Manager. Data Manager Engine se tiene que instalar en un sistema UNIX o Linux.

12. 12. ORACLE DATABASE 11G ORACLE WAREHOUSE BUILDER ENTERPRISE ETL OPTION La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que puede ser adquirida con Oracle Warehouse Builder como parte de la edición empresarial del motor de base de datos. Permite ejecutar cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y transportable tablespaces. Permite prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL Es posible generar un modelo para configurar los ambientes de desarrollo, pruebas y producción a niveles separados

13. 13. Microsoft SQL Server Integration Services Puede extraer y transformar datos de diversos orígenes como archivos de datos XML, archivos planos y orígenes de datos relacionales y, después, cargar los datos en uno o varios destinos. Se pueden realizar tareas de migración fácilmente usando tareas visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts en c# o VB Puede conseguir conectividad mediante CLI vía DLLs tipo ensamblador.

14. 14. Comparación • Tabla comparativa • Costo total de dominio • Riesgos • Facilidad de Uso • Soporte • Implementación • Velocidad • Calidad de la data • Monitoreo • Conectividad

15. 15. Tabla comparativa TALEND KETTLE POWERCENTER INAPORT DATA MANAGER ORACLE WAREHOUSE SERVER INTEGRATION COSTO RIESGO FACILIDAD SOPORTE IMPLEMENTACIÓN VELOCIDAD CALIDAD DATA MONITOREO CONECTIVIDAD

16. 16. Costo total de dominio Significa el costo promedio de cierto producto. Desde costo de orden, licencia, servicio, soporte, entrenamiento, consultoría y cualquier otro pago adicional, que se tenga que realizar para el uso total. Las herramientas OpenSource son naturalmente gratis de utilizar, pero el soporte, entrenamiento y consultoría son los costos a considerar. OpenSource Propietario Código Propio

17. 17. Riesgos Siempre hay un riesgo cuando se habla de la manipulación de información almacenada. Sin embargo también se tienen que considerar los siguientes riesgos: Exceder presupuestos. Comprar licencias que no reditúen su valor. Exceder tiempos. Falta capacitación para uso de herramientas. No cumplir con requerimientos o expectativas.

18. 18. Facilidad de uso Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC. Kettle: Tiene la GUI más fácil de utilizar dentro de las alternativas OpenSource. PowerCenter: Tiene una GUI fácil de utilizar, pero requeriere entrenamiento para aprovecharla. Inaport: Se conecta directamente al CRM de importación. IBM: Se puede integrar con la GUI de IBM Data Manager Designer pero este es un módulo aparte. Oracle: Fácil cuando se trata de información almacenada en bases de datos Oracle, debido a las herramientas Data Pump y transportable tablespaces, pero no ofrece mucha compatibilidad a

Page 3: Comparativa herramientas etl

otras BD. Microsoft: Se pueden realizar tareas de migración fácilmente usando tareas visuales.

19. 19. Soporte Talend: Soporte de paga en estados unidos. Kettle: Soporte en EEUU, Reino Unido y consultorías asociadas. PowerCenter: Soporte mundial vía web y consultoría. Inaport: Soporte mundial vía web y consultoría. IBM: Soporte mundial contratando en paquete. Oracle: Vía soporte local Oracle Latinoamérica. Microsoft: Soporte vía plataforma TechNet.

20. 20. Implementación TALEND KETTLE POWERCENTER INAPORT DATA MANAGER ORACLE WAREHOUSE SERVER INTEGRATION PLATAFORMA Cualquier compatible con Java o Perl Cualquiera compatible con Java. SERVIDOR WINDOWS, HP-UX, IBM- UX, REDHAT, SOLARIS WINDOWS WINDOWS SERVER, SOLARIS, HP-UX, IBM- UX, REDHAT ORACLE LINUX, REDHAT, SUSE ENTERPRISE WINDOWS SERVER RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB CPU 1 GHZ 1 GHZ 4 + CORES 2GHZ 1GHZ 2GHZ x 2 cores Varía 2.2GHZ 2 CORES EXTRA Se puede conectar a Schedulers para automatizar cargas Puede utilizar Slave Servers REQUIERE .NET Parte de Cognos Business Intelligence Más información

21. 21. Velocidad Talend: Más lento que Pentaho Kettle y requiere configuración específica y manual, con conocimiento previo de la data a utilizar. Kettle: Más rápido que Talend, sin embargo al requerir de Java Database Connector disminuye la velocidad de transacciones. PowerCenter: Herramienta más rápida gracias a PushDown, sin embargo los cambios son en momento y no permite hacer Rollback a un estado anterior. Inaport: Utiliza una conexión directamente proporcional a la velocidad del CRM. IBM: Muy rápido cuando se trabaja con DB2 sin embargo la capa de compatibilidad disminuye la velocidad de conexión con distintos manejadores de base de datos. Oracle: La velocidad es proporcional al servicio Oracle en el cual este trabajando. Microsoft: La velocidad es proporcional al servicio MSSQL en el cual este trabajando.

22. 22. Calidad de Data Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias SQL personalizables utilizando Java. Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias SQL personalizadas así como herramientas JavaScript y REGEX para la depuración de información. PowerCenter: Ofrece DQ a través de otro producto llamado Informatica Data Quality. Inaport: Debido a la restricción del origen de información se pude realizar tareas de DQ dentro de la misma. IBM: Mediante Cognos Data Manager Packages se pueden incorporar herramientas para DQ. Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder Data Profiling Features. Microsoft: Requiere del software SQL Server Data Quality Services para ofrecer herramientas DQ.

23. 23. Monitoreo Talend: Tiene herramientas practicas de monitoreo y registro histórico. Kettle: Tiene herramientas practicas de monitoreo y registro histórico. PowerCenter: Tiene herramientas practicas y extensivas de monitoreo y registro histórico. Inaport: Tiene herramientas practicas de monitoreo y registro histórico. IBM: Maneja registro de históricos. Oracle: Tiene herramientas practicas y extensivas de monitoreo y registro histórico. Microsoft: Tiene herramientas practicas y extensivas de monitoreo y registro histórico.

Page 4: Comparativa herramientas etl

24. 24. Conectividad Talend: Varias bases de datos, archivos planos, xml, Excel, servicios web, necesita JDBC para conexión. Kettle: Varias bases de datos, archivos planos, xml, Excel, servicios web. PowerCenter: Varias bases de datos, archivos planos, xml, Excel, servicios web puede exportar como servicio web. Inaport: Cualquier conexión ODBC, MSSQL, OUTLOOK, ACT, EXCEL. IBM: Cualquier conexión ODBC, DB2, para importación a DB2, cubos de información T1MAP. Oracle: Solamente compatible con bases de datos Oracle mismas que la instalada en el DataWarehouse Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET

http://es.slideshare.net/JorgeCarlos3/comparativa-herramientas-etl