New platform, for new era

7
05/07/2013 1 EMC GreenPlum New Platform for New Era Luis Rodriguez Lima, 05 de julio de 2013 Las bases de datos OLTP tradicionales no están optimizadas para el tratamiento y análisis masivo de datos heterogéneos Según TDWI, el 50% de las organizaciones reemplazarán sus arquitecturas de Datawarehouse en los próximos tres años Source: TDWI Next Gen Database Study, 2010 No soporta análisis avanzado No puede manejar grandes volúmenes de datos Baja respuesta de consultas No soporta análisis avanzado Velocidad de carga inadecuada No es escalable a grandes volúmenes Altos costos de escalabilidad Soporte escaso para cargas en tiempo real o a demanda 45% 40% 39% 37% 33% 29% Las infraestructuras de análisis de datos, necesitan adaptarse para BIG DATA Alto Rendimiento Mantener el rendimiento cuando crecen los datos Modelos analíticos complejos Disminuir los tiempos de respuesta Velocidad de carga Escalabilidad a Petabytes Acceso Unificado Consolidación de fuentes de datos y métodos de acceso Estructurados y no- estructurados SQL, MapReduce, computación estadística, ELT,.. Herramientas de BI Análisis “in- database” Escalabilidad lineal, de pocos TB a Peta-bytes, Control de costes Sin elementos comunes ni cuellos de botella ¿Que es necesario para poder consolidar y analizar grandes volúmenes de datos?

description

 

Transcript of New platform, for new era

Page 1: New platform, for new era

05/07/2013

1

EMC GreenPlum

New Platform for New Era

Luis Rodriguez

Lima, 05 de julio de 2013

• Las bases de datos OLTP tradicionales no están

optimizadas para el tratamiento y análisis masivo de

datos heterogéneos

• Según TDWI, el 50% de las organizaciones

reemplazarán sus arquitecturas de Datawarehouse en

los próximos tres años

Source: TDWI Next Gen Database Study, 2010

No soporta análisis

avanzado

No puede manejar

grandes volúmenes

de datos

Baja respuesta de consultas

No soporta análisis avanzado

Velocidad de carga inadecuada

No es escalable a grandes volúmenes

Altos costos de escalabilidad

Soporte escaso para cargas en tiempo real o a demanda

45%

40%

39%

37%

33%

29%

Las infraestructuras de análisis de datos,

necesitan adaptarse para BIG DATA

Alto Rendimiento

• Mantener el

rendimiento cuando

crecen los datos

• Modelos analíticos

complejos

• Disminuir los

tiempos de

respuesta

• Velocidad de

carga

Escalabilidad a

Petabytes Acceso Unificado

• Consolidación de

fuentes de datos y

métodos de acceso

• Estructurados y no-

estructurados

• SQL, MapReduce,

computación

estadística, ELT,..

• Herramientas de BI

• Análisis “in-

database”

• Escalabilidad

lineal, de pocos

TB a Peta-bytes,

• Control de costes

• Sin elementos

comunes ni

cuellos de botella

¿Que es necesario para poder consolidar y

analizar grandes volúmenes de datos?

Page 2: New platform, for new era

05/07/2013

2

La arquitectura importa….

Page 3: New platform, for new era

05/07/2013

3

Componentes de la solución

• Base Datos

– Tecnología MPP

– Consultas complejas muy rápidas

– Carga de grandes volúmenes de datos

• Hadoop

– Sistema de archivos distribuidos

– Procesado y ejecución en paralelo

– Compatible con consultas SQL

– Integración 100% módulo de BD

• Entorno Colaborativo

– Creación de Datasets

– Consultas

Chorus

UAP Interoperability

GPHD data in/out

in GPDB Query

GPDB External Table

GPHD

File on

HDFS

Virtual Environment

Administrar Bases de Datos

Creación de tablas

Movimiento de Datos

Entorno Colaborativo

Análisis de datos

Autoservicio

Chorus

Page 4: New platform, for new era

05/07/2013

4

Greenplum Unified

Private/Hybrid Cloud Infrastructure or Appliance

Data Access & Query Layer

3rd Party/Partner Tools

Greenplum Chorus

Greenplum

Hadoop

Data

Scientist

Data

Engineer

Data

Analyst

Bl

Analyst LOB

User

Greenplum

Database

Data

Platform

Admin

DA

TA

SC

IEN

CE

TE

AM

All Data Types

SQL, MapReduce, C, Phyton…

Analytics Platform - UAP

Un stack completo para análisis de BIG DATA

Network

Interconnect

... ...

... ... Master

Servers

Query planning &

dispatch

Segment

Servers

Query processing &

data storage

External

Sources

Loading, streaming,

etc.

La Base de Datos

MPP de GreenPlum

tiene alta escalabilidad

Todos los nodos

pueden escanear y

procesar en paralelo

Escalabilidad lineal

simplemente

agregando nodos

EMC Greenplum - Características

MPP shared nothing

Polymorphic Table Storage ™

• Soporte para Information Lifecycle Management (ILM)

• Tipo de almacenamiento mixto para tablas y bases de datos

– Cutro tipos de tablas: heap, row-oriented AO, column-oriented, external

– Compresión: Gzip (Niveles 1-9), QuickLZ

• Permite elegir el modelo de procesamiento para cualquier tabla o particion

TABLA ‘CUSTOMER’

Mar ‘11

Apr ‘11

May ‘11

Jun ‘11

Jul ‘11

Aug ‘11

Sept ‘11

Oct ‘11

Nov ‘11

Orientado a filas: HOT DATA Orientado a columnas: COLD DATA

EMC Greenplum - Características

Page 5: New platform, for new era

05/07/2013

5

gNet Software Interconnect

ETL Servers

•Parallel-everywhere: Paralelismo para la carga de datos

•Los datos cargados desde cualquier fuente se distribuyen en

todos los nodos

•Carga de datos se realiza en todos los nodos en paralelo

•Soporta tanto cargas masivas por lotes, como cargas

incrementales en near-real time

EMC Greenplum - Caracteristicas

Fast Data Load

Master Server Data Protection

• Transaction logs replicados: En caso de falla del servidor

• RAID protection: Opcional en caso de fallo de disco

En caso de fallo del servidor

• Servidor de contingencia activo

• Alertas a los administradores

• Conmutación automatizada

Segment Server Data Protection • Segmentos en espejo en caso de fallas

• RAID protection: Opcional en caso de fallo de disco

En caso de fallo del servidor

• Segmentos en espejo toman la carga

• Recuperación diferencial en linea

Master

Segment Segment Segment Segment

Master

High Availability

EMC Greenplum - Características

Simple To Manage

• Greenplum Command Center

– Plataforma completa de administración y control

• Greenplum Package Manager

– Automatiza la instalación, desinstalación, actualización de extensiones

– Soporte a la migración y actualización de paquetes, recuperación de segmentos, expansión e inicialización

EMC Greenplum - Características

Page 6: New platform, for new era

05/07/2013

6

Opciones de Infraestructura para Greenplum

Data Computing Appliance: Escalabilidad modular

1st Rack

Add ¼ rack

Increments

Aggregation Rack

Add ¼ rack

Increments

Functional

Module

Functional

Module

Functional

Module

Greenplum

Database

(GPDB)

or

or

Greenplum

Database

(GPDB)

or

or

Functional

Module

Functional

Module

Functional

Module

Functional

Module GPDB

(required)

Infraestructura para Greenplum

Gracias por su atención

Page 7: New platform, for new era

05/07/2013

7

LATINOAMÉRICA [email protected]

Chile

Av. Presidente Errázuriz Nº 2999 - Oficina 202

Las Condes, Santiago CP 7550357

Tel: (+56) 2 892 0362

Colombia

Calle 100 No. 8A-55 Torre C. Of. 718

Bogotá

Tel: (+57 1) 616 77 96

México

Insurgentes Sur Nº 600 Of. 301 y 302,

Col. del Valle, Benito Juarez

Distrito Federal, México, 03100

Tel: (+52 55) 1107-0812

Perú

Calle Los Zorzales Nº 160, piso 9

San Isidro, Lima

Tel: (+51) 1634 4901

Argentina

Avenida Leandro N Alem 530, Piso 4

CD C100 1AAN Ciudad Autónoma de Buenos Aires

Tel: (+54) 11 4314 1370

www.powerdataam.com

Barcelona

C/ Frederic Mompou, 4B 1º, 3º

08960 Sant Just Desvern

T (+34) 934 45 60 01

Valencia

Edificio Europa - 5º I Avda, Aragón, 30

46021 Valencia

T (+34) 960 91 60 25

Madrid

C/ Miguel Yuste, 17, 4º C

28037 Madrid

T (+34) 911 29 72 97

[email protected] www.powerdata.es ESPAÑA