Post on 02-Aug-2015
Plataformas Analíticas como Soporte en la era del Big Data
Kesber Angulo SánchezConsultor de ProyectosInformese Ltda. Suc. Perú
#ExperienciaAnalítica2015
Agenda
• Big Data
• Big Data Analytics
• El Análisis de Entidades
• La propuesta de IBM• IBM SPSS Analytics
#ExperienciaAnalítica2015
Servicios públicos
Comercio al detalle
Aplicación de la ley
Transporte
Servicios financieros
TI
Telecomunicaciones
Muchas áreas de oportunidad
Salud y Ciencia
#ExperienciaAnalítica2015
Servicios Financieros
Predecir comportamiento de cliente.
PLA, identificar fraudes 360° vista del Cliente
Estudio de las colas largas de actividad de transacciones. Análisis de los logs de datos para auditoría interna y cumplimiento.Sistemas de recomendaciónAnálisis de Entidades
Muchas áreas de oportunidad
#ExperienciaAnalítica2015
Big Data se define como el conjunto de herramientas informáticas destinadas a la
manipulación, gestión y análisis de grandes volúmenes de datos de todo tipo los cuales no pueden ser gestionados por las herramientas
informáticas tradicionales.
BIG DATA
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 17
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos
Hadoop es capaz de almacenar toda clase de datos:
estructurados, no estructurados, semiestructurados; archivos de
registro, imágenes, video, audio, comunicación, etc.
¿Qué es HADOOP?
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 18
Sistema de fichero distribuido, escalabilidad y disponibilidad debido a la replicación de los datos y tolerancia a fallos.
Arquitectura:
Proceso batch creado para el proceso distribuido de los datos. Permite paralelizar el trabajo sobre los grandes volúmenes de datos.
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 19
Arquitectura de HadoopQuery es enviado
al nodo master
Nodo Master usa el proceso “Map” para
asignar los sub-job a los nodos esclavos
Nodos Esclavos pueden aun asignar a otros nodos
esclavos
Los sub-job son ejecutados en paralelo en cada nodo en
los cluster contra los datos en los nodos locales
Los esclavos completan su trabajo y devuelven los
resultados al nodo maestro
El nodo maestro “ensambla” los resultados usan el proceso “Reduce”
Usuario envía un query via una
interface/aplicación
Datos es dividido y almacenado en
HDFS
Datos en HDFS es distribuido en
numerosos nodos (sistema
tolerante a fallos)
HDFS tiene un nodo maestro y
numerosos nodos esclavos
Nodo Maestro almacena el meta
dato y nodos esclavos los
bloques de datos
Nodo Maestro y nodos
esclavos/datos residen en sevidores
commodity
Cada nodo/servidor ofrece
almacenamiento y procesamiento local
Social Feeds
GIS Data
Imagenes
Social Feeds
World Events
Documents, XML
Email, otros no-
estr.
Logs Auditoria
Market Events
Web logs
Data Fields, RFID
CCTV Footage
Name Node & Job Tracker
(master)
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 22
Big data analytics is the process of examining big data to uncover hidden patterns, unknown correlations and other useful
information that can be used to make better decisions.
With big data analytics, data scientists and others can analyze huge volumes of data that conventional analytics and business
intelligence solutions can't touch.
Big Data Analytics
#ExperienciaAnalítica2015
La cuarta “V”: La Veracidad
• Nivel de fiabilidad
• Requisito y reto importante
• La imprevisibilidad no se puede eliminar
#ExperienciaAnalítica2015
Un problema…
¿Cómo toma esa decisión?
¿Es posible cuantificar ese riesgo?
¿Qué fuentes dispone?
¿Cuán confiables son?
#ExperienciaAnalítica2015
Información en contexto…y acumulado
Bases de datos
judicialesjoseT@spss.com
Perfil Redes Sociales
Centrales deRiesgo
Base de datos clientes
Bases de datos migraciones
#ExperienciaAnalítica2015
Entity Analytics
El análisis de entidades se centra en mejorar la coherencia de los datos actuales mediante la resolución de conflictos de identidades dentro de los
propios registros.
#ExperienciaAnalítica2015
¿Cómo se puede aplicar?
• Fraude• Reclamaciones de seguros• Solicitud de prestamos• Cobro de cheque en ventanillas
• Reclutamiento e investigación• Contratación de funcionarios.• Investigación de declaraciones.
• Calidad de datos• Unificación de la cartera de clientes
#ExperienciaAnalítica2015
De esa forma…
Mr. Joseph Carbella55 Church StreetNew York, NY 10007Tel#: 212-693-5312DOB: 07/08/66SID#: 068588345DL#: 544 210 836
ACCT # 2310322
DDA
Registros Civiles Dep.
#ExperienciaAnalítica2015
Mr. Joseph Carbella55 Church StreetNew York, NY 10007Tel#: 212-693-5312DOB: 07/08/66SID#: 068588345DL#: 544 210 836
ACCT # 2310322
DDA
Mr. Joe JonesAPT 4909Bethesda, MD 20814Tel#: 978-365-6631DOB: 09/07/66TRUST FUND
Mr. Joe Carbello1 Bourne StClinton MA 01510TEL#: 978-365-6631 DL#: 544 210 836DOB: 07/09/66
ACCT #3292322
CREDIT CARDS
Mr. Joey Carbello555 Church AveNew York, NY 10070Tel#: 212-693-5312 DL#: 544 210 836
PPN#: 086588345
ACCT #494202
MORTGAGE Coincidencia Cercana
Coincidencia Exacta
De esa forma…Registros
Civiles Dep.
RegistrosPúblicos
Ente Recaudador
Seguro Social
#ExperienciaAnalítica2015
EA les permitirá… Personas, Asociaciones
políticas, empresas.
Se pueden agregar nuevas entidades y características
IBM SPSS Única tecnología comercial de este tipo que se puede desplegar el mismo día que se instala.
En Resumen…
#ExperienciaAnalítica2015
BI / Reporting
BI / Reporting
Exploration / Visualization
FunctionalApp
IndustryApp
Predictive Analytics
Content Analytics
Analytic Applications
IBM Big Data Platform
Systems Management
Application Development
Visualization & Discovery
Accelerators
Information Integration, Data Quality & Governance
HadoopSystem
Stream Computing
Data Warehouse
Volume, Variety
Cost-effectively process and analyze any type of data
Velocity
Analyze data-in-motion to produce insights in micro-seconds
Visibility
Understand, find, and navigate federated big data
Volume
Purpose-built offerings
High-performance appliances and software
Veracity
Trusted information
Parallel processing for high-volume integration
Analytics
Analyze, predict and automate for more accurate answers
Estrategia de IBM Big Data
#ExperienciaAnalítica2015
BI / Reportin
g
BI / Reporting
Exploration / Visualization
FunctionalApp
IndustryApp
Predictive Analytics
Content Analytics
Analytic Applications
IBM Big Data Platform
Systems Management
Application Development
Visualization & Discovery
Accelerators
Information Integration, Data Quality & Governance
HadoopSystem
Stream Computing
Master Data Management
Databases & Tools
Data Warehouse
IBM proporciona una plataforma complete para soportar esta evolución.
Visualization & Discovery
HadoopSystem
Volume, Variety
• InfoSphere BigInsights
• Pure Data for Hadoop
Velocity
• InfoSphere Streams
Visibility
InfoSphere Data Explorer
Data Warehouse
Volume
• Pure Data for Analytics
• DB2 BLU
• InfoSphere Warehouse
Veracity
• IBM InfoSphere Information Server
• Data Quality
Analytics
• Cognos BI (in-memory)• Cognos Real-Time• SPSS Modeler• SPSS Analytic Server• Social Media Analytics
#ExperienciaAnalítica2015
• SPSS Modeler
• SPSS C&D Services
• SPSS Analytic Server
• SPSS Analytic Catalyst (*)
Plataforma IBM SPSS: Integran a Big Data
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 42
IBM SPSS Collaboration & Deployment (C&D)
▪ Colaborativo– Comparte y almacene rutas,
modelos o resultados.– Trabajar con multiples fuentes
de datos (históricas y en tiempo real)
Automatizado– Programe modelos analíticos
basado en tiempo o eventos– Controle procesos analiticos y
auditelos.– Actualice y reconstruya
modelos para asegurar el rendimiento.
Despligue– Implemente analitica con sus
procesos de negocios– Calificación en tiempo real o
por lotes
#ExperienciaAnalítica2015
• Permite aprovechar los datos almacenados en Hadoop mediante el uso de IBM SPSS Modeler, permitiendo capacidades de Big Data Analytics.
• Proporciona:• Soporte para las diversas distribuciones de Hadoop
(InfoSphereBigInsigths, Cloudera, Hortonsworks y Apache)• Interface que permite incorporar algoritmos estadísticos diseñados
para ir a los datos.• Una interface familiar que oculta el entorno de big data para que
el analista se enfoque en analizar los datos.• Una solución escalable a problemas de casi cualquier tamaño.
IBM SPSS Analytic Server
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 44
IBM SPSS Analytic Server
Big DataRequest
Stream File
Modeler Client Modeler Server
IBM SPSS Modeler
IBM SPSSAnalytic Server
Hadoop Job
Analytics
IBM InfoSphere BigInsights& Other Hadoop Distributions
Relational Database
SQL / UDF
IBM SPSS Analytic Catalyst
Analytic CatalystBrowser Client
Analytic CatalystTablet Client
Watson Analytics
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica 45
• Proporciona una plataforma analítica predictiva integrada y accesible que fue diseñada para big data.
• Distribución de procesamiento analítico en ambientes de Hadoop con soporte para IBM InfoSphere BigInsights, Cloudera, Hortonworks y Apache
• Permite a los usuarios acceder a data estructurada y no estructurada (RDBMS, Hadoop, social media, etc).
IBM SPSS Modeler y Analytic Server
#ExperienciaAnalítica2015
Ejemplo de IBM SPSS Modeler con IBM SPSS Analytic Server mostrando la integración con R.
#ExperienciaAnalítica2015
• Necesidad:• Evitar los casos de fraude mediante una
aplicación que pueda hacerlo en tiempo real.• Manejan información a través de PC,
teléfonos como medios de pago en miles de sitios web.
• Poder predecir donde podría suceder fraude antes que…en alguno de los 90MM de navegadores conectados al sitio en un día dado.
• Situación Actual:• PayPal maneja filtros de administración de
fraudes: revisión por su monto, origen u otros factores.
• PayPal (y Amazon) desarrollaron herramientas que dependen de grandes conjuntos de datos (IP, información del navegador, y demás datos técnicos para refinar los modelos para predecir, identificar y prevenir actividades fraudulentas.
#ExperienciaAnalítica2015
• Firma global de servicios financieros estadounidense, sede New York.
• 42 países, + 1300 oficinas, + 60K empleados.
• Corporaciones multinacionales, gobiernos, instituciones financieras y particulares.
• + US$ 300MM en activos
• Hadoop desde 2010
• Usan Hadoop para rastrear toda su web y bases de datos en busca de registros que indiquen la posibilidad de que aparezca cualquier problema…Los problemas se descubren en tiempo real y se dispone de la trazabilidad completa sobre: quien hizo que, cómo, cuándo y qué causo el problema.
• Morgan Stanley Smith Barney (MSSB), creada 2009 y gestiona 1.7 trillones de dólares en activos para los 4M de clientes.
• Recomienda sus inversiones en acciones, bonos, y renta fija.
• Informes de analistas, datos públicos y sociales.
• Todo se emplea en recomendaciones de comprar y vender accione sobre la base de las posiciones en tiempo real y las condiciones del mercado.