Osmius morfeo2010

28
Osmius 10.07 The OpenSource Monitoring Tool José Luis Marina :: 2010 Osmius 10.07 Si no lo puedes medir no lo puedes mejorar.

Transcript of Osmius morfeo2010

Page 1: Osmius morfeo2010

Osmius 10.07The OpenSource Monitoring Tool

José Luis Marina :: 2010 Osmius 10.07

Si no lo puedes medirno lo puedes mejorar.

Page 2: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

2Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Qué es Osmius?

Osmius te permite monitorizar y medir

cualquier cosa en red

Page 3: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

3Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Cualquier cosa?

● Desde el primer momento diseñado para:● Sistemas y Dispositivos de Red● Aplicaciones y Bases de Datos● Acciones de usuario

● Pero también para monitorizar:● El mundo Industrial: Sensores.● Consumos de Energía.● Nivel contaminación en el barrio.● Acciones en Bolsa.● Contador de Personas

Page 4: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

4Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Por qué Monitorizar?

● Desde el primer momento hemos diseñado para:● Sistemas y Dispositivos de Red● Aplicaciones y Bases de Datos● Acciones de usuario

● Pero también para monitorizar:● El mundo Industrial: Sensores.● Consumos de Energía.● Nivel contaminación en el barrio.● Acciones en Bolsa.● Contador de Personas

3 razones

Page 5: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

5Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Por qué Monitorizar?

1.- Medir el Estado en Tiempo Real

Enterarte de los problemas A ser posible antes de que te llame un usuario.

Page 6: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

6Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Por qué Monitorizar?

2.- Adelantarte a los problemas

Nos anticipamos a situaciones futuras no deseadas.Damos un buen servicio.

Page 7: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

7Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Por qué Monitorizar?

3.- Extraer información

Data mining e identificación de patrones¿Vamos a peor o vamos a mejor?¿Nos estamos quedan cortos de CPU en el correo?

Page 8: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

8Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Actores y Visiones

Negocio      €

Tecnología

Osmius

Page 9: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

9Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Conceptos I

Instancias

Page 10: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

10Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Conceptos I

Instancia: Cualquier cosa que queramos monitorizar

Tipo o Clase de la Instancia: Qué tipo de preguntas le puedo hacer a la instanciaMySQL Database | Linux Server | Exchange Server

Tipo de los Eventos (las preguntas): Servidor Linux: Uso de CPU, Uptime, ...MySQL: # Usuarios Conectados, Slow Queries, ...

Parametros: Cada 10 segundos y con éstos umbrales para Warning y Critical 

Event 1 :: Database Connections is: 250Event 2 :: Uptime is                         : 8h 30'

Event 1 :: Time to load Web is        : 15 s

Event 1 :: CPU Load is                    : 80%

Page 11: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

11Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Conceptos II

Servicios

Page 12: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

12Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Conceptos II: Servicios

Servicio: Un grupo de Instancias cualesquiera.

Queridos usuarios,El servicio de publicación Wordpress no estará disponible de 15:00 a 17:00 porque actualizaremos la versión para mejorar su aspecto y sus funcionalidades.Este tiempo no contará como incumplimiento de ANS.

ANS – Acuerdo de Nivel de Servicio (SLA)Define los objetivos que tiene que cumplir un servicio.

      La Intranet no puede caerse más de un  99.999% de tiempoHorario del Servicio

¿La Intranet presta servicio 24x7? ¿De 9:00 a 18:00?     Los objetivos del servicio son DENTRO del horario     Además: Paradas Planificadas

Page 13: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

13Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Firewall

Conceptos II: Servicios

IntranetDB

SLA – Service Level Agreement: Defines objetives to your services.

      The Intranet cannot be down more than 99.999 of its time

Service Working Time Are we using the Intranet 24x7?

     Services must acomplish SLAs within their Working Time     Osmius also implements: Planned DownTimes

IntranetIntranet

OroOro PlataPlata

WordPress

WordPress

WikiMedia

WikiMediaPortalPortal

99.999 Up99.900 Ok

99.999 Up99.900 Ok

24x7 24x7 24x7

HostHomer Postgress Apache

WinHost

...

From M to FFrom 9 to 17

Objetivos oANS

Visiónpor Servicio

Visión por lnstancia(Técnica)

­­­­­­­­­­­ Eventos ­­­­­­­­­­­­

Propagaciónpor reglas

Page 14: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

14Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo A

Pantalla de Eventos y manejo básico.Instancias, servicios, eventos y gráficas.

Page 15: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

15Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Tipos de Monitorización

Remota: Accedemos desde fuera (normalmente con usuario/clave)Se acerca más a la experiencia de usuarioPruebas y monitorizas la conectividad.

Agente WebAgente SSH

ANS – Acuerdo de Nivel de Servicio (SLA)Define los objetivos que tiene que cumplir un servicio.

      La Intranet no puede caerse más de un  99.999% de tiempo

Horario del Servicio¿La Intranet presta servicio 24x7? ¿De 9:00 a 18:00?

     Los objetivos del servicio son DENTRO del horario     Además: Paradas Planificadas

Intrusiva: Accedemos desde dentro (agente)Tenemos acceso a más información (normalmente)Pruebas y monitorizas la conectividad.

Agente Linux o Agente de Log

Page 16: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

16Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

MA

AG1

AGn

MA

Architectura de Osmius

With Osmius you can:

● Monitor thousands of devices in Real Time.● Align IT with the Business (SLA Management).● Data Mining and Business Intelligence.● Use the power of GIS to see/analyze data.● Monitor new “things” in minutes.● Send automatic notifications to the staff.● Predict Capacity shortages (ITIL).● Access ALL the code and documentation.

AG1

AGn

Agente MaestroPunto central desde el quemonitorizar y desplegaragentes.Desde 1 a N agentes

MA

AG1

AGn

CS

Central ServerProcesos que reciben y correlacionan los eventosy los que envía tareas.

MySql

SSL

Base de DatosModelo de Datos abiertoy documentado.60.000 eventos/minuto

TomCat

J2EE

Consola WebArquitectura J2EEComunicación con DBWebServices

InstancesLo que queremosmonitorizar. 

AgenteSe especializa en un tipode instancia concreto.MySQL, Linux, Web,..

Page 17: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

17Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

MA

AG1

AGn

MA

AG1

AGn

Master AgentC++ & ACEMultiplatformaPersistent QueuesTolerante a Fallos

MA

AG1

AGn

CS

Central ServerC++ & ACE & MySql APIRapidez y robustez.Multiplataforma.

MySql

SSL

DataBaseNormalizada.“Explain” de todas QueryProcedimientos Alm

TomCat

J2EE

Consola WebJava J2EESprings – HibernateOpenLayersGrails & Groovy

InstancesPreferimos APIsReutilización de conexiones.

AgentesC++ & ACEAPI (MySql, Curl,etc)Only new code

Tecnología

Page 18: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

18Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo B

Instalar agente Maestro en Servidor Remoto

Page 19: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

19Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo CMonitoricemos la WikiMedia

MySql

Linux

Web

WikiMediaWikiMedia

Reutilizamos script propio

Page 20: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

20Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo DMonitoricemos la Web de Morfeo desde dos lugares físicos diferentes

www.morfeo­project.org

Page 21: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

21Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo E

Mapas GISWidgets (Primicia Mundial)

Page 22: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

22Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Notificaciones

How to deal with millions of events? ● Round Robin Database for the individual events.

You don't need to know wich was the exact CPU load on 01­01­2008 at 8:00.The older the data the lesser the detail you need.

● Integrated Data WarehouseSpecific Osmius processes to aggregate daily info (seconds in each state, etc)

● Silent ModeEvents in “silent mode” are only sent when there are changes in the Severity.“Send me the Temperature only when it raises 30 C”Prevents network and storage resources starvation.

Notificaciones y Subscripciones

e­mail

SMS....

Service Availability Changes

Instance State Change

Subscribe to Reports

Working time

Not Working time

Out of officeJabber

Global Mark

IntranetIntranet

eCommeComm

whenusing

Con las notificaciones permitimos hacer una monitorización:SelectivaPor otros canales (además de la consola de Eventos)Añadir un retardo (sólo cuando se mantenga el problema)

Page 23: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

23Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

¿Vemos Osmius?

Demo F

Notificaciones

Page 24: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

24Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Almacenamiento

Almacenamiento – Data Warehouse – Business Intelligence: Osmius guarda para cada Instancia y Servicio cuántos segundos ha pasado arriba o abajo.

S1S1

SLA – Service Level Agreement: Defines objetives to your services.

      The Intranet cannot be down more than 99.999 of its time

SLASLA

Service Working Time Are we using the Intranet 24x7?

     Services must acomplish SLAs within their Working Time     Osmius also implements: Planned DownTimes

SnSn

Nota GlobalSe calcula en función de los estados de cada servicio y el SLA al que pertenencen.Es una instantánea de cómo estamos,  

Y además gurada los datos de cada evento.

CPU Load

Page 25: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

25Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Almacenamiento

¿Cómo hacemos para almacenar millones de eventos? ● Round Robin Database.

No necesitamos saber la carga exacta de CPU el día 1 de enero de 2008 a las 8:00.Cuanto más antiguos sean los datos menos detalle necesitamos.

● Capacidades Integradas Data WarehouseExisten procesos batch que se encargan de los cálculos y agregaciones pesadas.

● Modo Silencioso.Lo eventos en “silent mode” sólo se envían cuando cambia la criticidad.“Monitoriza la temperatura cada 5 segundos pero sólo me la envías cuando supere 30 C”Ahorra recursos de red y previene cuellos de botella.

Page 26: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

26Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Rendimiento

¿Cómo hacemos para almacenar millones de eventos? ● Round Robin Database.

No necesitamos saber la carga exacta de CPU el día 1 de enero de 2008 a las 8:00.Cuanto más antiguos sean los datos menos detalle necesitamos.

● Capacidades Integradas Data WarehouseExisten procesos batch que se encargan de los cálculos y agregaciones pesadas.

● Modo Silencioso.Lo eventos en “silent mode” sólo se envían cuando cambia la criticidad.“Monitoriza la temperatura cada 5 segundos pero sólo me la envías cuando supere 30 C”Ahorra recursos de red y previene cuellos de botella.

Algunos DatosEn una máquina con un Intel Core Duo a 2,5 GHz Osmius es capaz de:

● Procesar 60.000 eventos por minuto.● Almacenar millones de eventos.● Monitorizar miles de instancias.● Controlar ANS de miles de servicios.● Desplegar 500 agentes en menos de 3 minutos.

Más: http://www.osmius.com/osmwiki/doku.php?id=requerimientos:indice#rendimiento

Page 27: Osmius morfeo2010

Introducción::ÍndiceReinforcement Learning Bots

27Osmius 10.07: Professional Monitoring José Luis Marina­ Morfeo TI+D 2010

Ventajas

● Gestionar miles de instancias y millones de eventos.● Integra Gestión de ANS e ITIL.● Administración Centralizada.● Herramientas de Business Intelligence.● Motor de GIS y ampliable mediante Widgets.● Software Libre: GPL sin “doble” versionado.● Buena Documentación.

Page 28: Osmius morfeo2010

24

Introducción

¿Preguntas?

Manuel Guillermo Fraga – César Silgo – José Luis Marina – 2010 para Morfeo Project