Osmius morfeo2010
-
Upload
joselu-marina -
Category
Documents
-
view
495 -
download
0
Transcript of Osmius morfeo2010
Osmius 10.07The OpenSource Monitoring Tool
José Luis Marina :: 2010 Osmius 10.07
Si no lo puedes medirno lo puedes mejorar.
Introducción::ÍndiceReinforcement Learning Bots
2Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Qué es Osmius?
Osmius te permite monitorizar y medir
cualquier cosa en red
Introducción::ÍndiceReinforcement Learning Bots
3Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Cualquier cosa?
● Desde el primer momento diseñado para:● Sistemas y Dispositivos de Red● Aplicaciones y Bases de Datos● Acciones de usuario
● Pero también para monitorizar:● El mundo Industrial: Sensores.● Consumos de Energía.● Nivel contaminación en el barrio.● Acciones en Bolsa.● Contador de Personas
Introducción::ÍndiceReinforcement Learning Bots
4Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Por qué Monitorizar?
● Desde el primer momento hemos diseñado para:● Sistemas y Dispositivos de Red● Aplicaciones y Bases de Datos● Acciones de usuario
● Pero también para monitorizar:● El mundo Industrial: Sensores.● Consumos de Energía.● Nivel contaminación en el barrio.● Acciones en Bolsa.● Contador de Personas
3 razones
Introducción::ÍndiceReinforcement Learning Bots
5Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Por qué Monitorizar?
1.- Medir el Estado en Tiempo Real
Enterarte de los problemas A ser posible antes de que te llame un usuario.
Introducción::ÍndiceReinforcement Learning Bots
6Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Por qué Monitorizar?
2.- Adelantarte a los problemas
Nos anticipamos a situaciones futuras no deseadas.Damos un buen servicio.
Introducción::ÍndiceReinforcement Learning Bots
7Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Por qué Monitorizar?
3.- Extraer información
Data mining e identificación de patrones¿Vamos a peor o vamos a mejor?¿Nos estamos quedan cortos de CPU en el correo?
Introducción::ÍndiceReinforcement Learning Bots
8Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Actores y Visiones
Negocio €
Tecnología
Osmius
Introducción::ÍndiceReinforcement Learning Bots
9Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Conceptos I
Instancias
Introducción::ÍndiceReinforcement Learning Bots
10Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Conceptos I
Instancia: Cualquier cosa que queramos monitorizar
Tipo o Clase de la Instancia: Qué tipo de preguntas le puedo hacer a la instanciaMySQL Database | Linux Server | Exchange Server
Tipo de los Eventos (las preguntas): Servidor Linux: Uso de CPU, Uptime, ...MySQL: # Usuarios Conectados, Slow Queries, ...
Parametros: Cada 10 segundos y con éstos umbrales para Warning y Critical
Event 1 :: Database Connections is: 250Event 2 :: Uptime is : 8h 30'
Event 1 :: Time to load Web is : 15 s
Event 1 :: CPU Load is : 80%
Introducción::ÍndiceReinforcement Learning Bots
11Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Conceptos II
Servicios
Introducción::ÍndiceReinforcement Learning Bots
12Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Conceptos II: Servicios
Servicio: Un grupo de Instancias cualesquiera.
Queridos usuarios,El servicio de publicación Wordpress no estará disponible de 15:00 a 17:00 porque actualizaremos la versión para mejorar su aspecto y sus funcionalidades.Este tiempo no contará como incumplimiento de ANS.
ANS – Acuerdo de Nivel de Servicio (SLA)Define los objetivos que tiene que cumplir un servicio.
La Intranet no puede caerse más de un 99.999% de tiempoHorario del Servicio
¿La Intranet presta servicio 24x7? ¿De 9:00 a 18:00? Los objetivos del servicio son DENTRO del horario Además: Paradas Planificadas
Introducción::ÍndiceReinforcement Learning Bots
13Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Firewall
Conceptos II: Servicios
IntranetDB
SLA – Service Level Agreement: Defines objetives to your services.
The Intranet cannot be down more than 99.999 of its time
Service Working Time Are we using the Intranet 24x7?
Services must acomplish SLAs within their Working Time Osmius also implements: Planned DownTimes
IntranetIntranet
OroOro PlataPlata
WordPress
WordPress
WikiMedia
WikiMediaPortalPortal
99.999 Up99.900 Ok
99.999 Up99.900 Ok
24x7 24x7 24x7
HostHomer Postgress Apache
WinHost
...
From M to FFrom 9 to 17
Objetivos oANS
Visiónpor Servicio
Visión por lnstancia(Técnica)
Eventos
Propagaciónpor reglas
Introducción::ÍndiceReinforcement Learning Bots
14Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo A
Pantalla de Eventos y manejo básico.Instancias, servicios, eventos y gráficas.
Introducción::ÍndiceReinforcement Learning Bots
15Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Tipos de Monitorización
Remota: Accedemos desde fuera (normalmente con usuario/clave)Se acerca más a la experiencia de usuarioPruebas y monitorizas la conectividad.
Agente WebAgente SSH
ANS – Acuerdo de Nivel de Servicio (SLA)Define los objetivos que tiene que cumplir un servicio.
La Intranet no puede caerse más de un 99.999% de tiempo
Horario del Servicio¿La Intranet presta servicio 24x7? ¿De 9:00 a 18:00?
Los objetivos del servicio son DENTRO del horario Además: Paradas Planificadas
Intrusiva: Accedemos desde dentro (agente)Tenemos acceso a más información (normalmente)Pruebas y monitorizas la conectividad.
Agente Linux o Agente de Log
Introducción::ÍndiceReinforcement Learning Bots
16Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
MA
AG1
AGn
MA
Architectura de Osmius
With Osmius you can:
● Monitor thousands of devices in Real Time.● Align IT with the Business (SLA Management).● Data Mining and Business Intelligence.● Use the power of GIS to see/analyze data.● Monitor new “things” in minutes.● Send automatic notifications to the staff.● Predict Capacity shortages (ITIL).● Access ALL the code and documentation.
AG1
AGn
Agente MaestroPunto central desde el quemonitorizar y desplegaragentes.Desde 1 a N agentes
MA
AG1
AGn
CS
Central ServerProcesos que reciben y correlacionan los eventosy los que envía tareas.
MySql
SSL
Base de DatosModelo de Datos abiertoy documentado.60.000 eventos/minuto
TomCat
J2EE
Consola WebArquitectura J2EEComunicación con DBWebServices
InstancesLo que queremosmonitorizar.
AgenteSe especializa en un tipode instancia concreto.MySQL, Linux, Web,..
Introducción::ÍndiceReinforcement Learning Bots
17Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
MA
AG1
AGn
MA
AG1
AGn
Master AgentC++ & ACEMultiplatformaPersistent QueuesTolerante a Fallos
MA
AG1
AGn
CS
Central ServerC++ & ACE & MySql APIRapidez y robustez.Multiplataforma.
MySql
SSL
DataBaseNormalizada.“Explain” de todas QueryProcedimientos Alm
TomCat
J2EE
Consola WebJava J2EESprings – HibernateOpenLayersGrails & Groovy
InstancesPreferimos APIsReutilización de conexiones.
AgentesC++ & ACEAPI (MySql, Curl,etc)Only new code
Tecnología
Introducción::ÍndiceReinforcement Learning Bots
18Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo B
Instalar agente Maestro en Servidor Remoto
Introducción::ÍndiceReinforcement Learning Bots
19Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo CMonitoricemos la WikiMedia
MySql
Linux
Web
WikiMediaWikiMedia
Reutilizamos script propio
Introducción::ÍndiceReinforcement Learning Bots
20Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo DMonitoricemos la Web de Morfeo desde dos lugares físicos diferentes
www.morfeoproject.org
Introducción::ÍndiceReinforcement Learning Bots
21Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo E
Mapas GISWidgets (Primicia Mundial)
Introducción::ÍndiceReinforcement Learning Bots
22Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Notificaciones
How to deal with millions of events? ● Round Robin Database for the individual events.
You don't need to know wich was the exact CPU load on 01012008 at 8:00.The older the data the lesser the detail you need.
● Integrated Data WarehouseSpecific Osmius processes to aggregate daily info (seconds in each state, etc)
● Silent ModeEvents in “silent mode” are only sent when there are changes in the Severity.“Send me the Temperature only when it raises 30 C”Prevents network and storage resources starvation.
Notificaciones y Subscripciones
email
SMS....
Service Availability Changes
Instance State Change
Subscribe to Reports
Working time
Not Working time
Out of officeJabber
Global Mark
IntranetIntranet
eCommeComm
whenusing
Con las notificaciones permitimos hacer una monitorización:SelectivaPor otros canales (además de la consola de Eventos)Añadir un retardo (sólo cuando se mantenga el problema)
Introducción::ÍndiceReinforcement Learning Bots
23Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
¿Vemos Osmius?
Demo F
Notificaciones
Introducción::ÍndiceReinforcement Learning Bots
24Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Almacenamiento
Almacenamiento – Data Warehouse – Business Intelligence: Osmius guarda para cada Instancia y Servicio cuántos segundos ha pasado arriba o abajo.
S1S1
SLA – Service Level Agreement: Defines objetives to your services.
The Intranet cannot be down more than 99.999 of its time
SLASLA
Service Working Time Are we using the Intranet 24x7?
Services must acomplish SLAs within their Working Time Osmius also implements: Planned DownTimes
SnSn
Nota GlobalSe calcula en función de los estados de cada servicio y el SLA al que pertenencen.Es una instantánea de cómo estamos,
Y además gurada los datos de cada evento.
CPU Load
Introducción::ÍndiceReinforcement Learning Bots
25Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Almacenamiento
¿Cómo hacemos para almacenar millones de eventos? ● Round Robin Database.
No necesitamos saber la carga exacta de CPU el día 1 de enero de 2008 a las 8:00.Cuanto más antiguos sean los datos menos detalle necesitamos.
● Capacidades Integradas Data WarehouseExisten procesos batch que se encargan de los cálculos y agregaciones pesadas.
● Modo Silencioso.Lo eventos en “silent mode” sólo se envían cuando cambia la criticidad.“Monitoriza la temperatura cada 5 segundos pero sólo me la envías cuando supere 30 C”Ahorra recursos de red y previene cuellos de botella.
Introducción::ÍndiceReinforcement Learning Bots
26Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Rendimiento
¿Cómo hacemos para almacenar millones de eventos? ● Round Robin Database.
No necesitamos saber la carga exacta de CPU el día 1 de enero de 2008 a las 8:00.Cuanto más antiguos sean los datos menos detalle necesitamos.
● Capacidades Integradas Data WarehouseExisten procesos batch que se encargan de los cálculos y agregaciones pesadas.
● Modo Silencioso.Lo eventos en “silent mode” sólo se envían cuando cambia la criticidad.“Monitoriza la temperatura cada 5 segundos pero sólo me la envías cuando supere 30 C”Ahorra recursos de red y previene cuellos de botella.
Algunos DatosEn una máquina con un Intel Core Duo a 2,5 GHz Osmius es capaz de:
● Procesar 60.000 eventos por minuto.● Almacenar millones de eventos.● Monitorizar miles de instancias.● Controlar ANS de miles de servicios.● Desplegar 500 agentes en menos de 3 minutos.
Más: http://www.osmius.com/osmwiki/doku.php?id=requerimientos:indice#rendimiento
Introducción::ÍndiceReinforcement Learning Bots
27Osmius 10.07: Professional Monitoring José Luis Marina Morfeo TI+D 2010
Ventajas
● Gestionar miles de instancias y millones de eventos.● Integra Gestión de ANS e ITIL.● Administración Centralizada.● Herramientas de Business Intelligence.● Motor de GIS y ampliable mediante Widgets.● Software Libre: GPL sin “doble” versionado.● Buena Documentación.
24
Introducción
¿Preguntas?
Manuel Guillermo Fraga – César Silgo – José Luis Marina – 2010 para Morfeo Project