Herramientas de usuario

Herramientas del sitio


capacitaciones:monitoreo

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Última revisiónAmbos lados, revisión siguiente
capacitaciones:monitoreo [2015/04/28 19:34] – [Documentación de SLA] cayucapacitaciones:monitoreo [2015/06/02 14:13] – [Costo por caída de Servicio] cayu
Línea 55: Línea 55:
 Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente. Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.
 === Objetivos === === Objetivos ===
-Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas.+Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.
  
 Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios. Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.
 +
 +Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.
 +
 +**Con lo cual podremos concluir si el sistema :**
 +
 +    * Lleva a cabo eficazmente su finalidad
 +    * Utiliza eficientemente los recursos.
 +
 +**Para :**
 +
 +    * Optimizar los Procesos
 +    * Reducir Costos Operativos
 +    * Llevar a cabo un mejoramiento del Control de Calidad
 +        * Minimizar Tiempos => $$$$
 +
 +**Ya que podemos :**
 +
 +    * Detectar de forma sistemática el uso de los recursos y los flujos de información dentro de una organización.
 +    * Determinar qué información es crítica para el cumplimiento de su misión y objetivos, identificando necesidades, duplicidades, costos, valor y barreras, que obstaculizan flujos de información eficientes.
 +    * Análizar de eficiencia del sistema.
 +    * Verificar el cumplimiento de Normativas.
 +    * Revisión de la gestión de recursos.
 +
 +**Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :**
 +
 +    * Fortalecer bases de información para grupos y personas de apoyo que trabajan con los sistemas.
 +
 +**Puntos principales a tener en cuenta :**
 +
 +    * Aplicación estable para entornos productivos.
 +    * Licencia de código abierto.
 +    * Debe monitorear equipos idenpendientemente de sistemas operativos : Windows, Linux, Unix, CISCO iOS. 
 +    * Generar alertas cuando se identifican incidencias.
 +    * Los datos se deben poder exportar para su posterior análisis. 
 +    * El sistema debe poder trabajar tanto con agentes instalados en los equipos clientes como sin ellos.
 +    * Poder generar complementos (plugs in) independientemente del lenguaje de programación o ubicación de los mismos.
 +    * Documentación suficiente y clara disponible del sistema de monitoreo. 
 +    * El sistema debe tener una comunidad que lo respalde y preferentemente empresas.
 +    * El sistema debe ser muy conocido o utilizado. Existencia de empresas clientes o usuarios a los que se puede referenciar.
 +    * Actualizaciones regulares.
 +
 +**Como adicional debemos cubrir :**
 +
 +  * Necesidades de Automatización, Instrumentación y Optimización de los procesos industriales.
 +
 +**Gestión proactiva para alcanzar los objetivos organizacionales**
 +
 +Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.
 +
 +La **Gestión de Problemas** puede ser:
 +
 +  * **Reactiva:** Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
 +  * **Proactiva:** Monitorea la calidad de la infraestructura TI. Analiza los Registros de Incidentes y configuraciones utilizando datos de otros procesos de Gestión del Servicio de TI para identificar tendencias o problemas significativos con el objetivo de prevenir incidentes incluso antes de que estos ocurran.
 +
 +Cuando se produce un problema que genera una anomália estamos ante una incidencia. La **Gestión de Incidencias** tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.
 +
 +La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.
  
 Para esto deben haber fuentes que nos permitan generar **indicadores**. Para esto deben haber fuentes que nos permitan generar **indicadores**.
Línea 167: Línea 224:
   * Desventajas   * Desventajas
     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.
 +
 +
 ==== Que chequear y como hacerlo ==== ==== Que chequear y como hacerlo ====
 === Capas a chequear === === Capas a chequear ===
Línea 192: Línea 251:
     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.
       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.
 +=== Notificaciones ===
 +== Tipo edicto ==
 +Edicto tiene su origen en el latín //proclamar en voz alta//. Podemos decir que es un aviso público sobre un asunto de interés común para todo el grupo afectado.
 +
 +En el caso de un sistema de monitoreo informático en el cual queremos que todos o un cierto grupo de la organización se den por notificados de un evento o incidente en forma colectiva dependiendo solo de su ubicación física sin considerar herramientas de comunicación individuales como lo son el correo electrónico o mensajes de texto al móvil SMS. 
 +
 +Para este tipo de lógica podemos diseñar e implementar mecanismos visuales, como por ejemplo pantallas gigantes con diagramas de red indicando su estado actual. A su vez se puede acompañar lo visual con alertas sonoras.
 +== Notificaciones individualizadas ==
 +En este caso nos referimos a notificación como una comunicación enviada una persona para que actúe tomando acción sobre algún proceso de TI en el caso de que sea necesario.
 +
 +En la mayoría de los casos, cuanta más información acerca del evento quede se muestre en la notificación, y cuanto mejor se determine el destinatario de dicha información, más fácil resultará tomar decisiones respecto al mismo. Una situación recurrente es que se registran mensajes de error complejos y el personal de **primer nivel** encargado de resolver los problemas no alcanza a comprender su significado completo y en algunos casos debe escalar el problema a un **segundo** o **tercer nivel** solo para su comprensión o análisis.
 +
 +En otros caso pasa todo los contrario hay ciertos servicios que solo los debe atender personal técnico altamente calificado y por lo tanto con enviar un notificación breve solamente con la mínima información necesaria para la compresión del caso ya es suficiente y además mas eficiente.
 +
 +Hay que considerar diferentes condiciones de envío de información ya que esta debe estar personalizada en base al conocimiento técnico del receptor y sus posibilidades de recepción del mismo, ya sea por dispositivo como teléfono móvil, computadora, tablet, a su vez si es un correo electrónico debe tener un rango de información y si es un mensaje de texto SMS debe tener otro rango para asegurar su eficiente lectura.
 +
 +<note>
 +Los roles y responsabilidades deben ser bien definidos desde la fase de Diseño, ya que cuando se presente un evento es probable que se requiera una acción.
 +</note>
 +
 +Las notificaciones pueden ser :
 +
 +  * **Informativas**: Se asigna a aquellos eventos que no requieren, en principio, ninguna respuesta y que por tanto no representan un problema.
 +  * **Alerta**: Se asigna a aquellos eventos que indican que el servicio se aproxima a un umbral. Su objetivo es notificar a las personas, herramientas o procesos apropiados para que revisen la situación y tomen las medidas necesarias para evitar que se produzca un incidente.
 ===== Costos y Disponibilidad de Servicio ===== ===== Costos y Disponibilidad de Servicio =====
 ==== Costos y Servicio ==== ==== Costos y Servicio ====
Línea 233: Línea 316:
 Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** : Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** :
  
-//Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente./+<note> 
 +Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente. 
 +</note>
 ==== Estimación de porcentaje de disponibilidad de servicio ==== ==== Estimación de porcentaje de disponibilidad de servicio ====
 === Formas de calcular la disponibilidad de servicio === === Formas de calcular la disponibilidad de servicio ===
 **Ejemplo de cálculo SLA** **Ejemplo de cálculo SLA**
 +<note>
 **D = A/B x 100** **D = A/B x 100**
  
Línea 262: Línea 346:
     - Tiempo de atención al usuario.     - Tiempo de atención al usuario.
 **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio. **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio.
 +</note>
 ==== Costo por caída de Servicio ==== ==== Costo por caída de Servicio ====
 === Calculando el costo por caída de Servicio === === Calculando el costo por caída de Servicio ===
Línea 268: Línea 353:
   * **Coste de Inactividad de los empleados / Perdida de Productividad**   * **Coste de Inactividad de los empleados / Perdida de Productividad**
     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.
 +<note>
 **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio. **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio.
 +</note>
   * **Pérdida de Operaciones**   * **Pérdida de Operaciones**
     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.
Línea 381: Línea 466:
 == Nuestras necesidades == == Nuestras necesidades ==
 Estan en orden de prioridad, pero todas van atadas de la mano una con otra : Estan en orden de prioridad, pero todas van atadas de la mano una con otra :
-  * Solución de Monitoreo Integral +<note warning>Solución de Monitoreo Integral</note> 
-  Registro y Correlación de Eventos, tanto en equipos de red como en servidores +<note important>Registro y Correlación de Eventos, tanto en equipos de red como en servidores</note> 
-  Documentación Rápida, Participativa,Colaborativa (Debe ser vía Web, con edición individual de secciones y versionado)+<note>Documentación Rápida, Participativa,Colaborativa\\ Debe ser vía Web, con edición individual de secciones y versionado</note>
 === Objetivos a largo plazo === === Objetivos a largo plazo ===
 == CMDB Biblioteca para organizar el servicio de TI == == CMDB Biblioteca para organizar el servicio de TI ==
Línea 414: Línea 499:
     * SLA basados ​​en contratos y horarios     * SLA basados ​​en contratos y horarios
     * Inventariado y gestion de Incidencias     * Inventariado y gestion de Incidencias
-==== Capacitación en implementación del producto ====+===== Capacitación en implementación del producto ====
 +==== Nagios ==== 
 +=== Que es Nagios === 
 +Nagios es un sistema de monitoreo de redes, de código abierto, que vigila los equipos y servicios que se especifiquen, alertando determinado comportamiento de los mismos. 
 + 
 +Se trata de un software que proporciona una gran versatilidad para consultar prácticamente cualquier parámetro de interés de un sistema, y genera alertas, que pueden ser recibidas por los responsables correspondientes mediante (entre otros medios) correo electrónico y mensajes SMS, cuando estos parámetros exceden de los márgenes definidos por el administrador de red. 
 + 
 +Nagios por sí solo no hace nada, es solo un programador de tareas y estas tareas a su vez ejecutan comandos (plugins de Nagios). Dichos comandos son los encargados de enviar los datos a Nagios para : 
 + 
 +  * Almacenar datos estadísticos 
 +  * Generar alertas 
 +  * Ejecutar acciones 
 + 
 +{{ :capacitaciones:monitoreo:infografia_nagios.png?800 }} 
 +=== Que se puede hacer con Nagios === 
 +  * Monitorización de servicios de red (SMTP, POP3, HTTP, NTTP, ICMP, SNMP). 
 +  * Monitorización de los recursos de un host (carga del procesador, uso de los discos, logs del sistema) en varios sistemas operativos, incluso Microsoft Windows con el plugin NRPE_NT o también por medio del protocolo SNMP. 
 +  * Monitorización remoto, a través de túneles SSL cifrados o SSH. 
 +  * Diseño simple de plugins, que permiten a los usuarios desarrollar sus propios chequeos de servicios dependiendo de sus necesidades, usando sus herramientas preferidas (Bash, C++, Perl, Ruby, Python, PHP, C#, Java, etc.). 
 +  * Chequeo de servicios paralizados. 
 +  * Posibilidad de definir la jerarquía de la red, permitiendo distinguir entre host caídos y host inaccesibles. 
 +  * Notificaciones a los contactos cuando ocurren problemas en servicios o hosts, así como cuando son resueltos ( Vía email, pager, Jabber, SMS o cualquier método definido por el usuario junto con su correspondiente complemento). 
 +  * Posibilidad de definir disparadores de eventos que se ejecuten al ocurrir una situación detectada dentro de un servicio o host para la resolución de problemas en forma proactiva. 
 +  * Rotación automática del archivo de registro. 
 +  * Soporte para implementar hosts de monitores redundantes. 
 +  * Interfaz web opcional, para observar el estado de la red actual, notificaciones, historial de problemas, archivos de registros, etc. 
 +  * Reportes y estadísticas del estado cronológico de disponibilidad de servicios y hosts. 
 +  * Definición de niveles o umbrales de alerta según periodos de tiempo. 
 +  * Consideración de tiempos de inoperatividad con anticipación para evitar envío innecesario de alertas.  
 +=== Quien va a usar Nagios === 
 +  * Administradores de Redes con alto conocimiento tecnico 
 +  * Operadores con minimo conocimiento tecnico de la situacion, o conocimiento puntual de algun servicio 
 +    * Pudiedo avisar y ayudar a determinar posibles causas de efectos producidos 
 +  * Equipos de desarrollo 
 +  * Coordinadores de Mesas de Ayuda 
 +  * Areas relacionadas 
 +=== Que se va a monitorear === 
 +Hay que definir o acotar que niveles y aspectos se van a monitorear 
 + 
 +  * Sistema Operativo 
 +  * Utilización de red 
 +    * Trafico y consumo de ancho de banda 
 +    * Tiempos de respuesta 
 +  * Servicios (SAP, Web, Bases de datos, DHCP) 
 +=== Como impacta y para qué === 
 +  * Mejora de productividad 
 +  * Antelacion de problemas 
 +    * Conocer de donde proviene el problema 
 +  * Reporte y aviso de incidentes 
 +    * Agilidad en su tratamiento 
 +    * Compartir datos sobre la disponibilidad y SLA 
 +  * Mejor y mayor relacion e integracion de sectores adjuntos 
 +  * Detectar las brechas de seguridad 
 +  * Reducir y estimar periodos de inactividad y pérdidas empresariales 
 +  * Planificar actualizaciones de TI - Capacity Planning 
 +==== Requerimientos ==== 
 +=== Requerimientos Operativos === 
 +  * Plan de acción bien diagramado 
 +  * Personal con conocimiento medio/avanzado en redes 
 +{{ manuales:nagios:impacto_urgencia.png }} 
 +=== Recursos tecnológicos === 
 +  * Hardware acorde a la inversion y criticidad de los datos 
 +    * Si se van a monitorear >= 600 host y >= 2000 servicios hay que plantear bien esto, no sobrevaluar pero tampoco escatimar 
 +=== Pasos específicos de Nagios === 
 +Las tareas de la configuración son las siguientes:
  
 +  * Definición de usuario para la ejecución de los daemons.
 +  * Configuración de apache para la visualización de la consola. Generalmente se accede a la consola de Nagios utilizando vínculos cifrados, por lo que es necesario crear los certificados correspondientes.
 +  * Si el cliente posee un directorio donde centraliza todos sus usuarios, se podrá utilizar un usuario especialmente creado para consultar los perfiles de los usuarios que accederán a la consola de administración. Entre los directorios soportados se encuentra Microsoft Active Directory.
 +  * Configuración de servidor de correo (MTA) y de SMS para el envío de todas las alertas que genera el sistema.
 +  * Configuración de plugins básicos y de plugins específicos.
 +  * Definición de Servicios a monitorear.
 +  * Definición de dependencias de servicios (en aquellos servicios que dependan de la funcionalidad de otro servicio para poder ser monitoreados se deben configurar las dependencias, esto le indica a Nagios que no tiene que declarar fuera de línea un servicio si del que depende está caído).
 +  * Definición de Commandos (los comandos son la forma en que se verifican el estado de los servicios declarados).
 +  * Definición de HostGroups (los hostgroups son grupos de servidores que se monitorean, junto con el cliente de realiza la diagramación de estos grupos).
 +  * Definición de Contacts (los contacts son personas o más bien direcciones de email/sms que integrarán los ContactGroups).
 +  * Definición de ContactGroups (los contactgroups son grupos que se utilizarán para enviar las alertas que se generen en la monitoría).
 +  * Creación de directivas (especificación de dónde se encuentran varias definiciones de Nagios como Hostgroups, ContactGroups, Contacts, etc.).
 +  * Configuración de sistema de parsing de logs para producir las gráficas (históricas) de rendimiento de los servicios.
 +  * Adaptación de notificaciones (las notificaciones, el texto del correo electrónico, puede ser adaptado para una mejor identificación de problemas a los administradores al igual que los mensajes SMS).