Tabla de Contenidos

Capacitación en monitoreo de Red

Introducción

Monitoreo continuo y gestión integral

Las redes de cómputo de las organizaciones, se vuelven cada vez más complejas y la exigencia de la operación es cada vez mas demandante. Las redes, cada vez mas, soportan aplicaciones y servicios estratégicos de las organizaciones. Por lo cual el análisis y monitoreo de redes se ha convertido en una labor cada vez mas importante y de carácter pro-activo para evitar problemas. Con el termino Monitoreo nos referimos a un sistema que constantemente monitorea una red de computadoras para detectar sistemas lentos o en mal funcionamiento y que notifica al administrador de la red en caso de falla vía correo electrónico, sms u otros medios.

Para prevenir errores en un sistema podemos utilizar una aplicación que se ocupe de estar “controlado y observando” el funcionamiento de la red, esto podemos realizarlo por medio de un software llamado Nagios. Nagios es un sistema de monitoreo de servidores, aplicaciones y redes. Comprueba clientes y servicios, especificados alertando en caso de problemas como caídas de servicio ó restauración de los mismos.

Nagios es un sistema de monitorización de equipos y de servicios de red, escrito en C y publicado bajo la GNU General Public License, el lenguage con el cual esta desarrollado nos asegura una rápida ejecución y su licencia que lo determina como Software Libre nos asegura que siempre tendremos actualizaciones disponibles y que hay una gran comunidad de desarrolladores soportándolo.

Creado para ayudar a los administradores a tener siempre el control de qué está pasando en la red que administran y conocer los problemas que ocurren en la infraestructura que administran antes de que los usuarios de la misma los perciban, para así no sólo poder tomar la iniciativa, sino asumir la responsabilidad de hacer que las cosas sucedan; decidir en cada momento lo que queremos hacer y cómo lo vamos a hacer, debido a que este software nos permite obtener datos, interpretarlos y tomar decisiones en base a ello como:

Para facilitar tareas de explotación de datos, hay diferentes aditivos como un visor de reportes integrados, en el cual se puede ver el histórico de actividad y performance de servicios, y además un visor de diagramas de red con el estado actual de cada equipo.

El mismo, esta constituido por un Núcleo que construye la interfaz de usuario y por plugins los cuales representan los ojos y oídos de Nagios y por lo cual se encargan de recopilar información (bajo demanda). Los mismos pueden estar programados en diversos lenguajes como C, C++, Python, Perl, PHP, Java, Bash etc, ya que Nagios es independiente del lenguaje en el cual que se desarrolle el plugin y solo procesa los datos recibidos de este, para la posterior elaboración y envío de notificaciones a los encargados de la administración del sistema en cuestión.

Implementación de sistema de monitoreo de TI

Conceptos de monitoreo de TI

Necesidad

Para la implementación de un Sistema de Monitoreo de TI, dentro de la confección del Plan de Necesidades deberemos desarrollar preguntas y recabar datos acerca de la siguiente cuestión ¿Que se busca?

Acciones Indirectas que vienen de la mano de la implementación de un Sistema de Monitoreo de TI son : la “Confección de una CMDB”. Ya que sin su existencia, no es posible tener una visión del sistema.

Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.

Objetivos

Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.

Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.

Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.

Con lo cual podremos concluir si el sistema :

Para :

Ya que podemos :

Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :

Puntos principales a tener en cuenta :

Como adicional debemos cubrir :

Gestión proactiva para alcanzar los objetivos organizacionales

Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.

La Gestión de Problemas puede ser:

Cuando se produce un problema que genera una anomália estamos ante una incidencia. La Gestión de Incidencias tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.

La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.

Para esto deben haber fuentes que nos permitan generar indicadores.

Indicadores

Damos por nombre de indicador a un instrumento de medida, cuantitativo o cualitativo, que refleja la medición de calidad que posee una actividad o un servicio cualquiera. Basados en hechos y datos, que permiten evaluar la calidad de los procesos, productos y servicios para asegurar el nivel de cumplimiento de las especificaciones establecidas para una determinada actividad o proceso.

Indicadores en TI

Dentro de la administración de TI podemos tener infinidad de indicadores. Para lo que nosotros necesitamos, solo vamos a basarnos en lo que respecta a dispositivos que se conectan a la red, ya sean LAN, WAN o Internet.

Indicadores de red que podemos tener en cuenta :

Indicadores de dispositivos de automatización industrial (Supervisión, Control y Adquisición de Datos) que podemos tener en cuenta :

Indicadores de la capa de servidores que podemos tener en cuenta : loadaverage_pnp4nagios.jpg

Indicadores de la capa de aplicación que podemos tener en cuenta :

Indicadores operativos a tener en cuenta :

Indicadores de Seguridad de la Información:

Datos de negocio :

Metas necesarias para cumplir dichos objetivos

Relevamiento y diseño del modelo

El relevamiento es la herramienta principal a desarrollar durante la fase de Planificación de un sistema integral de monitoreo, para que este a su vez pueda dar datos fieles de como se ven afectados los procesos tanto operativos y de apoyo, como los procesos esenciales de producción y de negocio.

Infraestructura de equipamiento, software de base y comunicaciones

Para conocer la base donde se apoyaran los servicios de TI se deberá analizar lo siguiente :

Software de aplicación

Se puede comenzar a partir de un un inventario del software o desarrollarlo contenga como mínimo :

Identificar las soluciones informáticas desarrolladas por terceros

Herramientas

Herramientas principales para el análisis
Herramientas y productos principales a utilizar

Estrategias de monitoreo

Monitoreo Activo

Este tipo de monitoreo se realiza enviando paquetes desde sl sistema de monitoreo a los clientes que necesitamos monitorear. Ya sea un PING o pedidos a determinadas aplicaciones en los mismos.

Monitoreo Pasivo

Esta estrategia se basa en la obtención de datos a partir desde los clientes a monitorear hacia el sistema de monitoreo. Este enfoque bien planificado puede ser mas perfomante a lo que trafico de red se refiere comparándolo con la técnica de Monitoreo Pasivo.

Que chequear y como hacerlo

Capas a chequear

Que estrategía utilizar

Por ejemplo, utilizamos una estrategia de Monitoreo Activo.

  1. Si el servicio que tenemos depende de un enlace de red
    1. Si ese servicio de conectividad de red esta caído y es el único acceso al servicio :
      1. Podemos decir que el servicio esta caído por ser inaccesible, igualmente a la hora de elaborar un reporte se detallará la razón como caída de enlace de red.
    2. Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.
      1. Solo se mostrará como caído ese nodo de red, ejemplo “Sucursal 1”. Pero el servicio seguira figurando correctamente.

Notificaciones

Tipo edicto

Edicto tiene su origen en el latín proclamar en voz alta. Podemos decir que es un aviso público sobre un asunto de interés común para todo el grupo afectado.

En el caso de un sistema de monitoreo informático en el cual queremos que todos o un cierto grupo de la organización se den por notificados de un evento o incidente en forma colectiva dependiendo solo de su ubicación física sin considerar herramientas de comunicación individuales como lo son el correo electrónico o mensajes de texto al móvil SMS.

Para este tipo de lógica podemos diseñar e implementar mecanismos visuales, como por ejemplo pantallas gigantes con diagramas de red indicando su estado actual. A su vez se puede acompañar lo visual con alertas sonoras.

Notificaciones individualizadas

En este caso nos referimos a notificación como una comunicación enviada una persona para que actúe tomando acción sobre algún proceso de TI en el caso de que sea necesario.

En la mayoría de los casos, cuanta más información acerca del evento quede se muestre en la notificación, y cuanto mejor se determine el destinatario de dicha información, más fácil resultará tomar decisiones respecto al mismo. Una situación recurrente es que se registran mensajes de error complejos y el personal de primer nivel encargado de resolver los problemas no alcanza a comprender su significado completo y en algunos casos debe escalar el problema a un segundo o tercer nivel solo para su comprensión o análisis.

En otros caso pasa todo los contrario hay ciertos servicios que solo los debe atender personal técnico altamente calificado y por lo tanto con enviar un notificación breve solamente con la mínima información necesaria para la compresión del caso ya es suficiente y además mas eficiente.

Hay que considerar diferentes condiciones de envío de información ya que esta debe estar personalizada en base al conocimiento técnico del receptor y sus posibilidades de recepción del mismo, ya sea por dispositivo como teléfono móvil, computadora, tablet, a su vez si es un correo electrónico debe tener un rango de información y si es un mensaje de texto SMS debe tener otro rango para asegurar su eficiente lectura.

Los roles y responsabilidades deben ser bien definidos desde la fase de Diseño, ya que cuando se presente un evento es probable que se requiera una acción.

Las notificaciones pueden ser :

Costos y Disponibilidad de Servicio

Costos y Servicio

Disponibilidad de servicio : Medida porcentual del total de un mes calendario en el que el Servicio se encuentra habilitado para su utilización.

Capacidad de gestión de los servicios informáticos

Nos referimos a la Capacidad de respuesta de los recursos humanos integrantes del servicio informático para afrontar los requerimientos de información que se plantean en la ejecución de los procesos estudiados.

Se constatará si existen normas, métodos, procedimientos y el nivel de retraso respecto de requerimientos de mantenimiento o nuevos sistemas.

Estimar los costos de los servicios informáticos

Los principales insumos para la determinación del costo de los servicios informáticos son:

Si la infraestructura es propiedad de la Organización se estimarán los costos de reposición para aplicar cuotas de amortización para un período de *n* años (plazo que se estima razonable para la depreciación de un sistema de información automatizado) y su antigüedad actual promedio.

Cada uno de los ítems relevados deberá ser prorrateado conforme a la base de distribución que se considere más adecuada. Por ejemplo, para distribuir los costos de personal se puede utilizar el procedimiento equivalente de tiempo completo (ETC). Si una persona que trabaja 200 horas mensuales le dedica el 10% de su tiempo a mantener un sistema relacionado al proceso en estudio, estará afectando el ETC de 20 horas de trabajo. Luego, si su sueldo más leyes sociales es de $XX por mes, resultará que el costo proporcional de dicha actividad es de $NN.

En otras situaciones, como alquileres de inmuebles, la base de prorrateo puede ser metros cuadrados ocupados.

Análisis de costos y su relación con la Disponibilidad del Servicio - SLA

A la hora de contratar un servicio de Data Center por lo general se hace para suplir varias carencias que se pueden dar en la organización que si bien a veces esa carencia es de infraestructura y de inversión monetaria, aunque muchas otras veces es por la imposibilidad de disponibilizar tiempo y recursos humanos en el proyecto de implementación del mismo.

Cuando uno contrata un servicio de Data Center hay varios factores a tener en cuenta que deben ser provistos y desarrollados por el prestador del servicio y a la hora de ofrecer el mismo, esos factores suelen afectar directamente en su costo :

Todos estos factores deben estar esclarecidos ya que no solo puede existir la necesidad de asegurarle y garantizarle efectivamente esto a los utilizadores externos, sino también a los internos, ya que la Disponibilidad es el factor determinante de la contratación del servicio. Por lo general se establecen acuerdos de Disponibilidad de Servicio - SLA, con diferentes niveles y con un accionar y escalamiento determinado para cada caso.

Lo comentado anteriormente en la mayoría de los casos y por lógica y sentido común suele encuadrarse dentro de un marco legal por medio de un contrato y dentro del mismo suele haber cláusulas por multas monetarias debido a tiempos de indisponibilidad o mal funcionamiento del servicio. El proceso de costeo para realizar la calificación de incidentes y su posterior valorización monetaria debe estar detallado en una norma que regle dicho procedimiento definido en la contratación del servicio.

Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, en este caso, la base material para correr su infraestructura informática :

Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente.

Estimación de porcentaje de disponibilidad de servicio

Formas de calcular la disponibilidad de servicio

Ejemplo de cálculo SLA

D = A/B x 100

A es el número de horas en las cuales cada una de los servicios estuvieron disponibles. Este parámetro se verá disminuido con respecto a las horas que el sistema no funciona correctamente, es decir, cuando se ve afectado por cualquiera de los siguientes problemas:

  • Caída de cualquiera de los servicios.
  • Latencias superiores a x segundos.
  • Degradación del servicio, alterando los tiempos de respuesta.
  • Errores en la configuración.
  • Fallas humanas provocadas.
  • Cualquier otro factor que se considere pertinente.

B es el número de horas en que los servicios deberían estar disponibles, cuyo valor es setecientos veinte (720) horas mensuales;

D es el porcentaje de Disponibilidad.

El incumplimiento de la Disponibilidad acordada, puede llevar a penalizaciones previamente acordadas

D = (T - Ti)/T*100%

D disponibilidad

T tiempo total en un mes, medido en horas

Ti tiempo de interrupción del Servicio

Disponibilidad = ((A – B)/A) x 100 por ciento)

A Horas comprometidas de disponibilidad: 24 x 365 = 8,760 Horas/año.

B Horas de caída de servicio

Tabla de resultados

Disponibilidad (%)Tiempo offline/añoTiempo offline/mesTiempo offline/día
90% 36.5 días 73 hrs 2.4 hrs
95% 18.3 días 36.5 hrs 1.2 hrs
98% 7.3 días 14.6 hrs 28.8 min
99% 3.7 días 7.3 hrs 14.4 min
99.5% 1.8 días 3.66 hrs 7.22 min
99.9% 8.8 hrs 43.8 min 1.46 min
99.95% 4.4 hrs 21.9 min 43.8 s
99.99% 52.6 min 4.4 min 8.6 s
99.999% 5.26 min 26.3 s 0.86 s
99.9999% 31.5 s 2.62 s 0.08 s

Atención al Cliente Se debe prestar un servicio de soporte acordado mediante contrato. En caso de que el cliente reporte una indisponibilidad o fallas en el servicio, nosotros una vez reportada la falla y entregado el ticket se deberá de informar al cliente el seguimiento y solución que se le haya dado, en intervalos definidos. Todo esto definidos en :

  1. Acuerdos de niveles de servicio
    1. Tiempo de atención a fallas
    2. Niveles de Escalamiento – aseguramiento para los servicios
    3. Tiempo de atención al usuario.

Punto de restauración de servicio, se debe verificar con el Cliente por medio de Pruebas de Aceptación del Servicio (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio.

Costo por caída de Servicio

Calculando el costo por caída de Servicio

Factores a tener en cuenta en un caso de ejemplo para una compañía muy dependiente de recursos de TI en el cual la indisponibilidad de servicio tiene mayor incidencia :

Coste Medio de Inactividad = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio.

Podemos determinar el costo en función del gasto económico que tiene que realizar la empresa para recuperar los niveles de confianza previos a la caída, pero para eso tenemos que establecer una ponderacíón de cada uno de los factores tenidos en cuenta para luego elaborar el cálculo de disponibilidad de servicio y el porcentaje de perjuicio a la metodología de provisión del servicio en la cuál se enmarca la empresa en cuestión.

Documentación de SLA

Documentación de Disponibilidad de Servicio

La documentación de SLA posee la vida y desarrollo de versiones del servicio. El documento posee revisión y firmas entre las partes que dan fé de la evolución y modificación de los acuerdos.

El documento debe contener las siguientes observaciones:

  1. Histórico
    1. Ajuste de la revisión, fecha, descripción del histórico y autor de la revisión.
  2. Aprobaciones
    1. Nombre, Fecha, título, firma y dirección de correo electrónico.
  3. Alcance
    1. Audiencia
    2. Propósito
    3. Supuestos
    4. Contactos
  4. Garantías y recomendaciones y del detalle del servicio
    1. Formatos de archivo
    2. Envío y Expectativas
      1. Tipo de archivo, frecuencia esperada
    3. Acciones de escalamiento
    4. Recursos para escalar
    5. Tiempo para la solución de problemas
    6. Histórico de desempeño
  5. Gestión de Problemas
  6. Gestión del Desempeño
  7. Funciones y Responsabilidades del Cliente
  8. Terminación

Disposiciones legales

Además con los datos proporcionados por Nagios en la mayoría de los casos se puede obtener una explicación de cuál es el problema que está experimentando en su infraestructura, aunque sea aparentemente invisible, además esta operatoria ayuda en nuestra estrategia implementación de BS 10012:2009 Data Protection - Specification for a Personal Information Management System (PIMS), la cual por ejemplo en Mexico es necesaria para cumplir los requerimientos de la LFPDPPP (LEY FEDERAL DE PROTECCIÓN DE DATOS PERSONALES EN POSESIÓN DE LOS PARTICULARES), ya que necesitamos capacidad de monitoreo para rastrear cualquier cambio en la información y poder llegar a establecer quién está utilizando cuales datos y cómo lo hace.

Gestión de TI

Gestión de activos de TI

Information Technology Infrastructure Library - ITIL

ITIL es un conjunto de Mejores Prácticas en la Gestión de Servicios de TI. Es una guía, y no un manual de cómo han de hacerse las cosas.

Situándonos en el marco ITIL (Biblioteca de Infraestructura de Tecnologías de Información) para la provisión de servicios TI con calidad, los tres objetivos claves de la Gestión de Servicios son:

Su objeto de aplicación parte de estas premisas

¿Como encuandra el Monitoreo de TI en ITIL?

En ITIL, los consultores acompañan a las empresas a diseñar y/o implementar sus procesos. También realizan GAPs para evaluar cuan cerca se encuentra la organización de las actividades que se recomiendan en las mejores prácticas y se recomiendan posibles mejoras para acercarse.

Con respecto a GAP, nos referimos a el análisis para verificar que el sistema cumple con los requisitos de determinada norma, esquema o conjunto de criterios de evaluación.

El Monitoreo de TI cubre estas áreas de ITIL :

Gestión de la disponibilidad

Tiempo resolución de Incidencias

Incidentes

Incidente

Cualquier evento que no forma parte del desarrollo habitual del servicio y que causa, o puede causar una interrupción del mismo o una reducción de la calidad de dicho servicio. El objetivo de ITIL es reiniciar el funcionamiento normal tan rápido como sea posible con el menor impacto para el negocio y el usuario con el menor coste posible.

Ciclo de vida de un incidente

Administración de la capacidad de resolución y tratamiento

Implementación de las normas ITIL

Aplicando las normas ITIL

Objetivos a mediano y corto plazo

Nuestras necesidades

Estan en orden de prioridad, pero todas van atadas de la mano una con otra :

Solución de Monitoreo Integral
Registro y Correlación de Eventos, tanto en equipos de red como en servidores
Documentación Rápida, Participativa,Colaborativa
Debe ser vía Web, con edición individual de secciones y versionado

Objetivos a largo plazo

CMDB Biblioteca para organizar el servicio de TI

Capacitación en implementación del producto

Nagios

Que es Nagios

Nagios es un sistema de monitoreo de redes, de código abierto, que vigila los equipos y servicios que se especifiquen, alertando determinado comportamiento de los mismos.

Se trata de un software que proporciona una gran versatilidad para consultar prácticamente cualquier parámetro de interés de un sistema, y genera alertas, que pueden ser recibidas por los responsables correspondientes mediante (entre otros medios) correo electrónico y mensajes SMS, cuando estos parámetros exceden de los márgenes definidos por el administrador de red.

Nagios por sí solo no hace nada, es solo un programador de tareas y estas tareas a su vez ejecutan comandos (plugins de Nagios). Dichos comandos son los encargados de enviar los datos a Nagios para :

Que se puede hacer con Nagios

Quien va a usar Nagios

Que se va a monitorear

Hay que definir o acotar que niveles y aspectos se van a monitorear

Como impacta y para qué

Requerimientos

Requerimientos Operativos

Impacto, Urgencia, Prioridad

Recursos tecnológicos

Pasos específicos de Nagios

Las tareas de la configuración son las siguientes: