Herramientas de usuario

Herramientas del sitio


capacitaciones:monitoreo

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Próxima revisiónAmbos lados, revisión siguiente
capacitaciones:monitoreo [2015/04/28 19:34] – [Documentación de SLA] cayucapacitaciones:monitoreo [2015/06/02 13:58] – [Conceptos de monitoreo de TI] cayu
Línea 55: Línea 55:
 Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente. Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.
 === Objetivos === === Objetivos ===
-Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas.+Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.
  
 Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios. Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.
 +
 +Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.
 +
 +**Con lo cual podremos concluir si el sistema :**
 +
 +    * Lleva a cabo eficazmente su finalidad
 +    * Utiliza eficientemente los recursos.
 +
 +**Para :**
 +
 +    * Optimizar los Procesos
 +    * Reducir Costos Operativos
 +    * Llevar a cabo un mejoramiento del Control de Calidad
 +        * Minimizar Tiempos => $$$$
 +
 +**Ya que podemos :**
 +
 +    * Detectar de forma sistemática el uso de los recursos y los flujos de información dentro de una organización.
 +    * Determinar qué información es crítica para el cumplimiento de su misión y objetivos, identificando necesidades, duplicidades, costos, valor y barreras, que obstaculizan flujos de información eficientes.
 +    * Análizar de eficiencia del sistema.
 +    * Verificar el cumplimiento de Normativas.
 +    * Revisión de la gestión de recursos.
 +
 +**Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :**
 +
 +    * Fortalecer bases de información para grupos y personas de apoyo que trabajan con los sistemas.
 +
 +**Puntos principales a tener en cuenta :**
 +
 +    * Aplicación estable para entornos productivos.
 +    * Licencia de código abierto.
 +    * Debe monitorear equipos idenpendientemente de sistemas operativos : Windows, Linux, Unix, CISCO iOS. 
 +    * Generar alertas cuando se identifican incidencias.
 +    * Los datos se deben poder exportar para su posterior análisis. 
 +    * El sistema debe poder trabajar tanto con agentes instalados en los equipos clientes como sin ellos.
 +    * Poder generar complementos (plugs in) independientemente del lenguaje de programación o ubicación de los mismos.
 +    * Documentación suficiente y clara disponible del sistema de monitoreo. 
 +    * El sistema debe tener una comunidad que lo respalde y preferentemente empresas.
 +    * El sistema debe ser muy conocido o utilizado. Existencia de empresas clientes o usuarios a los que se puede referenciar.
 +    * Actualizaciones regulares.
 +
 +**Como adicional debemos cubrir :**
 +
 +  * Necesidades de Automatización, Instrumentación y Optimización de los procesos industriales.
 +
 +**Gestión proactiva para alcanzar los objetivos organizacionales**
 +
 +Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.
 +
 +La **Gestión de Problemas** puede ser:
 +
 +  * **Reactiva:** Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
 +  * **Proactiva:** Monitorea la calidad de la infraestructura TI. Analiza los Registros de Incidentes y configuraciones utilizando datos de otros procesos de Gestión del Servicio de TI para identificar tendencias o problemas significativos con el objetivo de prevenir incidentes incluso antes de que estos ocurran.
 +
 +Cuando se produce un problema que genera una anomália estamos ante una incidencia. La **Gestión de Incidencias** tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.
 +
 +La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.
  
 Para esto deben haber fuentes que nos permitan generar **indicadores**. Para esto deben haber fuentes que nos permitan generar **indicadores**.
Línea 167: Línea 224:
   * Desventajas   * Desventajas
     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.
 +
 +
 ==== Que chequear y como hacerlo ==== ==== Que chequear y como hacerlo ====
 === Capas a chequear === === Capas a chequear ===
Línea 414: Línea 473:
     * SLA basados ​​en contratos y horarios     * SLA basados ​​en contratos y horarios
     * Inventariado y gestion de Incidencias     * Inventariado y gestion de Incidencias
-==== Capacitación en implementación del producto ====+===== Capacitación en implementación del producto ====
 +==== Nagios ==== 
 +=== Que es Nagios === 
 +Nagios es un sistema de monitoreo de redes, de código abierto, que vigila los equipos y servicios que se especifiquen, alertando determinado comportamiento de los mismos. 
 + 
 +Se trata de un software que proporciona una gran versatilidad para consultar prácticamente cualquier parámetro de interés de un sistema, y genera alertas, que pueden ser recibidas por los responsables correspondientes mediante (entre otros medios) correo electrónico y mensajes SMS, cuando estos parámetros exceden de los márgenes definidos por el administrador de red. 
 + 
 +Nagios por sí solo no hace nada, es solo un programador de tareas y estas tareas a su vez ejecutan comandos (plugins de Nagios). Dichos comandos son los encargados de enviar los datos a Nagios para : 
 + 
 +  * Almacenar datos estadísticos 
 +  * Generar alertas 
 +  * Ejecutar acciones 
 + 
 +{{ :capacitaciones:monitoreo:infografia_nagios.png?800 }} 
 +=== Que se puede hacer con Nagios === 
 +  * Monitorización de servicios de red (SMTP, POP3, HTTP, NTTP, ICMP, SNMP). 
 +  * Monitorización de los recursos de un host (carga del procesador, uso de los discos, logs del sistema) en varios sistemas operativos, incluso Microsoft Windows con el plugin NRPE_NT o también por medio del protocolo SNMP. 
 +  * Monitorización remoto, a través de túneles SSL cifrados o SSH. 
 +  * Diseño simple de plugins, que permiten a los usuarios desarrollar sus propios chequeos de servicios dependiendo de sus necesidades, usando sus herramientas preferidas (Bash, C++, Perl, Ruby, Python, PHP, C#, Java, etc.). 
 +  * Chequeo de servicios paralizados. 
 +  * Posibilidad de definir la jerarquía de la red, permitiendo distinguir entre host caídos y host inaccesibles. 
 +  * Notificaciones a los contactos cuando ocurren problemas en servicios o hosts, así como cuando son resueltos ( Vía email, pager, Jabber, SMS o cualquier método definido por el usuario junto con su correspondiente complemento). 
 +  * Posibilidad de definir disparadores de eventos que se ejecuten al ocurrir una situación detectada dentro de un servicio o host para la resolución de problemas en forma proactiva. 
 +  * Rotación automática del archivo de registro. 
 +  * Soporte para implementar hosts de monitores redundantes. 
 +  * Interfaz web opcional, para observar el estado de la red actual, notificaciones, historial de problemas, archivos de registros, etc. 
 +  * Reportes y estadísticas del estado cronológico de disponibilidad de servicios y hosts. 
 +  * Definición de niveles o umbrales de alerta según periodos de tiempo. 
 +  * Consideración de tiempos de inoperatividad con anticipación para evitar envío innecesario de alertas.  
 +=== Quien va a usar Nagios === 
 +  * Administradores de Redes con alto conocimiento tecnico 
 +  * Operadores con minimo conocimiento tecnico de la situacion, o conocimiento puntual de algun servicio 
 +    * Pudiedo avisar y ayudar a determinar posibles causas de efectos producidos 
 +  * Equipos de desarrollo 
 +  * Coordinadores de Mesas de Ayuda 
 +  * Areas relacionadas 
 +=== Que se va a monitorear === 
 +Hay que definir o acotar que niveles y aspectos se van a monitorear 
 + 
 +  * Sistema Operativo 
 +  * Utilización de red 
 +    * Trafico y consumo de ancho de banda 
 +    * Tiempos de respuesta 
 +  * Servicios (SAP, Web, Bases de datos, DHCP) 
 +=== Como impacta y para qué === 
 +  * Mejora de productividad 
 +  * Antelacion de problemas 
 +    * Conocer de donde proviene el problema 
 +  * Reporte y aviso de incidentes 
 +    * Agilidad en su tratamiento 
 +    * Compartir datos sobre la disponibilidad y SLA 
 +  * Mejor y mayor relacion e integracion de sectores adjuntos 
 +  * Detectar las brechas de seguridad 
 +  * Reducir y estimar periodos de inactividad y pérdidas empresariales 
 +  * Planificar actualizaciones de TI - Capacity Planning 
 +==== Requerimientos ==== 
 +=== Requerimientos Operativos === 
 +  * Plan de acción bien diagramado 
 +  * Personal con conocimiento medio/avanzado en redes 
 +{{ manuales:nagios:impacto_urgencia.png }} 
 +=== Recursos tecnológicos === 
 +  * Hardware acorde a la inversion y criticidad de los datos 
 +    * Si se van a monitorear >= 600 host y >= 2000 servicios hay que plantear bien esto, no sobrevaluar pero tampoco escatimar 
 +=== Pasos específicos de Nagios === 
 +Las tareas de la configuración son las siguientes:
  
 +  * Definición de usuario para la ejecución de los daemons.
 +  * Configuración de apache para la visualización de la consola. Generalmente se accede a la consola de Nagios utilizando vínculos cifrados, por lo que es necesario crear los certificados correspondientes.
 +  * Si el cliente posee un directorio donde centraliza todos sus usuarios, se podrá utilizar un usuario especialmente creado para consultar los perfiles de los usuarios que accederán a la consola de administración. Entre los directorios soportados se encuentra Microsoft Active Directory.
 +  * Configuración de servidor de correo (MTA) y de SMS para el envío de todas las alertas que genera el sistema.
 +  * Configuración de plugins básicos y de plugins específicos.
 +  * Definición de Servicios a monitorear.
 +  * Definición de dependencias de servicios (en aquellos servicios que dependan de la funcionalidad de otro servicio para poder ser monitoreados se deben configurar las dependencias, esto le indica a Nagios que no tiene que declarar fuera de línea un servicio si del que depende está caído).
 +  * Definición de Commandos (los comandos son la forma en que se verifican el estado de los servicios declarados).
 +  * Definición de HostGroups (los hostgroups son grupos de servidores que se monitorean, junto con el cliente de realiza la diagramación de estos grupos).
 +  * Definición de Contacts (los contacts son personas o más bien direcciones de email/sms que integrarán los ContactGroups).
 +  * Definición de ContactGroups (los contactgroups son grupos que se utilizarán para enviar las alertas que se generen en la monitoría).
 +  * Creación de directivas (especificación de dónde se encuentran varias definiciones de Nagios como Hostgroups, ContactGroups, Contacts, etc.).
 +  * Configuración de sistema de parsing de logs para producir las gráficas (históricas) de rendimiento de los servicios.
 +  * Adaptación de notificaciones (las notificaciones, el texto del correo electrónico, puede ser adaptado para una mejor identificación de problemas a los administradores al igual que los mensajes SMS).