Herramientas de usuario

Herramientas del sitio


capacitaciones:monitoreo

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Próxima revisión
Revisión previa
Última revisiónAmbos lados, revisión siguiente
capacitaciones:monitoreo [2015/04/28 19:08] – creado cayucapacitaciones:monitoreo [2015/06/02 14:13] – [Costo por caída de Servicio] cayu
Línea 55: Línea 55:
 Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente. Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.
 === Objetivos === === Objetivos ===
-Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas.+Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.
  
 Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios. Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.
 +
 +Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.
 +
 +**Con lo cual podremos concluir si el sistema :**
 +
 +    * Lleva a cabo eficazmente su finalidad
 +    * Utiliza eficientemente los recursos.
 +
 +**Para :**
 +
 +    * Optimizar los Procesos
 +    * Reducir Costos Operativos
 +    * Llevar a cabo un mejoramiento del Control de Calidad
 +        * Minimizar Tiempos => $$$$
 +
 +**Ya que podemos :**
 +
 +    * Detectar de forma sistemática el uso de los recursos y los flujos de información dentro de una organización.
 +    * Determinar qué información es crítica para el cumplimiento de su misión y objetivos, identificando necesidades, duplicidades, costos, valor y barreras, que obstaculizan flujos de información eficientes.
 +    * Análizar de eficiencia del sistema.
 +    * Verificar el cumplimiento de Normativas.
 +    * Revisión de la gestión de recursos.
 +
 +**Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :**
 +
 +    * Fortalecer bases de información para grupos y personas de apoyo que trabajan con los sistemas.
 +
 +**Puntos principales a tener en cuenta :**
 +
 +    * Aplicación estable para entornos productivos.
 +    * Licencia de código abierto.
 +    * Debe monitorear equipos idenpendientemente de sistemas operativos : Windows, Linux, Unix, CISCO iOS. 
 +    * Generar alertas cuando se identifican incidencias.
 +    * Los datos se deben poder exportar para su posterior análisis. 
 +    * El sistema debe poder trabajar tanto con agentes instalados en los equipos clientes como sin ellos.
 +    * Poder generar complementos (plugs in) independientemente del lenguaje de programación o ubicación de los mismos.
 +    * Documentación suficiente y clara disponible del sistema de monitoreo. 
 +    * El sistema debe tener una comunidad que lo respalde y preferentemente empresas.
 +    * El sistema debe ser muy conocido o utilizado. Existencia de empresas clientes o usuarios a los que se puede referenciar.
 +    * Actualizaciones regulares.
 +
 +**Como adicional debemos cubrir :**
 +
 +  * Necesidades de Automatización, Instrumentación y Optimización de los procesos industriales.
 +
 +**Gestión proactiva para alcanzar los objetivos organizacionales**
 +
 +Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.
 +
 +La **Gestión de Problemas** puede ser:
 +
 +  * **Reactiva:** Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
 +  * **Proactiva:** Monitorea la calidad de la infraestructura TI. Analiza los Registros de Incidentes y configuraciones utilizando datos de otros procesos de Gestión del Servicio de TI para identificar tendencias o problemas significativos con el objetivo de prevenir incidentes incluso antes de que estos ocurran.
 +
 +Cuando se produce un problema que genera una anomália estamos ante una incidencia. La **Gestión de Incidencias** tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.
 +
 +La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.
  
 Para esto deben haber fuentes que nos permitan generar **indicadores**. Para esto deben haber fuentes que nos permitan generar **indicadores**.
Línea 167: Línea 224:
   * Desventajas   * Desventajas
     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.
 +
 +
 ==== Que chequear y como hacerlo ==== ==== Que chequear y como hacerlo ====
 === Capas a chequear === === Capas a chequear ===
Línea 192: Línea 251:
     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.
       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.
 +=== Notificaciones ===
 +== Tipo edicto ==
 +Edicto tiene su origen en el latín //proclamar en voz alta//. Podemos decir que es un aviso público sobre un asunto de interés común para todo el grupo afectado.
 +
 +En el caso de un sistema de monitoreo informático en el cual queremos que todos o un cierto grupo de la organización se den por notificados de un evento o incidente en forma colectiva dependiendo solo de su ubicación física sin considerar herramientas de comunicación individuales como lo son el correo electrónico o mensajes de texto al móvil SMS. 
 +
 +Para este tipo de lógica podemos diseñar e implementar mecanismos visuales, como por ejemplo pantallas gigantes con diagramas de red indicando su estado actual. A su vez se puede acompañar lo visual con alertas sonoras.
 +== Notificaciones individualizadas ==
 +En este caso nos referimos a notificación como una comunicación enviada una persona para que actúe tomando acción sobre algún proceso de TI en el caso de que sea necesario.
 +
 +En la mayoría de los casos, cuanta más información acerca del evento quede se muestre en la notificación, y cuanto mejor se determine el destinatario de dicha información, más fácil resultará tomar decisiones respecto al mismo. Una situación recurrente es que se registran mensajes de error complejos y el personal de **primer nivel** encargado de resolver los problemas no alcanza a comprender su significado completo y en algunos casos debe escalar el problema a un **segundo** o **tercer nivel** solo para su comprensión o análisis.
 +
 +En otros caso pasa todo los contrario hay ciertos servicios que solo los debe atender personal técnico altamente calificado y por lo tanto con enviar un notificación breve solamente con la mínima información necesaria para la compresión del caso ya es suficiente y además mas eficiente.
 +
 +Hay que considerar diferentes condiciones de envío de información ya que esta debe estar personalizada en base al conocimiento técnico del receptor y sus posibilidades de recepción del mismo, ya sea por dispositivo como teléfono móvil, computadora, tablet, a su vez si es un correo electrónico debe tener un rango de información y si es un mensaje de texto SMS debe tener otro rango para asegurar su eficiente lectura.
 +
 +<note>
 +Los roles y responsabilidades deben ser bien definidos desde la fase de Diseño, ya que cuando se presente un evento es probable que se requiera una acción.
 +</note>
 +
 +Las notificaciones pueden ser :
 +
 +  * **Informativas**: Se asigna a aquellos eventos que no requieren, en principio, ninguna respuesta y que por tanto no representan un problema.
 +  * **Alerta**: Se asigna a aquellos eventos que indican que el servicio se aproxima a un umbral. Su objetivo es notificar a las personas, herramientas o procesos apropiados para que revisen la situación y tomen las medidas necesarias para evitar que se produzca un incidente.
 ===== Costos y Disponibilidad de Servicio ===== ===== Costos y Disponibilidad de Servicio =====
 ==== Costos y Servicio ==== ==== Costos y Servicio ====
Línea 233: Línea 316:
 Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** : Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** :
  
-//Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente.//+<note> 
 +Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente. 
 +</note> 
 +==== Estimación de porcentaje de disponibilidad de servicio ==== 
 +=== Formas de calcular la disponibilidad de servicio === 
 +**Ejemplo de cálculo SLA** 
 +<note> 
 +**D = A/B x 100** 
 + 
 +**A** es el número de horas en las cuales cada una de los servicios estuvieron disponibles. Este parámetro se verá disminuido con respecto a las horas que el sistema no funciona correctamente, es decir, cuando se ve afectado por cualquiera de los siguientes problemas: 
 + 
 +  * Caída de cualquiera de los servicios. 
 +  * Latencias superiores a x segundos. 
 +  * Degradación del servicio, alterando los tiempos de respuesta. 
 +  * Errores en la configuración. 
 +  * Fallas humanas provocadas. 
 +  * Cualquier otro factor que se considere pertinente. 
 + 
 +**B** es el número de horas en que los servicios deberían estar disponibles, cuyo valor es setecientos veinte (720) horas mensuales; 
 + 
 +**D** es el porcentaje de Disponibilidad. 
 + 
 +**El incumplimiento de la Disponibilidad acordada, puede llevar a penalizaciones previamente acordadas** 
 + 
 +**Atención al Cliente** Se debe prestar un servicio de soporte acordado mediante contrato. En caso de que el cliente reporte una indisponibilidad o fallas en el servicio, nosotros una vez reportada la falla y entregado el ticket se deberá de informar al cliente el seguimiento y solución que se le haya dado, en intervalos definidos. Todo esto definidos en : 
 +  - Acuerdos de niveles de servicio 
 +    - Tiempo de atención a fallas 
 +    - Niveles de Escalamiento – aseguramiento para los servicios 
 +    - Tiempo de atención al usuario. 
 +**Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio. 
 +</note> 
 +==== Costo por caída de Servicio ==== 
 +=== Calculando el costo por caída de Servicio === 
 +Factores a tener en cuenta en un caso de ejemplo para una compañía muy dependiente de recursos de TI en el cual la indisponibilidad de servicio tiene mayor incidencia : 
 + 
 +  * **Coste de Inactividad de los empleados / Perdida de Productividad** 
 +    * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída. 
 +<note> 
 +**Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio. 
 +</note> 
 +  * **Pérdida de Operaciones** 
 +    * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web. 
 + 
 +  * **Incumplimientos de normativa, acuerdos o SLA** 
 +    * Nuestra compañía puede tener contratos de prestación de servicios con otras empresas en las cuales se recogen penalizaciones por incumplimiento del mismo. Una caída de nuestro sistema puede afectar a estas empresas ocasionándolos un agravio y por ende reclamarnos una compensación económica. Por otro lado, algunas empresas por el sector al que se dedican o por el tipo de servicio que prestan, están sujetas a normativas o leyes que ante una parada del sistema pueden acarrearles sanciones o multas. 
 + 
 +  * **Impacto en marca, pérdida de confianza** 
 +    * Esto es algo muy relativo y tiene un impacto según la cultura de la zona donde se preste el servicio, pero puede ser un parámetro a considerar a la hora de determinar el coste por caída de servicio. Muchas compañías emplean gran cantidad de recursos en campañas publicitarias, redes sociales, patrocinios etc., para afianzar y reforzar su marca en el mercado, una interrupción de servicio en los sistemas informáticos puede dañar su imágen o en algunos casos que el cliente desestime en ese momento utilizar sus productos o servicios. 
 + 
 +//Podemos determinar el costo en función del gasto económico que tiene que realizar la empresa para recuperar los niveles de confianza previos a la caída, pero para eso tenemos que establecer una ponderacíón de cada uno de los factores tenidos en cuenta para luego elaborar el cálculo de disponibilidad de servicio y el porcentaje de perjuicio a la metodología de provisión del servicio en la cuál se enmarca la empresa en cuestión.// 
 +==== Documentación de SLA ==== 
 +=== Documentación de Disponibilidad de Servicio === 
 +La documentación de SLA posee la vida y desarrollo de versiones del servicio. El documento posee revisión y firmas entre las partes que dan fé de la evolución y modificación de los acuerdos. 
 + 
 +El documento debe contener las siguientes observaciones: 
 + 
 +  - Histórico 
 +    - Ajuste de la revisión, fecha, descripción del histórico y autor de la revisión. 
 +  - Aprobaciones 
 +    - Nombre, Fecha, título, firma y dirección de correo electrónico. 
 +  - Alcance 
 +    - Audiencia 
 +    - Propósito 
 +    - Supuestos 
 +    - Contactos 
 +  - Garantías y recomendaciones y del detalle del servicio 
 +    - Formatos de archivo 
 +    - Envío y Expectativas 
 +      - Tipo de archivo, frecuencia esperada 
 +    - Acciones de escalamiento 
 +    - Recursos para escalar 
 +    - Tiempo para la solución de problemas 
 +    - Histórico de desempeño 
 +  - Gestión de Problemas 
 +  - Gestión del Desempeño 
 +  - Funciones y Responsabilidades del Cliente 
 +  - Terminación 
 + 
 +  * Crear documentación de ayuda adicional 
 +    * Información de contacto 
 +      * Nombre función, teléfono, teléfono celular, etc 
 +  * Definiciones, términos, acrónimos 
 +=== Disposiciones legales === 
 +Además con los datos proporcionados por Nagios en la mayoría de los casos se puede obtener una explicación de cuál es el problema que está experimentando en su infraestructura, aunque sea aparentemente invisible, además esta operatoria ayuda en nuestra estrategia implementación de **BS 10012:2009 Data Protection - Specification for a Personal Information Management System (PIMS)**, la cual por ejemplo en Mexico es necesaria para cumplir los requerimientos de la **LFPDPPP** (LEY FEDERAL DE PROTECCIÓN DE DATOS PERSONALES EN POSESIÓN DE LOS PARTICULARES), ya que necesitamos capacidad de monitoreo para rastrear cualquier cambio en la información y poder llegar a establecer quién está utilizando cuales datos y cómo lo hace. 
 +===== Gestión de TI ===== 
 +==== Gestión de activos de TI ==== 
 +=== Information Technology Infrastructure Library - ITIL === 
 +**ITIL** es un conjunto de Mejores Prácticas en la **Gestión de Servicios de TI**. Es una guía, y no un manual de cómo han de hacerse las cosas. 
 + 
 +Situándonos en el marco ITIL (Biblioteca de Infraestructura de Tecnologías de Información) para la provisión de servicios TI con calidad, los tres objetivos claves de la Gestión de Servicios son: 
 + 
 +  * Alinear los servicios informáticos con las necesidades actuales y futuras 
 +  * Mejorar la calidad de los servicios informáticos entregados 
 +  * Reducir el coste a largo plazo del suministro de servicios 
 + 
 +**Su objeto de aplicación parte de estas premisas** 
 + 
 +  * No se puede gestionar lo que no se puede controlar. 
 +  * No se puede controlar lo que no se puede medir. 
 +  * No se puede medir lo que no se puede definir. 
 + 
 +**¿Como encuandra el Monitoreo de TI en ITIL?** 
 + 
 +En ITIL, los consultores acompañan a las empresas a diseñar y/o implementar sus procesos. También realizan GAPs para evaluar cuan cerca se encuentra la organización de las actividades que se recomiendan en las mejores prácticas y se recomiendan posibles mejoras para acercarse. 
 + 
 +Con respecto a **GAP**, nos referimos a el análisis para verificar que el sistema cumple con los requisitos de determinada norma, esquema o conjunto de criterios de evaluación. 
 + 
 +El Monitoreo de TI  cubre estas áreas de ITIL : 
 + 
 +  * Service Desk 
 +  * Incident Management 
 +  * Service Level Management 
 +  * Capacity Management 
 +  * IT Service Continuity Management 
 +  * Availability Management 
 +  * ICT infrastructure Management 
 + 
 +**Gestión de la disponibilidad** 
 + 
 +  * La disponibilidad “Availability Management” es un proceso del “Service Delivery”, definido en las especificaciones de ITIL. 
 +    * Su meta es asegurar que el nivel de disponibilidad requerido esté proporcionado. 
 +    * La supervisión y análisis de informes de la disponibilidad es una actividad clave para asegurar que los niveles del servicio se estén cumpliendo. 
 +    * En la base de la gestión se debe supervisar contínuamente la disponibilidad de la Infraestructura, servicios y alertar a los administradores para iniciar los procedimientos oportunos. 
 + 
 +**Tiempo resolución de Incidencias** 
 + 
 +  * El tiempo de identificación de un problema mejora notablemente con la utilización de una herramienta de Monitoreo de TI. 
 +    * Su meta es asegurar que el administrador identifique el problema antes que lo hagan los usuarios. 
 +    * La supervisión y análisis de todos los servicios críticos y la notificación correcta es clave para reducir el tiempo de resolución. 
 +    * Los informes de incidencias y performance ayudarán en la predicción de problemas y en identificar la necesidad de crecimientos. 
 +    * Mejorando la Gestion de capacidad, estando directamente conectado con el processo de ITIL "Capacity Management"
 +==== Incidentes ==== 
 +=== Incidente === 
 +//Cualquier evento que no forma parte del desarrollo habitual del servicio y que causa, o puede causar una interrupción del mismo o una reducción de la calidad de dicho servicio. El objetivo de ITIL es reiniciar el funcionamiento normal tan rápido como sea posible con el menor impacto para el negocio y el usuario con el menor coste posible.// 
 + 
 +**Ciclo de vida de un incidente** 
 +{{ manuales:nagios:itil_incident.png?800 }} 
 + 
 +**Administración de la capacidad de resolución y tratamiento** 
 +{{ manuales:nagios:itil_capacity.png?800 }} 
 +==== Implementación de las normas ITIL ==== 
 +=== Aplicando las normas ITIL === 
 +  * Alinear los servicios de TI con las necesidades de la empresa (el negocio), actuales y futuras. 
 +  * Mejorar la calidad de los servicios de TI. 
 +  * Reducir los costos por la proveeduría de servicios de TI en el mediano y largo plazos. 
 +  * Mejora de rendimiento de la inversión de TI. 
 +  * Se mide el sistema de TI de la organización evaluando los procesos de Soporte Técnico y Entrega de Servicios comparándolos con las Mejores Prácticas. 
 +=== Objetivos a mediano y corto plazo === 
 +== Nuestras necesidades == 
 +Estan en orden de prioridad, pero todas van atadas de la mano una con otra : 
 +<note warning>Solución de Monitoreo Integral</note> 
 +<note important>Registro y Correlación de Eventos, tanto en equipos de red como en servidores</note> 
 +<note>Documentación Rápida, Participativa,Colaborativa\\ Debe ser vía Web, con edición individual de secciones y versionado</note> 
 +=== Objetivos a largo plazo === 
 +== CMDB Biblioteca para organizar el servicio de TI == 
 +  * Relaciones de muchos a muchos 
 +  * Inventario de equipos 
 +    * Detalle de responsable técnico 
 +    * IP 
 +    * Software Instalado 
 +  * Base de IP 
 +    * Detalle de las subredes 
 +    * Equipos asociados con sus ip y MAC si coresponde 
 +  * Listado de reglas de ruteo indivuales por equipo, en caso de que existan 
 +  * Base de Certificados SSL 
 +    * Certificado con fecha de emisión y fecha de caducidad 
 +    * Detalles tecnicos y equipos donde se utilizan los certificados 
 +  * Base de Proovedores, Contratos y Contactos 
 +    * Contactos determinados por tipo, y detalles de como contactarlos 
 +    * Detalles de un proovedor que presta servicios y le compramos equipos 
 +    * Contratos detallados, con servicios y equipos asociados a los que aplica 
 +  * Base de Usuarios y Contraseñas 
 +    * Nombre de Usuario, Contraseña y equipo u aplicación asociado 
 +  * Necesario para enmarcar en ITIL 
 +    * Historico de modificaciónes 
 +    * Inventario de los activos del Departamento de IT 
 +    * Estructura del inventario y relaciones entre los diferentes elementos 
 +    * Manejo de Licencias 
 +    * Gestión de problemas, incidentes 
 +    * Quejas y reclamos 
 +    * Posibilidad de adjuntar documentación de cada item presente 
 +    * SLA basados ​​en contratos y horarios 
 +    * Inventariado y gestion de Incidencias 
 +===== Capacitación en implementación del producto ===== 
 +==== Nagios ==== 
 +=== Que es Nagios === 
 +Nagios es un sistema de monitoreo de redes, de código abierto, que vigila los equipos y servicios que se especifiquen, alertando determinado comportamiento de los mismos. 
 + 
 +Se trata de un software que proporciona una gran versatilidad para consultar prácticamente cualquier parámetro de interés de un sistema, y genera alertas, que pueden ser recibidas por los responsables correspondientes mediante (entre otros medios) correo electrónico y mensajes SMS, cuando estos parámetros exceden de los márgenes definidos por el administrador de red. 
 + 
 +Nagios por sí solo no hace nada, es solo un programador de tareas y estas tareas a su vez ejecutan comandos (plugins de Nagios). Dichos comandos son los encargados de enviar los datos a Nagios para : 
 + 
 +  * Almacenar datos estadísticos 
 +  * Generar alertas 
 +  * Ejecutar acciones 
 + 
 +{{ :capacitaciones:monitoreo:infografia_nagios.png?800 }} 
 +=== Que se puede hacer con Nagios === 
 +  * Monitorización de servicios de red (SMTP, POP3, HTTP, NTTP, ICMP, SNMP). 
 +  * Monitorización de los recursos de un host (carga del procesador, uso de los discos, logs del sistema) en varios sistemas operativos, incluso Microsoft Windows con el plugin NRPE_NT o también por medio del protocolo SNMP. 
 +  * Monitorización remoto, a través de túneles SSL cifrados o SSH. 
 +  * Diseño simple de plugins, que permiten a los usuarios desarrollar sus propios chequeos de servicios dependiendo de sus necesidades, usando sus herramientas preferidas (Bash, C++, Perl, Ruby, Python, PHP, C#, Java, etc.). 
 +  * Chequeo de servicios paralizados. 
 +  * Posibilidad de definir la jerarquía de la red, permitiendo distinguir entre host caídos y host inaccesibles. 
 +  * Notificaciones a los contactos cuando ocurren problemas en servicios o hosts, así como cuando son resueltos ( Vía email, pager, Jabber, SMS o cualquier método definido por el usuario junto con su correspondiente complemento). 
 +  * Posibilidad de definir disparadores de eventos que se ejecuten al ocurrir una situación detectada dentro de un servicio o host para la resolución de problemas en forma proactiva. 
 +  * Rotación automática del archivo de registro. 
 +  * Soporte para implementar hosts de monitores redundantes. 
 +  * Interfaz web opcional, para observar el estado de la red actual, notificaciones, historial de problemas, archivos de registros, etc. 
 +  * Reportes y estadísticas del estado cronológico de disponibilidad de servicios y hosts. 
 +  * Definición de niveles o umbrales de alerta según periodos de tiempo. 
 +  * Consideración de tiempos de inoperatividad con anticipación para evitar envío innecesario de alertas.  
 +=== Quien va a usar Nagios === 
 +  * Administradores de Redes con alto conocimiento tecnico 
 +  * Operadores con minimo conocimiento tecnico de la situacion, o conocimiento puntual de algun servicio 
 +    * Pudiedo avisar y ayudar a determinar posibles causas de efectos producidos 
 +  * Equipos de desarrollo 
 +  * Coordinadores de Mesas de Ayuda 
 +  * Areas relacionadas 
 +=== Que se va a monitorear === 
 +Hay que definir o acotar que niveles y aspectos se van a monitorear
  
 +  * Sistema Operativo
 +  * Utilización de red
 +    * Trafico y consumo de ancho de banda
 +    * Tiempos de respuesta
 +  * Servicios (SAP, Web, Bases de datos, DHCP)
 +=== Como impacta y para qué ===
 +  * Mejora de productividad
 +  * Antelacion de problemas
 +    * Conocer de donde proviene el problema
 +  * Reporte y aviso de incidentes
 +    * Agilidad en su tratamiento
 +    * Compartir datos sobre la disponibilidad y SLA
 +  * Mejor y mayor relacion e integracion de sectores adjuntos
 +  * Detectar las brechas de seguridad
 +  * Reducir y estimar periodos de inactividad y pérdidas empresariales
 +  * Planificar actualizaciones de TI - Capacity Planning
 +==== Requerimientos ====
 +=== Requerimientos Operativos ===
 +  * Plan de acción bien diagramado
 +  * Personal con conocimiento medio/avanzado en redes
 +{{ manuales:nagios:impacto_urgencia.png }}
 +=== Recursos tecnológicos ===
 +  * Hardware acorde a la inversion y criticidad de los datos
 +    * Si se van a monitorear >= 600 host y >= 2000 servicios hay que plantear bien esto, no sobrevaluar pero tampoco escatimar
 +=== Pasos específicos de Nagios ===
 +Las tareas de la configuración son las siguientes:
  
 +  * Definición de usuario para la ejecución de los daemons.
 +  * Configuración de apache para la visualización de la consola. Generalmente se accede a la consola de Nagios utilizando vínculos cifrados, por lo que es necesario crear los certificados correspondientes.
 +  * Si el cliente posee un directorio donde centraliza todos sus usuarios, se podrá utilizar un usuario especialmente creado para consultar los perfiles de los usuarios que accederán a la consola de administración. Entre los directorios soportados se encuentra Microsoft Active Directory.
 +  * Configuración de servidor de correo (MTA) y de SMS para el envío de todas las alertas que genera el sistema.
 +  * Configuración de plugins básicos y de plugins específicos.
 +  * Definición de Servicios a monitorear.
 +  * Definición de dependencias de servicios (en aquellos servicios que dependan de la funcionalidad de otro servicio para poder ser monitoreados se deben configurar las dependencias, esto le indica a Nagios que no tiene que declarar fuera de línea un servicio si del que depende está caído).
 +  * Definición de Commandos (los comandos son la forma en que se verifican el estado de los servicios declarados).
 +  * Definición de HostGroups (los hostgroups son grupos de servidores que se monitorean, junto con el cliente de realiza la diagramación de estos grupos).
 +  * Definición de Contacts (los contacts son personas o más bien direcciones de email/sms que integrarán los ContactGroups).
 +  * Definición de ContactGroups (los contactgroups son grupos que se utilizarán para enviar las alertas que se generen en la monitoría).
 +  * Creación de directivas (especificación de dónde se encuentran varias definiciones de Nagios como Hostgroups, ContactGroups, Contacts, etc.).
 +  * Configuración de sistema de parsing de logs para producir las gráficas (históricas) de rendimiento de los servicios.
 +  * Adaptación de notificaciones (las notificaciones, el texto del correo electrónico, puede ser adaptado para una mejor identificación de problemas a los administradores al igual que los mensajes SMS).