Herramientas de usuario

Herramientas del sitio


capacitaciones:monitoreo

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Última revisiónAmbos lados, revisión siguiente
capacitaciones:monitoreo [2015/04/28 19:42] – [Capacitación en implementación del producto] cayucapacitaciones:monitoreo [2015/06/02 14:13] – [Costo por caída de Servicio] cayu
Línea 55: Línea 55:
 Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente. Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.
 === Objetivos === === Objetivos ===
-Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas.+Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.
  
 Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios. Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.
 +
 +Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.
 +
 +**Con lo cual podremos concluir si el sistema :**
 +
 +    * Lleva a cabo eficazmente su finalidad
 +    * Utiliza eficientemente los recursos.
 +
 +**Para :**
 +
 +    * Optimizar los Procesos
 +    * Reducir Costos Operativos
 +    * Llevar a cabo un mejoramiento del Control de Calidad
 +        * Minimizar Tiempos => $$$$
 +
 +**Ya que podemos :**
 +
 +    * Detectar de forma sistemática el uso de los recursos y los flujos de información dentro de una organización.
 +    * Determinar qué información es crítica para el cumplimiento de su misión y objetivos, identificando necesidades, duplicidades, costos, valor y barreras, que obstaculizan flujos de información eficientes.
 +    * Análizar de eficiencia del sistema.
 +    * Verificar el cumplimiento de Normativas.
 +    * Revisión de la gestión de recursos.
 +
 +**Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :**
 +
 +    * Fortalecer bases de información para grupos y personas de apoyo que trabajan con los sistemas.
 +
 +**Puntos principales a tener en cuenta :**
 +
 +    * Aplicación estable para entornos productivos.
 +    * Licencia de código abierto.
 +    * Debe monitorear equipos idenpendientemente de sistemas operativos : Windows, Linux, Unix, CISCO iOS. 
 +    * Generar alertas cuando se identifican incidencias.
 +    * Los datos se deben poder exportar para su posterior análisis. 
 +    * El sistema debe poder trabajar tanto con agentes instalados en los equipos clientes como sin ellos.
 +    * Poder generar complementos (plugs in) independientemente del lenguaje de programación o ubicación de los mismos.
 +    * Documentación suficiente y clara disponible del sistema de monitoreo. 
 +    * El sistema debe tener una comunidad que lo respalde y preferentemente empresas.
 +    * El sistema debe ser muy conocido o utilizado. Existencia de empresas clientes o usuarios a los que se puede referenciar.
 +    * Actualizaciones regulares.
 +
 +**Como adicional debemos cubrir :**
 +
 +  * Necesidades de Automatización, Instrumentación y Optimización de los procesos industriales.
 +
 +**Gestión proactiva para alcanzar los objetivos organizacionales**
 +
 +Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.
 +
 +La **Gestión de Problemas** puede ser:
 +
 +  * **Reactiva:** Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
 +  * **Proactiva:** Monitorea la calidad de la infraestructura TI. Analiza los Registros de Incidentes y configuraciones utilizando datos de otros procesos de Gestión del Servicio de TI para identificar tendencias o problemas significativos con el objetivo de prevenir incidentes incluso antes de que estos ocurran.
 +
 +Cuando se produce un problema que genera una anomália estamos ante una incidencia. La **Gestión de Incidencias** tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.
 +
 +La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.
  
 Para esto deben haber fuentes que nos permitan generar **indicadores**. Para esto deben haber fuentes que nos permitan generar **indicadores**.
Línea 167: Línea 224:
   * Desventajas   * Desventajas
     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.
 +
 +
 ==== Que chequear y como hacerlo ==== ==== Que chequear y como hacerlo ====
 === Capas a chequear === === Capas a chequear ===
Línea 192: Línea 251:
     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.
       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.
 +=== Notificaciones ===
 +== Tipo edicto ==
 +Edicto tiene su origen en el latín //proclamar en voz alta//. Podemos decir que es un aviso público sobre un asunto de interés común para todo el grupo afectado.
 +
 +En el caso de un sistema de monitoreo informático en el cual queremos que todos o un cierto grupo de la organización se den por notificados de un evento o incidente en forma colectiva dependiendo solo de su ubicación física sin considerar herramientas de comunicación individuales como lo son el correo electrónico o mensajes de texto al móvil SMS. 
 +
 +Para este tipo de lógica podemos diseñar e implementar mecanismos visuales, como por ejemplo pantallas gigantes con diagramas de red indicando su estado actual. A su vez se puede acompañar lo visual con alertas sonoras.
 +== Notificaciones individualizadas ==
 +En este caso nos referimos a notificación como una comunicación enviada una persona para que actúe tomando acción sobre algún proceso de TI en el caso de que sea necesario.
 +
 +En la mayoría de los casos, cuanta más información acerca del evento quede se muestre en la notificación, y cuanto mejor se determine el destinatario de dicha información, más fácil resultará tomar decisiones respecto al mismo. Una situación recurrente es que se registran mensajes de error complejos y el personal de **primer nivel** encargado de resolver los problemas no alcanza a comprender su significado completo y en algunos casos debe escalar el problema a un **segundo** o **tercer nivel** solo para su comprensión o análisis.
 +
 +En otros caso pasa todo los contrario hay ciertos servicios que solo los debe atender personal técnico altamente calificado y por lo tanto con enviar un notificación breve solamente con la mínima información necesaria para la compresión del caso ya es suficiente y además mas eficiente.
 +
 +Hay que considerar diferentes condiciones de envío de información ya que esta debe estar personalizada en base al conocimiento técnico del receptor y sus posibilidades de recepción del mismo, ya sea por dispositivo como teléfono móvil, computadora, tablet, a su vez si es un correo electrónico debe tener un rango de información y si es un mensaje de texto SMS debe tener otro rango para asegurar su eficiente lectura.
 +
 +<note>
 +Los roles y responsabilidades deben ser bien definidos desde la fase de Diseño, ya que cuando se presente un evento es probable que se requiera una acción.
 +</note>
 +
 +Las notificaciones pueden ser :
 +
 +  * **Informativas**: Se asigna a aquellos eventos que no requieren, en principio, ninguna respuesta y que por tanto no representan un problema.
 +  * **Alerta**: Se asigna a aquellos eventos que indican que el servicio se aproxima a un umbral. Su objetivo es notificar a las personas, herramientas o procesos apropiados para que revisen la situación y tomen las medidas necesarias para evitar que se produzca un incidente.
 ===== Costos y Disponibilidad de Servicio ===== ===== Costos y Disponibilidad de Servicio =====
 ==== Costos y Servicio ==== ==== Costos y Servicio ====
Línea 233: Línea 316:
 Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** : Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** :
  
-//Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente./+<note> 
 +Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente. 
 +</note>
 ==== Estimación de porcentaje de disponibilidad de servicio ==== ==== Estimación de porcentaje de disponibilidad de servicio ====
 === Formas de calcular la disponibilidad de servicio === === Formas de calcular la disponibilidad de servicio ===
 **Ejemplo de cálculo SLA** **Ejemplo de cálculo SLA**
 +<note>
 **D = A/B x 100** **D = A/B x 100**
  
Línea 262: Línea 346:
     - Tiempo de atención al usuario.     - Tiempo de atención al usuario.
 **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio. **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio.
 +</note>
 ==== Costo por caída de Servicio ==== ==== Costo por caída de Servicio ====
 === Calculando el costo por caída de Servicio === === Calculando el costo por caída de Servicio ===
Línea 268: Línea 353:
   * **Coste de Inactividad de los empleados / Perdida de Productividad**   * **Coste de Inactividad de los empleados / Perdida de Productividad**
     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.
 +<note>
 **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio. **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio.
 +</note>
   * **Pérdida de Operaciones**   * **Pérdida de Operaciones**
     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.
Línea 381: Línea 466:
 == Nuestras necesidades == == Nuestras necesidades ==
 Estan en orden de prioridad, pero todas van atadas de la mano una con otra : Estan en orden de prioridad, pero todas van atadas de la mano una con otra :
-  * Solución de Monitoreo Integral +<note warning>Solución de Monitoreo Integral</note> 
-  Registro y Correlación de Eventos, tanto en equipos de red como en servidores +<note important>Registro y Correlación de Eventos, tanto en equipos de red como en servidores</note> 
-  Documentación Rápida, Participativa,Colaborativa (Debe ser vía Web, con edición individual de secciones y versionado)+<note>Documentación Rápida, Participativa,Colaborativa\\ Debe ser vía Web, con edición individual de secciones y versionado</note>
 === Objetivos a largo plazo === === Objetivos a largo plazo ===
 == CMDB Biblioteca para organizar el servicio de TI == == CMDB Biblioteca para organizar el servicio de TI ==
Línea 441: Línea 526:
   * Interfaz web opcional, para observar el estado de la red actual, notificaciones, historial de problemas, archivos de registros, etc.   * Interfaz web opcional, para observar el estado de la red actual, notificaciones, historial de problemas, archivos de registros, etc.
   * Reportes y estadísticas del estado cronológico de disponibilidad de servicios y hosts.   * Reportes y estadísticas del estado cronológico de disponibilidad de servicios y hosts.
 +  * Definición de niveles o umbrales de alerta según periodos de tiempo.
 +  * Consideración de tiempos de inoperatividad con anticipación para evitar envío innecesario de alertas. 
 === Quien va a usar Nagios === === Quien va a usar Nagios ===
   * Administradores de Redes con alto conocimiento tecnico   * Administradores de Redes con alto conocimiento tecnico
Línea 492: Línea 579:
   * Configuración de sistema de parsing de logs para producir las gráficas (históricas) de rendimiento de los servicios.   * Configuración de sistema de parsing de logs para producir las gráficas (históricas) de rendimiento de los servicios.
   * Adaptación de notificaciones (las notificaciones, el texto del correo electrónico, puede ser adaptado para una mejor identificación de problemas a los administradores al igual que los mensajes SMS).   * Adaptación de notificaciones (las notificaciones, el texto del correo electrónico, puede ser adaptado para una mejor identificación de problemas a los administradores al igual que los mensajes SMS).
-===== Instalación de Nagios ===== 
-==== Tareas ==== 
-=== Dependencias de Software === 
-Para una correcta instalación de Nagios, con todas sus características es necesario tener instalados ciertos paquetes de software en el sistema, la instalación puede variar según la distribución de Linux que elijamos, si los tenemos empaquetados, o si los tenemos que compilar en instalar manualmente. 
-^Paquete^Descripción^Sitio web^ 
-|Perl|Interprete para el lenguaje de script Perl|http://www.perl.org| 
-|Net::SNMP|Modulo de Perl para consultas SNMP|http://search.cpan.org/dist/Net-SNMP| 
-|Crypt::DES|Modulo de Perl para encripción DES, necesario para consultas SNMPv3|http://search.cpan.org/~dparis/Crypt-DES/| 
-|Digest::HMAC|Keyed-Hashing for Message Authentication|http://search.cpan.org/dist/Digest-HMAC/| 
-|Digest::SHA1|Perl interface to the SHA-1 algorithm|http://search.cpan.org/dist/Digest-SHA1/| 
-|RRDTool|Utilitario para generación de gráficas de red y además\\ su módulo de integración con el lenguaje Perl|http://oss.oetiker.ch/rrdtool| 
-|Zlib|Librería de compresión utilizada por las utilidades graficas|http://www.gzip.org/zlib/  | 
-|LibJPEG|Librería para exportación jpg|http://www.ijg.org/  | 
-|LibPNG|Librería para exportación png|http://www.libpng.org/pub/png/  | 
-|Freetype2|Librería para procesamiento de fuentes|http://www.freetype.org/  | 
-|Graphviz|Utilitario para generación de graficas|http://www.graphviz.org/  | 
-|XFree86-libs|Librerías gráficas generales|http://koala.ilog.fr/lehors/xpm.html  | 
-|Apache 2|Servidor Web|http://httpd.apache.org/  | 
-|PHP|Interprete de lenguaje de script|http://www.php.net| 
-|MySQL|Sistema de base de datos|http://www.mysql.com| 
-|Postfix|SMTP para enviar mail|http://www.postfix.org/  | 
-|GD|Librería para generación de formatos graficos|http://www.libgd.org/  | 
-|Nagvis|Aditivo para la generación de diagramas dinamicos|http://www.nagvis.org/| 
-|PNP4Nagios|Aditivo para la generación de gráficos estadísticos y reportes visuales|http://www.pnp4nagios.org/| 
-|NDO|Agregado para articular Nagios con MySQL|http://www.nagios.org| 
-|Plugins|Plugins de chequeo standard de Nagios|http://www.nagios.org| 
-|SNMP Plugins|Plugins para la integración de chequeos SNMP de Nagios|http://nagios.manubulon.com/| 
-|Nagios|Sitio de descarga oficial|http://www.nagios.org| 
-|NagiosQL|Herramienta visual de configuración de Nagios via Web|http://www.nagiosql.org/| 
-|Dokuwiki|Herramienta de documentación colaborativa|http://www.dokuwiki.org/| 
-|Syslog-Ng|Logueo de eventos del sistema|http://www.balabit.com/network-security/syslog-ng/| 
-|SNARE|Agente Syslog para clientes Windows|http://www.intersectalliance.com/projects/index.html| 
-|MK Livestatus|Aditivo para obtener los datos de Nagios \\ en Vivo via Socket (muy útil para abandonar NDO)|http://mathias-kettner.de/checkmk_livestatus.html| 
-|Gnokii|Aplicación de interfaz para celulares y modems 3G, \\ para la realización de llamadas y alertas SMS|http://gnokii.org| 
-|Thruk|Interfaz alternativa para Nagios, con muchas funciones extras, \\ basado en MK Livestatus|www.thruk.org| 
-|Interfacetable_v3t|Plugin para detectar y chequear las interfaces de un Router|[[http://www.tontonitch.com/tiki/tiki-index.php?page=Nagios%20plugins%20-%20interfacetable_v3t|http://www.tontonitch.com/]]| 
-|Check TSM|Plugin para hacer chequeos generales en Tivoli TSM|https://github.com/osklil/nagios-misc| 
-|Check Iostat|Estadisticas y alertas en base a los datos de iostat|http://sysengineers.wordpress.com/2010/05/27/check_iostat-pl-version-0-9-7/| 
-|Cliente Oracle\\ Basic\\ SQL*Plus|Cliente de Oracle para realizar los chequeos|http://www.oracle.com/technetwork/database/features/instant-client/| 
-|Eventdb|Integración de chequeos de Syslog|https://www.netways.org/projects/eventdb| 
-|Highchart for Nagios|Gráficos de PNP4Nagios en AJAX |http://sourceforge.net/projects/highchartfornag/| 
-=== Descarga y compilación === 
-En este apartado nos concentraremos en la descarga y compilación de los diferentes paquetes bajados en formato de //código fuente//. 
- 
-Para empezar deberemos descargar el //código fuente// del software Nagios desde su sitio web, en formato tar.gz 
- 
-Para ello descomprimiremos el paquete descargado y luego procederemos a compilarlo. 
- 
-Luego ejecutaremos el script **configure**, lo que hacer dicho script, es generar el ambiente propicio para poder ejecutar el proceso de compilación, ayudados por medio de la utilidad **make**. 
- 
-Ejemplo de salida de ejecución del script configure : 
-<code> 
-*** Configuration summary for nagios 4.1.0rc1 02-18-2015 ***: 
- 
- General Options: 
- ------------------------- 
-        Nagios executable:  nagios 
-        Nagios user/group:  nagios,nagios 
-       Command user/group:  nagios,nagios 
-             Event Broker:  yes 
-        Install ${prefix}:  /usr/local/nagios 
-    Install ${includedir}:  /usr/local/nagios/include/nagios 
-                Lock file:  ${prefix}/var/nagios.lock 
-   Check result directory:  ${prefix}/var/spool/checkresults 
-           Init directory:  /etc/init.d 
-  Apache conf.d directory:  /etc/apache2/conf.d 
-             Mail program:  /bin/mail 
-                  Host OS:  linux-gnu 
-          IOBroker Method:  epoll 
- 
- Web Interface Options: 
- ------------------------ 
-                 HTML URL:  http://localhost/nagios/ 
-                  CGI URL:  http://localhost/nagios/cgi-bin/ 
- Traceroute (used by WAP):  /usr/sbin/traceroute 
- 
- 
-Review the options above for accuracy.  If they look okay, 
-type 'make all' to compile the main program and CGIs. 
-</code>