Herramientas de usuario

Herramientas del sitio


capacitaciones:monitoreo

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Última revisiónAmbos lados, revisión siguiente
capacitaciones:monitoreo [2015/06/02 13:42] – [Estrategias de monitoreo] cayucapacitaciones:monitoreo [2015/06/02 14:13] – [Costo por caída de Servicio] cayu
Línea 55: Línea 55:
 Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente. Acciones Secundarias con la implementació de sistema de Monitoreo, son la mejora de una CMDB existente.
 === Objetivos === === Objetivos ===
-Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas.+Conocer el estado de diferentes servicios brindados por un conjunto heterogéneo de dispositivos y equipos como servidores corriendo diferentes sistemas operativos, routers de los cuales dependen varios sistemas y subsistemas. Sistemas SCADA que afectan procesos industriales.
  
 Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios. Para poder tener esta información se debe establecer un control que asegure el mantenimiento de los dispositivos y se puedan efectuar acciones en forma preventiva, correctiva ó reactiva con rápida respuesta según corresponda en tiempo y forma ante eventuales anomalías de los servicios.
 +
 +Es posible conocer los estados y datos de estos diferentes equipos para una posterior elaboración de reportes etc, elaborando una configuración personalizada de monitoreo para cada caso en particular, por ejemplo por medio de testeo de paquetes de red, o haciendo uso de diferentes funciones como las que provee el protocolo SNMP (Simple Network Management Protocol) que nos permite gestionar y/o supervisar datos de diferentes elementos y componentes de la red como routers, switches, servidores etc y al ser un protocolo standard es posible monitorizar una amplia variedad de casos en escenarios con sistemas ó equipos diferentes.
 +
 +**Con lo cual podremos concluir si el sistema :**
 +
 +    * Lleva a cabo eficazmente su finalidad
 +    * Utiliza eficientemente los recursos.
 +
 +**Para :**
 +
 +    * Optimizar los Procesos
 +    * Reducir Costos Operativos
 +    * Llevar a cabo un mejoramiento del Control de Calidad
 +        * Minimizar Tiempos => $$$$
 +
 +**Ya que podemos :**
 +
 +    * Detectar de forma sistemática el uso de los recursos y los flujos de información dentro de una organización.
 +    * Determinar qué información es crítica para el cumplimiento de su misión y objetivos, identificando necesidades, duplicidades, costos, valor y barreras, que obstaculizan flujos de información eficientes.
 +    * Análizar de eficiencia del sistema.
 +    * Verificar el cumplimiento de Normativas.
 +    * Revisión de la gestión de recursos.
 +
 +**Con esto podemos elaborar informes, responder ante evaluaciones externas y documentar la evaluación para reflejar el desarrollo y los resultados de la misma pero además vamos a :**
 +
 +    * Fortalecer bases de información para grupos y personas de apoyo que trabajan con los sistemas.
 +
 +**Puntos principales a tener en cuenta :**
 +
 +    * Aplicación estable para entornos productivos.
 +    * Licencia de código abierto.
 +    * Debe monitorear equipos idenpendientemente de sistemas operativos : Windows, Linux, Unix, CISCO iOS. 
 +    * Generar alertas cuando se identifican incidencias.
 +    * Los datos se deben poder exportar para su posterior análisis. 
 +    * El sistema debe poder trabajar tanto con agentes instalados en los equipos clientes como sin ellos.
 +    * Poder generar complementos (plugs in) independientemente del lenguaje de programación o ubicación de los mismos.
 +    * Documentación suficiente y clara disponible del sistema de monitoreo. 
 +    * El sistema debe tener una comunidad que lo respalde y preferentemente empresas.
 +    * El sistema debe ser muy conocido o utilizado. Existencia de empresas clientes o usuarios a los que se puede referenciar.
 +    * Actualizaciones regulares.
 +
 +**Como adicional debemos cubrir :**
 +
 +  * Necesidades de Automatización, Instrumentación y Optimización de los procesos industriales.
 +
 +**Gestión proactiva para alcanzar los objetivos organizacionales**
 +
 +Diseñar e implementar procesos operativos y administrativos eficaces aplicables a la Gestión de la Red de TI.
 +
 +La **Gestión de Problemas** puede ser:
 +
 +  * **Reactiva:** Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
 +  * **Proactiva:** Monitorea la calidad de la infraestructura TI. Analiza los Registros de Incidentes y configuraciones utilizando datos de otros procesos de Gestión del Servicio de TI para identificar tendencias o problemas significativos con el objetivo de prevenir incidentes incluso antes de que estos ocurran.
 +
 +Cuando se produce un problema que genera una anomália estamos ante una incidencia. La **Gestión de Incidencias** tiene como objetivo resolver, de la manera más rápida y eficaz posible, cualquier incidente que cause una interrupción en el servicio.
 +
 +La meta a llegar para mejorar la eficiencia de un Área de TI, es poder ir adoptando una metodología de gestión proactiva de problemas.
  
 Para esto deben haber fuentes que nos permitan generar **indicadores**. Para esto deben haber fuentes que nos permitan generar **indicadores**.
Línea 167: Línea 224:
   * Desventajas   * Desventajas
     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.     * Puede provocar mayor carga de actividad en el cliente. Se debe instalar el agente en todos los equipos que se van a monitorear.
-==== Gestión de monitoreo ====+ 
 ==== Que chequear y como hacerlo ==== ==== Que chequear y como hacerlo ====
 === Capas a chequear === === Capas a chequear ===
Línea 193: Línea 251:
     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.     - Si ese servicio de conectividad no es el único modo de acceder al servicio o solo se cayó un nodo de la red WAN, ya sea una Unidad Organizativa, como una sucursal etc.
       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.       - Solo se mostrará como caído ese nodo de red, ejemplo "Sucursal 1". Pero el servicio seguira figurando correctamente.
 +=== Notificaciones ===
 +== Tipo edicto ==
 +Edicto tiene su origen en el latín //proclamar en voz alta//. Podemos decir que es un aviso público sobre un asunto de interés común para todo el grupo afectado.
 +
 +En el caso de un sistema de monitoreo informático en el cual queremos que todos o un cierto grupo de la organización se den por notificados de un evento o incidente en forma colectiva dependiendo solo de su ubicación física sin considerar herramientas de comunicación individuales como lo son el correo electrónico o mensajes de texto al móvil SMS. 
 +
 +Para este tipo de lógica podemos diseñar e implementar mecanismos visuales, como por ejemplo pantallas gigantes con diagramas de red indicando su estado actual. A su vez se puede acompañar lo visual con alertas sonoras.
 +== Notificaciones individualizadas ==
 +En este caso nos referimos a notificación como una comunicación enviada una persona para que actúe tomando acción sobre algún proceso de TI en el caso de que sea necesario.
 +
 +En la mayoría de los casos, cuanta más información acerca del evento quede se muestre en la notificación, y cuanto mejor se determine el destinatario de dicha información, más fácil resultará tomar decisiones respecto al mismo. Una situación recurrente es que se registran mensajes de error complejos y el personal de **primer nivel** encargado de resolver los problemas no alcanza a comprender su significado completo y en algunos casos debe escalar el problema a un **segundo** o **tercer nivel** solo para su comprensión o análisis.
 +
 +En otros caso pasa todo los contrario hay ciertos servicios que solo los debe atender personal técnico altamente calificado y por lo tanto con enviar un notificación breve solamente con la mínima información necesaria para la compresión del caso ya es suficiente y además mas eficiente.
 +
 +Hay que considerar diferentes condiciones de envío de información ya que esta debe estar personalizada en base al conocimiento técnico del receptor y sus posibilidades de recepción del mismo, ya sea por dispositivo como teléfono móvil, computadora, tablet, a su vez si es un correo electrónico debe tener un rango de información y si es un mensaje de texto SMS debe tener otro rango para asegurar su eficiente lectura.
 +
 +<note>
 +Los roles y responsabilidades deben ser bien definidos desde la fase de Diseño, ya que cuando se presente un evento es probable que se requiera una acción.
 +</note>
 +
 +Las notificaciones pueden ser :
 +
 +  * **Informativas**: Se asigna a aquellos eventos que no requieren, en principio, ninguna respuesta y que por tanto no representan un problema.
 +  * **Alerta**: Se asigna a aquellos eventos que indican que el servicio se aproxima a un umbral. Su objetivo es notificar a las personas, herramientas o procesos apropiados para que revisen la situación y tomen las medidas necesarias para evitar que se produzca un incidente.
 ===== Costos y Disponibilidad de Servicio ===== ===== Costos y Disponibilidad de Servicio =====
 ==== Costos y Servicio ==== ==== Costos y Servicio ====
Línea 234: Línea 316:
 Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** : Por y para eso para nosotros es necesario como proovedores de servicio que somos y al estar abasteciendo a otras empresas con exigencias necesarias para el desarrollo de su actividad, **en este caso, la base material para correr su infraestructura informática** :
  
-//Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente./+<note> 
 +Que tengamos un registro minucioso y reportado de eventos ya que estos pueden afectarnos directamente de forma legal y monetaria en el desarrollo de nuestras actividades sino llevamos control de los mismos. Para a su vez así poder justificar y definir el costo y alcance de la arquitectura empresarial de la metodología de gestión de servicios de negocio poniendo foco en las necesidades del cliente. 
 +</note>
 ==== Estimación de porcentaje de disponibilidad de servicio ==== ==== Estimación de porcentaje de disponibilidad de servicio ====
 === Formas de calcular la disponibilidad de servicio === === Formas de calcular la disponibilidad de servicio ===
 **Ejemplo de cálculo SLA** **Ejemplo de cálculo SLA**
 +<note>
 **D = A/B x 100** **D = A/B x 100**
  
Línea 263: Línea 346:
     - Tiempo de atención al usuario.     - Tiempo de atención al usuario.
 **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio. **Punto de restauración de servicio**, se debe verificar con el Cliente por medio de **Pruebas de Aceptación del Servicio** (a definir contractualmente) que el Cliente contratante del servicio realizará a fin de acusar conformidad con la restauración de la disponibilidad del servicio.
 +</note>
 ==== Costo por caída de Servicio ==== ==== Costo por caída de Servicio ====
 === Calculando el costo por caída de Servicio === === Calculando el costo por caída de Servicio ===
Línea 269: Línea 353:
   * **Coste de Inactividad de los empleados / Perdida de Productividad**   * **Coste de Inactividad de los empleados / Perdida de Productividad**
     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.     * Básicamente es “Cuánto cuesta que nuestros empleados estén parados”, para ello, podemos utilizar el coste medio por hora de los empleados y lo multiplicaremos por el tiempo de inactividad y por el número de empleados afectados por la caída.
 +<note>
 **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio. **Coste Medio de Inactividad** = Coste por hora de empleado * Nº de empleados afectados * Duración de la interrupción de servicio.
 +</note>
   * **Pérdida de Operaciones**   * **Pérdida de Operaciones**
     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.     * Este concepto hace referencia al número de operaciones que no se llevan a cabo por la caída de sistemas, ya sean ventas, transacciones, pedidos o cualquier otra operación objeto del negocio de la compañía. Por ejemplo, si nuestra compañía se dedica a vender productos por internet podemos determinar en función de las estadísticas de venta diarias cuanto nos cuesta tener parado nuestro portal web.
Línea 382: Línea 466:
 == Nuestras necesidades == == Nuestras necesidades ==
 Estan en orden de prioridad, pero todas van atadas de la mano una con otra : Estan en orden de prioridad, pero todas van atadas de la mano una con otra :
-  * Solución de Monitoreo Integral +<note warning>Solución de Monitoreo Integral</note> 
-  Registro y Correlación de Eventos, tanto en equipos de red como en servidores +<note important>Registro y Correlación de Eventos, tanto en equipos de red como en servidores</note> 
-  Documentación Rápida, Participativa,Colaborativa (Debe ser vía Web, con edición individual de secciones y versionado)+<note>Documentación Rápida, Participativa,Colaborativa\\ Debe ser vía Web, con edición individual de secciones y versionado</note>
 === Objetivos a largo plazo === === Objetivos a largo plazo ===
 == CMDB Biblioteca para organizar el servicio de TI == == CMDB Biblioteca para organizar el servicio de TI ==