MONITORAO DE REDE Prof Jos Augusto Suruagy Monteiro

  • Slides: 53
Download presentation
MONITORAÇÃO DE REDE Prof. José Augusto Suruagy Monteiro

MONITORAÇÃO DE REDE Prof. José Augusto Suruagy Monteiro

2 Capítulo 2 de William Stallings. SNMP, SNMPv 2, SNMPv 3, and RMON 1

2 Capítulo 2 de William Stallings. SNMP, SNMPv 2, SNMPv 3, and RMON 1 and 2, 3 rd. Edition. Addison-Wesley, 1999. Baseado em slides do Prof. Chu-Sing Yang (Department of Electrical Engineering – National Cheng Kung University)

Roteiro 3 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas

Roteiro 3 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas Monitoração de contabilização

Introdução 4 Monitoração de rede � Observa e analisa o status e comportamento dos

Introdução 4 Monitoração de rede � Observa e analisa o status e comportamento dos sistemas finais, sistemas intermediários e sub-redes que compõem a configuração a ser gerenciada Principais áreas de projeto � Acesso à informação de monitoramento Como definir a informação de monitoramento Como levar a informação de um recurso até um gerente � Projeto de mecanismos de monitoramento Qual o melhor modo de obter informações dos recursos � Aplicação da informação monitorada Como a informação monitorada é usada nas diversas áreas funcionais de gerenciamento

Roteiro 5 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas

Roteiro 5 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas Monitoração de contabilização

6 Informação de Monitoração de Rede Informação estática � Caracteriza a configuração atual e

6 Informação de Monitoração de Rede Informação estática � Caracteriza a configuração atual e os seus elementos Número e identificação de portas em um roteador � É tipicamente gerada pelo elemento envolvido � A informação é disponibilizada a um gerente por um agente ou um proxy Informação dinâmica � Relacionada a eventos na rede Uma mudança de estado de uma máquina de protocolo Transmissão de um pacote numa rede � É coletada e armazenada pelo elemento de rede responsável pelos eventos correspondentes

7 Informação de Monitoração de Rede Informação estatística � É derivada da informação dinâmica

7 Informação de Monitoração de Rede Informação estatística � É derivada da informação dinâmica Número médio de pacotes transmitidos por unidade de tempo � É gerada por qualquer sistema que tenha acesso às informações dinâmicas correspondentes

8 Organização de uma base de informações de gerência

8 Organização de uma base de informações de gerência

9 Arquitetura Funcional da Monitoração de Rede

9 Arquitetura Funcional da Monitoração de Rede

10 Sistema de Monitoração de Rede Aplicação de monitoração � � Função gerente �

10 Sistema de Monitoração de Rede Aplicação de monitoração � � Função gerente � � Reúne e registra informações de gerência para um ou mais redes Comunica a informação ao monitor Objetos gerenciados � Módulo que efetua a função básica de monitoramento de recuperar informação de outros elementos Função agente � Inclui as funções da monitoração de rede que são visíveis aos usuários Monitoração de desempenho, de falhas e de contabilização É a informação de gerência que representa os recursos e suas atividades Agente de monitoramento � � Módulo adicional responsável pelas informações estatísticas Gera resumos e análises estatísticas da informação de gerência

Recursos gerenciados 11 Monitor de rede � Inclui software agente e um conjunto de

Recursos gerenciados 11 Monitor de rede � Inclui software agente e um conjunto de objetos gerenciados � Monitora a carga em si mesmo e na rede � Instrumentado para monitorar a quantidade de tráfego de gerência de rede que entra e sai do monitor

12 Recursos em um sistema agente Configuração mais comum para monitorar outros elementos de

12 Recursos em um sistema agente Configuração mais comum para monitorar outros elementos de rede Sistemas gerente e agente compartilham: � Protocolo de gerenciamento de rede � MIB

Monitor externo 13 Agentes que monitoram o tráfego em uma rede Também conhecidos como

Monitor externo 13 Agentes que monitoram o tráfego em uma rede Também conhecidos como monitores remotos

Agente Monitor Proxy 14 Proxy = intermediário Necessário quando elementos de rede não compartilham

Agente Monitor Proxy 14 Proxy = intermediário Necessário quando elementos de rede não compartilham o mesmo protocolo de gerência com o monitor de rede

Polling 15 Informações uteis para o monitoramento de rede são coletadas e armazenadas por

Polling 15 Informações uteis para o monitoramento de rede são coletadas e armazenadas por agentes e disponibilizadsa para um ou mais sistemas gerente Polling � É uma interação consulta-resposta entre um gerente e um agente � O gerente consulta um agente e solicita os valores de diversos elementos de informação � É usado para gerar um relatório para um usuário e para responder a consultas específicas do usuário

Polling 16 Gerente Consulta um agente e pede os valores de diversos elementos de

Polling 16 Gerente Consulta um agente e pede os valores de diversos elementos de informação � Obtém a configuração que está gerenciando � Obtém periodicamente uma atualização das condições � Investiga uma área em detalhes após ter sido alertado de um problema � Agente Responde com informações da sua MIB � Relata informação que corresponde a um determinado critério � Provê ao gerente informação sobre a estrutura da MIB no agente �

Relato de Ocorrência de Evento 17 Agente pode gerar um relato � Periodicamente para

Relato de Ocorrência de Evento 17 Agente pode gerar um relato � Periodicamente para informar ao gerente o seu estado atual � Quando ocorrer algum evento significativo ou incomum Gerente � Fica escutando, aguardando informação que chega � Pré-configura ou seta a periodicidade de envio de relatos Benefícios � Útil para detectar problemas assim que ocorrerem � Mais eficiente que o polling para monitorar objetos cujos estados ou valores mudam de forma relativamente infrequente

Polling vs. Relato de Evento 18 Fatores a serem considerados: Quantidade de tráfego de

Polling vs. Relato de Evento 18 Fatores a serem considerados: Quantidade de tráfego de rede gerado por cada um dos métodos � Robustez em situações críticas � Atraso para notificar o gerente da rede � Quantidade de processamento nos dispositivos gerenciados � Compromissos entre a transferência confiável e não confiável � As aplicações de monitoração de rede que estão sendo suportadas � As contingências necessárias caso o dispositivo notificador falhe antes de enviar o relato � Em geral Abordagem do SNMP: polling � Sistemas de gerenciamento de telecomunicações: ambos �

Roteiro 19 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas

Roteiro 19 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas Monitoração de contabilização

Indicadores de desempenho 20 Dificuldades na escolha e uso de indicadores: � Há muitos

Indicadores de desempenho 20 Dificuldades na escolha e uso de indicadores: � Há muitos indicadores em uso � O significado de muitos indicadores ainda não estão claramente compreendidos � Alguns indicadores são suportados apenas por alguns fabricantes � Muitos indicadores não são adequados para comparação uns com os outros � Indicadores são precisamente medidos mas incorretamente interpretados � O cálculo dos indicadores toma um tempo excessivo e os resultados finais são difíceis de ser usados para controlar o ambiente

Indicadores de desempenho 21 Orientados a serviço (mais alta prioridade) � Disponibilidade (availability) �

Indicadores de desempenho 21 Orientados a serviço (mais alta prioridade) � Disponibilidade (availability) � Tempo de resposta � Ausência de erros (accuracy) Orientados a eficiência � Vazão (throughput) � Utilização

Disponibilidade 22

Disponibilidade 22

Disponibilidade de um sistema 23 A disponibilidade de um sistema depende da disponibilidade dos

Disponibilidade de um sistema 23 A disponibilidade de um sistema depende da disponibilidade dos seus componentes individuais e da organização do sistema � Existência ou não de componentes redundantes

Disponibilidade de um sistema 24 Conexões em série: A = 0, 98 A(serial)=0, 98

Disponibilidade de um sistema 24 Conexões em série: A = 0, 98 A(serial)=0, 98 x 0, 98 =0, 96 Conexões em paralelo: Indisponibilidade =1 -A =0, 02 Indisponibilidade do sistema em paralelo =0, 02 x 0, 02 = 0, 0004 A(paralelo) = 1 - 0, 0004 =0, 9996

Disponibilidade: Exemplo 25 Disponibilidade de um sistema com dois links conectando um multiplexador a

Disponibilidade: Exemplo 25 Disponibilidade de um sistema com dois links conectando um multiplexador a um host Períodos normais correspondem a 40% dos pedidos, onde qualquer um dos links dá conta da carga de tráfego Durante os períodos de pico, os dois links são necessários para dar conta da carga total, mas um link dá conta de 80% da carga máxima. Af = (capacidade quando 1 link está ativo) * Pr[1 link estar ativo] + (capacidade quando 2 links estão ativos) * Pr[2 links estarem ativos]

Disponibilidade: Exemplo 26 Af = (capacidade quando 1 link está ativo) * Pr[1 link

Disponibilidade: Exemplo 26 Af = (capacidade quando 1 link está ativo) * Pr[1 link estar ativo] + (capacidade quando 2 links estão ativos) * Pr[2 links estarem ativos] Af (período normal) = 1 * [A(1 -A) + (1 -A)A] + 1 * (A*A) = 0, 99 Af (pico) = 0, 8 * [A(1 -A) + (1 -A)A] + 1 * (A)(A) = 0, 954 Af = 0, 6 * Af (pico) + 0, 4 * Af (período normal) Se A = 0, 9 então Af = 0, 9684 Portanto, o sistema consegue lidar com 97% das solicitações de serviço.

27 Requisitos básicos para disponibilidade Instalações seguras Sistemas elétricos (no-break, gerador, etc. ) Diversidade

27 Requisitos básicos para disponibilidade Instalações seguras Sistemas elétricos (no-break, gerador, etc. ) Diversidade de circuitos Redundância intra-chassis � Fontes de alimentação duais � Hot swap � Multiprocessadores

Tempo de Resposta 28 Tempo que leva para uma resposta aparecer no terminal do

Tempo de Resposta 28 Tempo que leva para uma resposta aparecer no terminal do usuário após uma solicitação do mesmo Custo para obter um tempo de resposta mais curto � Capacidade computacional Aumento na capacidade implica em custo mais elevado � Requisitos concorrentes Prover um tempo de resposta rápido para alguns processos pode penalizar outros processos A produtividade melhora quando tempos de resposta rápidos são alcançados � Até 2 segundos de tempo de resposta é aceitável para a maioria das aplicações interativas

29 Tempo de Resposta para Gráficos Estudo realizado com engenheiros usando um programa de

29 Tempo de Resposta para Gráficos Estudo realizado com engenheiros usando um programa de CAD para o projeto de CIs e placas. A produtividade (volume de transações) aumenta dramaticamente quando o tempo de resposta é inferior a 1 segundo.

30 Componentes do tempo de resposta

30 Componentes do tempo de resposta

Ausência de Erros (Accuracy) 31 Percentual de tempo que não ocorrem erros na transmissão

Ausência de Erros (Accuracy) 31 Percentual de tempo que não ocorrem erros na transmissão e entrega de informação � Mecanismos de correção de erros embutidos em protocolos Enlace de dados e TCP � Monitoração da taxa de erros pode identificar Um enlace com falhas intermitentes Existência de uma fonte de ruído ou interferência

Vazão (Throughput) 32 Taxa na qual ocorrem os eventos orientados a aplicação É uma

Vazão (Throughput) 32 Taxa na qual ocorrem os eventos orientados a aplicação É uma medida orientada a aplicação � No. de transações de um dado tipo num certo intervalo de tempo � No. de sessões de usuário para alguma aplicação durante um certo intervalo de tempo � No. de chamadas em um ambiente de comutação de circuito É útil rastrear estas medidas ao longo do tempo � Identificação de problemas de desempenho

Utilização 33 Percentual em uso da capacidade teórica de um recurso (ex. , multiplexador,

Utilização 33 Percentual em uso da capacidade teórica de um recurso (ex. , multiplexador, linha de transmissão, switch) É uma medida mais detalhada do que a vazão Usada para pesquisar potenciais gargalos e áreas de congestionamento O tempo de resposta normalmente cresce exponencialmente à medida que cresce a utilização de um recurso

Análise simples de eficiência 34

Análise simples de eficiência 34

35 Função de Monitoração de Desempenho Componentes da monitoração de desempenho � Medição de

35 Função de Monitoração de Desempenho Componentes da monitoração de desempenho � Medição de desempenho Coleta estatísticas sobre o tráfego e tempos da rede Realizado por módulos agentes que observam o comportamento dos nós Nó. de conexões, tráfego por conexão Monitor externo (remoto) Transfere a carga de processamento de nós operacionais para sistemas dedicados � Análise de desempenho Consiste de software para reduzir e apresentar os dados � Geração de tráfego sintético Permite observar a rede sob uma carga controlada

36 Relatórios de medição de desempenho em uma LAN Matriz de comunicação dos hosts

36 Relatórios de medição de desempenho em uma LAN Matriz de comunicação dos hosts Matriz de comunicação de grupos Histograma de tipo de pacotes Histograma de tamanho dos pacotes de dados Distribuição de vazão-utilização Histograma do tempo entre chegadas de pacotes Histograma do atraso de obtenção do canal Histograma do atraso de comunicação Histograma da contagem de colisões Histograma da contagem das transmissões

37 Perguntas em relação a possíveis erros ou ineficiências O tráfego está igualmente distribuído

37 Perguntas em relação a possíveis erros ou ineficiências O tráfego está igualmente distribuído entre os usuários da rede ou há pares O-D com tráfego pesado? Qual é o percentual de cada tipo de pacote? Há algum tipo de pacote com alta frequência não esperada indicando um erro ou ineficiência do protocolo? Qual é a distribuição dos tamanhos dos pacotes de dados? Quais são as distribuições do tempo de aquisição de canais e de transmissão? Estes tempos são excessivos? As colisões são um fator em conseguir transmitir os pacotes, indicando um hardware ou protocolos com

38 Perguntas em relação ao crescimento da carga de tráfego Qual é o efeito

38 Perguntas em relação ao crescimento da carga de tráfego Qual é o efeito da carga de tráfego na utilização, vazão e retardos? Quando a carga de tráfego começa a degradar o desempenho do sistema? Qual o compromisso entre estabilidade, vazão e atraso? Qual é a capacidade máxima do canal em condições normais de operação? Quantos usuários ativos são necessários para atingir este máximo? Pacotes mais longos aumentam ou diminuem a vazão e o atraso? Como o tamanho constante de pacotes afeta a utilização e o atraso?

39 Medições Estatísticas vs. Exaustivas Quando um agente está monitorando uma carga de tráfego

39 Medições Estatísticas vs. Exaustivas Quando um agente está monitorando uma carga de tráfego pesada, pode não ser prático coletar todos os dados (exaustivo). � Monitora o número total de pacotes num dado intervalo de tempo para cada par O-D na LAN Amostra o fluxo de tráfego para estimar o valor da variável aleatória � Métodos estatísticos: probabilidades

Roteiro 40 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas

Roteiro 40 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas Monitoração de contabilização

Monitoração de Falhas 41 Objetivo: � Identificar uma falha assim que possível após sua

Monitoração de Falhas 41 Objetivo: � Identificar uma falha assim que possível após sua ocorrência e identificar a sua causa de modo que possa ser tomada uma ação reparadora Problemas com a observação de falhas � Falhas não observáveis Certas falhas são inerentemente não observáveis localmente � Falhas parcialmente observáveis O defeito em um nó pode ser observável mas insuficiente para localizar o problema � Existência de impasse entre processos cooperativos distribuídos pode não ser observável localmente Nó pode não responder devido a um defeito em algum protocolo de baixo nível Incerteza na observação Falta de resposta de um dispositivo remoto pode significar que o dispositivo está travado, a rede está particionada ou congestionamento causou o atraso da resposta ou o temporizador local está com defeito.

Monitoração de Falhas 42 Problemas no isolamento de falhas a um dado componente: �

Monitoração de Falhas 42 Problemas no isolamento de falhas a um dado componente: � Múltiplas causas em potencial � Demasiadas observações relacionadas � Um único defeito pode gerar diversos defeitos secundários Interferência entre o diagnóstico e procedimentos locais de recuperação � O uso de múltiplas tecnologias causam aumento na quantidade de pontos e tipos de defeitos Os procedimentos locais de recuperação podem destruir importantes evidências a respeito da natureza da falha, desabilitando o diagnóstico Ausência de ferramentas de testes automatizados Os testes para isolar falhas são difíceis e custosos para administrar

Monitoração de Falhas 43

Monitoração de Falhas 43

Monitoração de Falhas 44 x

Monitoração de Falhas 44 x

Monitoração de Falhas 45

Monitoração de Falhas 45

46 Funções de Monitoração de Falhas Detecção de falhas Agente relata erros de forma

46 Funções de Monitoração de Falhas Detecção de falhas Agente relata erros de forma independente para um ou mais gerentes Agente mantém um registro de eventos significativos e erros Critérios para emitir um relato de falha � Evita sobrecarga Antecipação de falhas � Estabelecendo limiares � Taxa de perda de pacotes Uma interface de usuário efetiva

47 Testes para o isolamento de falhas Teste de conectividade Teste de integridade dos

47 Testes para o isolamento de falhas Teste de conectividade Teste de integridade dos dados Teste de integridade do protocolo Teste de saturação dos dados Teste de saturação da conexão Teste de tempo de resposta Teste de loopback Teste funcional Teste de diagnóstico

Roteiro 48 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas

Roteiro 48 Introdução Arquitetura de monitoração de rede Monitoração de desempenho Monitoração de falhas Monitoração de contabilização

Monitoração de contabilização 49 Registra o uso de recursos da rede pelos usuários �

Monitoração de contabilização 49 Registra o uso de recursos da rede pelos usuários � � Um sistema de contabilização interno avalia o uso total dos recursos e determina o custo dos recursos compartilhados para cada departamento Sistema oferece um serviço público Recursos que podem ser sujeitos a contabilização � Recursos de comunicação � Hardware � Estações de trabalho e servidores Software e sistemas � LANs, WANs, linhas alugadas, linhas discadas, sistemas de PBX Software de aplicações e utilitários em servidores, centro de dados e sites de usuários finais Serviços Incluem todos os serviços comerciais de comunicação e informação

Coleta de Dados de Contabilização 50 Baseada nos requisitos da organização Dados de contabilização

Coleta de Dados de Contabilização 50 Baseada nos requisitos da organização Dados de contabilização relacionados comunicação podem ser coletados e mantidos em cada usuário � � Identificação do usuário Receptor Número de pacotes Nível de segurança � Carimbos de tempo � Associados com cada evento de transmissão e processamento Temos de início e término de transações Códigos de status da rede � Identifica as prioridades de transmissão e processamento Indica a natureza de qualquer erro ou mau funcionamento detectado Recursos utilizados

51 Resumo

51 Resumo

Resumo 52 Monitoração de rede é o aspecto mais fundamental do gerenciamento automático de

Resumo 52 Monitoração de rede é o aspecto mais fundamental do gerenciamento automático de rede � Coleta informação sobre o status e comportamento dos elementos de rede Informação estática Informação dinâmica Informação estatística � Agente coleta informação local de gerência e transmite para um ou mais NMS � Cada NMS inclui software de aplicação de gerência de rede mais software para comunicação com agentes

Resumo 53 Monitoração de desempenho Disponibilidade � Tempo de resposta � Ausência de erros

Resumo 53 Monitoração de desempenho Disponibilidade � Tempo de resposta � Ausência de erros � Vazão � Utilização � Monitoração de falhas Identifica falhas assim que possível � Identifica a causa da falha e toma ação corretiva � Função de monitoração de falha é complicada � Monitoração de contabilização � Coleta informação de uso de cada um dos recursos