VALIDAO INTEGRIDADE E MONITORAMENTO DAS DOENAS NIGEL PANETH

VALIDAÇÃO, INTEGRIDADE E MONITORAMENTO DAS DOENÇAS NIGEL PANETH

MEDIDAS DE INTEGRIDADE TERMINOLOGIA INTEGRIDADE é análoga à precisão. VALIDAÇÃO é análoga à segurança

INTEGRIDADE E VALIDAÇÃO INTEGRIDADE inclui: • avaliações feitas pelo mesmo observador em diferentes períodos

AVALIANDO INTEGRIDADE Como avaliamos a integridade? Uma maneira é observar simplesmente a percentagem de

EXEMPLO São dadas a dois médicos 100 radiografias para analisar independentemente, e lhes é

Há integridade nos diagnósticos? A percentagem de concordância é suficiente para indicar integridade? 95%

COMPARE AS DUAS TABELAS ABAIXO: TABELA 1 TABELA 2 MD 1 SIM MD 2

• QUAL A DIFERENÇA ESSENCIAL ENTRE AS DUAS TABELAS? • O problema surge

USO DE KAPPA PARA AVALIAR INTEGRIDADE KAPPA é um teste de concordância INTER e

KAPPA VARIA DE +1 à -1 +1 significa que os dois observadores concordaram perfeitamente.

GUIA PARA USO DE KAPPA EM EPIDEMIOLOGIA E EM MEDICINA: KAPPA 0, 80 é

PRIMEIRA MANEIRA DE CALCULAR KAPPA: 1. Calcule a concordância observada (células nas quais os

OS TOTAIS MARGINAIS DA TABELA 1 SÃO: OBSERVADOS MD 2 MD 1 SIM NÃO

OBSERVADOS MD 2 MD 1 SIM 1 NÃO 3 4 NÃO 2 94 96

Para chegar a isso, encontramos a proporção das respostas em cada coluna (3% e

Por subtração, todas as outras células serão preenchidas automaticamente, e cada distribuição de células

Agora você pode ver que somente por operação de acaso, 93, 24 das 100

Agora comparemos a concordância atual com a concordância esperada: A concordância esperada é 6,

ABAIXO ESTÁ A FÓRMULA PARA O CÁLCULO DE KAPPA DA CONCORD NCIA (C) ESPERADA:

UM KAPPA DE 0, 26% É BOM? KAPPA 0, 80 é considerado excelente. KAPPA

No segundo exemplo, a concordância observada foi também, de 95%, mas os totais marginais

Calculamos a concordância esperada N, para qualquer célula, usando o mesmo procedimento anterior baseado

E, por subtração as outras células que estão abaixo. As células que indicam concordância

ENTRE AS DUAS CONCORD NCIAS (C) NA FÓRMULA: C. observada – C. esperada 1

OUTRA FORMA DE CALCULAR KAPPA: 2(AD – BC) N 1 N 4 + N

VEJA NOVAMENTE NA TABELA DO SLIDE 7. Para a TABELA 1: 2 (94 x

NOTE O PARALELISMO ENTRE: A ODDS RATIO - RAZÃO DE PROBABILIDADES O QUI-QUADRADO ESTATÍSTICO

VALIDAÇÃO E MONITORAMENTO AS TRÊS MEDIDAS CHAVES DA VALIDAÇÃO: SENSIBILIDADE ESPECIFICIDADE VALORES PREVISTOS

TABELA DE QUATRO CÉLULAS PARA AVALIAR A RELAÇÃO DE TESTE-DOENÇA ESTADOS DE DOENÇA +

SENSIBILIDADE Ela nos indica o quanto um teste positivo detecta a doença. É definida

ESPECIFICIDADE Nos indica o quanto um teste negativo é bom para detectar nenhuma doença.

VALORES PREVISTOS VALOR PREVISTO POSITIVO é a proporção de todas as pessoas com resultados

PONTOS CHAVES PARA RELEMBRAR Sensibilidade, especificidade, falsos positivos e falsos negativos são todos os

CALCULANDO SENSIBILIDADE, ESPECIFICIDADE E OS VALORES PREVISTOS teste é utilizado em 50 pessoas com

DOENÇA TESTE + - 48 3 51 2 47 49 50 50 100 Sensibilidade

Agora, vamos aplicar este teste numa população onde 2% das pessoas têm a doença,

AGORA, QUAL O VALOR POSITIVO PREVISTO? 192/780 X 100 = 24, 6%. Quando a

MUDANDO O LIMITE DE UM TESTE Quando a doença é definida por um limiar

PROBLEMAS DE MONITORAMENTO • Temos um correto limiar? • Há um tratamento verdadeiramente efetivo

EXEMPLO: Um ensaio randomizado (aleatório) é implementado para se avaliar um programa de monitoramento

APÓS CINCO ANOS ENCONTRAMOS QUE: Mais casos são descobertos no grupo monitorado que no

NÃO, O PROGRAMA NÃO É NECESSARIAMENTE EFETIVO. Os benefícios aparentes só demonstram os efeitos

CONSIDERE COMO O TEMPO DO DIAGNÓSTICO MUDA COM O MONITORAMENTO NO CENÁRIO ABAIXO: GRUPO

OUTROS RISCOS (BIAS) NO MONITORAMENTO: RISCO (BIAS) DE AMPLITUDE DE TEMPO • Muitas doenças

No cenário anterior, a incidência de doença é inicialmente mais alta, o diagnóstico é

Exercício de mamografia (Mamógrafo) 1. Menos de 50 anos, a sensibilidade é de 75%;

Exercício de mamografia (Mamógrafo) (continuação) 3. Menos de 50 anos, a incidência é de

Slides: 47

Download presentation

VALIDAÇÃO, INTEGRIDADE E MONITORAMENTO DAS DOENÇAS NIGEL PANETH

MEDIDAS DE INTEGRIDADE TERMINOLOGIA INTEGRIDADE é análoga à precisão. VALIDAÇÃO é análoga à segurança da exatidão. INTEGRIDADE é como um observador classifica melhor o mesmo indivíduo sob diferentes circunstâncias. VALIDAÇÃO é como uma prova reproduz melhor um resultado comparado à outra prova de maior segurança conhecida.

INTEGRIDADE E VALIDAÇÃO INTEGRIDADE inclui: • avaliações feitas pelo mesmo observador em diferentes períodos de tempo – INTEGRIDADE INTRAOBSERVADOR. • avaliações feitas por observadores diferentes ao mesmo tempo – INTEGRIDADE INTEROBSERVADOR. INTEGRIDADE presume que todas as provas e observadores sejam iguais. VALIDAÇÃO presume que haja um padrão de ouro com o qual a prova e o observador serão comparados.

AVALIANDO INTEGRIDADE Como avaliamos a integridade? Uma maneira é observar simplesmente a percentagem de concordância. - Percentagem de concordância é a proporção de todos os diagnósticos classificados da mesma maneira por dois observadores.

EXEMPLO São dadas a dois médicos 100 radiografias para analisar independentemente, e lhes é perguntado se há a presença de pneumonia ou não. Quando ambos os seus diagnósticos são comparados, encontramos que 95% dos diagnósticos são os mesmos.

Há integridade nos diagnósticos? A percentagem de concordância é suficiente para indicar integridade? 95% de concordância entre os dois médicos e a ausência ou presença da doença em uma amostra de 100 pacientes sempre indica boa concordância? Você se sentiria tranqüilo se seu hospital fizesse um constante trabalho de leitura de Raios X do tórax, e se elas apresentassem 95% de integridade?

COMPARE AS DUAS TABELAS ABAIXO: TABELA 1 TABELA 2 MD 1 SIM MD 2 NÃO SIM NÃO 1 3 2 94 MD 1 SIM NÃO MD 2 SIM NÃO 43 2 3 52 Em ambos os exemplos, os médicos concordaram em 95% de vezes. Os dois médicos são igualmente íntegros nas duas tabelas?

• QUAL A DIFERENÇA ESSENCIAL ENTRE AS DUAS TABELAS? • O problema surge da facilidade de concordância em eventos comuns (Ex: não existindo pneumonia na primeira tabela). • Uma medida de concordância deverá levar em consideração a “facilidade” de concordância devida somente ao acaso.

USO DE KAPPA PARA AVALIAR INTEGRIDADE KAPPA é um teste de concordância INTER e INTRA-observadores (ou integridade) amplamente utilizado, que corrige por concordância o acaso.

KAPPA VARIA DE +1 à -1 +1 significa que os dois observadores concordaram perfeitamente. Eles classificaram a todos exatamente da mesma forma. 0 significa que não existe nenhuma relação entre as classificações dois observadores, acima da concordância de acasos que seriam esperadas. -1 significa que os dois observadores classificaram exatamente o oposto. Se um observador diz SIM, o outro sempre diz NÃO.

GUIA PARA USO DE KAPPA EM EPIDEMIOLOGIA E EM MEDICINA: KAPPA 0, 80 é considerado excelente. KAPPA 0, 60 – 0, 80 é considerado bom. KAPPA 0, 40 – 0, 60 é considerado regular. KAPPA 0, 40 é considerado ruim

PRIMEIRA MANEIRA DE CALCULAR KAPPA: 1. Calcule a concordância observada (células nas quais os observadores concordaram/totais de células). Em ambas as TABELAS 1 e 2 são de 95%. 2. Calcule a concordância esperada (acaso de concordância) baseada nas marginais totais.

OS TOTAIS MARGINAIS DA TABELA 1 SÃO: OBSERVADOS MD 2 MD 1 SIM NÃO SIM 1 3 4 NÃO 2 94 96 3 97 100

OBSERVADOS MD 2 MD 1 SIM 1 NÃO 3 4 NÃO 2 94 96 3 97 100 ESPERADOS MD 1 SIM NÃO MD 2 SIM 4 NÃO 96 3 97 100 Como calculamos o N esperado por acasos (azar) em cada célula? Supondo que cada célula reflete as distribuições marginais, ex: as proporções das respostas SIM e NÃO deverão ser as mesmas dentro de uma tabela de quatro células como os totais marginais.

Para chegar a isso, encontramos a proporção das respostas em cada coluna (3% e 97%, SIM e NÃO respectivamente, para MD 1) ou na coluna (4% e 96%, SIM e NÃO respectivamente, para MD 2) dos totais marginais, e aplicamos uma das duas proporções no outro total marginal. Ex: 96% dos totais das colunas n categoria “NÃO”. Portanto, 96% de NÃO por acasos de MD 1, deveriam também, estar na coluna de NÃO. 96% de 97 são 93, 12. ESPERADO S MD 1 SIM NÃO SIM MD 2 NÃO 4 93, 12 96

Por subtração, todas as outras células serão preenchidas automaticamente, e cada distribuição de células SIM/NÃO refletirá a distribuição marginal. Qualquer célula poderá ser usada para fazer o cálculo, uma vez que, se cada célula é especificada numa tabela 2 X 2 com distribuições marginais fixadas, todas as outras células também, serão especificadas. ESPERADO S MD 1 SIM NÃO SIM 0, 12 3, 88 MD NÃO 2, 88 93, 12 2 4 96

Agora você pode ver que somente por operação de acaso, 93, 24 das 100 observações deveriam ser concordantes para os dois observadores (93, 12 + 0, 12) MD 1 ESPERADOS MD 2 SIM NÃO SIM 0, 12 3, 88 4 NÃO 2, 88 93, 12 96 3 97 100

Agora comparemos a concordância atual com a concordância esperada: A concordância esperada é 6, 76% distante da concordância completa de 100%, (100% - 93, 24% = 6, 76%). A concordância atual foi de 5, 0% da concordância completa de 100%, (100% – 95%). Assim, nossos dois observadores foram 1, 76% melhores que o acaso (azar), mas se eles tivessem concordado completamente, deveriam ter sido 6, 76% melhores que o acaso (azar). Logo, eles são melhores em somente cerca de 0, 26% que o acaso (azar) ou seja, 1, 76/6, 76 ¼.

ABAIXO ESTÁ A FÓRMULA PARA O CÁLCULO DE KAPPA DA CONCORD NCIA (C) ESPERADA: C. observada – C. esperada 1 – Concordância esperada 95% - 93, 24% 1 – 93, 24% = 1, 76 6, 76 = 0, 26%

UM KAPPA DE 0, 26% É BOM? KAPPA 0, 80 é considerado excelente. KAPPA 0, 60 – 0, 80 é considerado bom. KAPPA 0, 40 – 0, 60 é considerado regular. KAPPA 0, 40 é considerado ruim.

No segundo exemplo, a concordância observada foi também, de 95%, mas os totais marginais foram muito diferentes. MD 1 ATUAL MD 2 SIM NÃO SIM 46 NÃO 54 45 55 100

Calculamos a concordância esperada N, para qualquer célula, usando o mesmo procedimento anterior baseado nos totais marginais. Ex: a célula de valor mais baixo à direita é 54% de 55, que é 29, 7. MD 1 ATUAL SIM NÃO SIM 46 MD 2 NÃO 45 29, 7 54 55 100

E, por subtração as outras células que estão abaixo. As células que indicam concordância estão ressaltadas em amarelo e somam 54, 4%. MD 1 ATUAL MD 2 SIM NÃO SIM 20, 7 25, 3 46 NÃO 24, 3 29, 7 54 45 55 100

ENTRE AS DUAS CONCORD NCIAS (C) NA FÓRMULA: C. observada – C. esperada 1 – Concordância esperada 95% - 50, 4% = 44, 6% = 0, 90 1 – 50, 4% 49, 6% Neste exemplo, os observadores têm a mesma % de concordância, mas agora eles são muito diferentes do acaso (azar). O KAPPA de 0, 90 é considerado excelente.

OUTRA FORMA DE CALCULAR KAPPA: 2(AD – BC) N 1 N 4 + N 2 N 3 Onde, os valores Ns são totais marginais, assim denominados: MD 1 MD 2 SIM NÃO SIM A B N 1 NÃO C D N 2 N 3 N 4 Total

VEJA NOVAMENTE NA TABELA DO SLIDE 7. Para a TABELA 1: 2 (94 x 1 – 2 x 3) = 4 x 97 + 3 x 96 176 = 0, 26 676 Para a TABELA 2: 2 (52 x 43 – 3 x 2) = 46 x 55 + 45 x 54 4460 = 0, 90 4960

NOTE O PARALELISMO ENTRE: A ODDS RATIO - RAZÃO DE PROBABILIDADES O QUI-QUADRADO ESTATÍSTICO O KAPPA ESTATÍSTICO Note que são centrais nas três expressões os produtos cruzados das tabelas de quatro células e suas relações com os totais marginais.

VALIDAÇÃO E MONITORAMENTO AS TRÊS MEDIDAS CHAVES DA VALIDAÇÃO: SENSIBILIDADE ESPECIFICIDADE VALORES PREVISTOS

TABELA DE QUATRO CÉLULAS PARA AVALIAR A RELAÇÃO DE TESTE-DOENÇA ESTADOS DE DOENÇA + RESULTADO + DO TESTE - - NÃO TESTE DOENTE TESTE NEGATIVO POSITIVO LIVRE DE DOENTE TESTE DOENÇA TESTE POSITIVO NEGATIVO DOENTE TESTE POSITIVO DOENTE NÃO DOENTE

SENSIBILIDADE Ela nos indica o quanto um teste positivo detecta a doença. É definida como a fração dos doentes com resultados positivos nos testes. Seus complementos são as taxas dos testes falso negativos, definidas como a fração de doentes que dão resultados negativos nos testes. A sensibilidade e a taxa de falsos negativos somam UM.

ESPECIFICIDADE Nos indica o quanto um teste negativo é bom para detectar nenhuma doença. É definida como a fração dos não-doentes que deram testes negativos. Seu complemento é a taxa de falsos positivos definida como a fração dos nãodoentes cuja prova foi positiva. Especificidade mais a taxa de falsos positivos dão UM.

VALORES PREVISTOS VALOR PREVISTO POSITIVO é a proporção de todas as pessoas com resultados positivos que têm a doença. VALOR PREVISTO NEGATIVO é a proporção de todas as pessoas com resultados negativos que não têm a doença. Em geral, o valor previsto positivo é o mais utilizado. O valor previsto positivo e a sensibilidade são talvez, os dois parâmetros mais importantes para o entendimento da utilização de um teste sob as condições de campo.

PONTOS CHAVES PARA RELEMBRAR Sensibilidade, especificidade, falsos positivos e falsos negativos são todos os denominadores comuns para doentes e não doentes (utilizamos no total das colunas). Ao contrário, os valores previstos são denominadores para o status do teste, positivo ou negativo (utilizamos no total das seqüências). Sensibilidade e especificidade não variam de acordo com a prevalência da doença na população. Os valores previstos de um teste, sem dúvida, são ALTAMENTE DEPENDENTES sob a prevalência da doença na população.

CALCULANDO SENSIBILIDADE, ESPECIFICIDADE E OS VALORES PREVISTOS teste é utilizado em 50 pessoas com uma doença e 50 pessoas sem a doença. Estes são os resultados: DOENÇA TEST E + - 48 3 51 2 47 49 50 50 100 U

DOENÇA TESTE + - 48 3 51 2 47 49 50 50 100 Sensibilidade = 48/50 x 100 = 96% Especificidade = 47/50 x 100 = 94%. Valor previsto positivo = 48/51 x 100 = 94%. Valor previsto negativo = 47/49 x 100 = 96%.

Agora, vamos aplicar este teste numa população onde 2% das pessoas têm a doença, não os 50% como no exemplo anterio Suponha que existem 10. 000 pessoas, e a mesma sensibilidade e especificidade anterior com valores de 96% e 94% respectivamente. DOENÇA TESTE + - 192 588 780 8 9. 212 9. 220 200 9. 800 10. 000

AGORA, QUAL O VALOR POSITIVO PREVISTO? 192/780 X 100 = 24, 6%. Quando a prevalência de uma doença é de 50%, 94% dos testes positivos indicam a doença. Mas quando a prevalência é de somente 2%, menor que 1 em quatro nos resultados testes, estes indicam uma pessoa com a doença, e que atualmente 2% deveriam apresentar uma doença comum. Os resultados falsos positivos tendem a esconder-se em verdadeiros positivos nas populações, devido a que muitas doenças que testamos são raras.

MUDANDO O LIMITE DE UM TESTE Quando a doença é definida por um limiar num teste contínuo, as características do teste podem ser alteradas mudando-se o limite ou o PONTO DE CORTE (CUT-OFF). Diminuir o limite melhora a sensibilidade, mas muitas vezes a custo de diminuir a especificidade (ex: mais falsos positivos). Aumentar o limite melhora a especificidade, a custo da diminuição da sensibilidade (ex: mais falsos negativos). Isto é especificamente importante quando a distribuição de uma característica é UNIMODAL, como a pressão arterial, colesterol, peso, etc (devido à zona cinza – borderline - ser muito ampla).

PROBLEMAS DE MONITORAMENTO • Temos um correto limiar? • Há um tratamento verdadeiramente efetivo disponível para a doença diagnosticada? • Este tratamento é mais efetivo nos casos monitorados que nós não monitorados? • Quais são os efeitos adversos do processo de monitoramento? • O quanto eficiente é o monitoramento? Ex: Quantas pessoas têm que ser monitoradas para se encontrar um caso?

EXEMPLO: Um ensaio randomizado (aleatório) é implementado para se avaliar um programa de monitoramento para o câncer de colon. O grupo da intervenção tem monitoramento regular, o grupo controle é deixado a mercê de seus próprios recursos.

APÓS CINCO ANOS ENCONTRAMOS QUE: Mais casos são descobertos no grupo monitorado que no grupo controle. Os casos são descobertos com antecedência aos estágios do câncer no grupo monitorado. A sobrevida a cinco anos é maior nas pessoas com câncer monitoradas. Podemos concluir que este programa de monitoramento é necessariamente efetivo?

NÃO, O PROGRAMA NÃO É NECESSARIAMENTE EFETIVO. Os benefícios aparentes só demonstram os efeitos do RISCO DEPENDENTE DO TEMPO. Sendo possível diagnosticar uma condição de forma antecipada, isso não melhorará a sobrevida depois do diagnóstico; o programa de monitoramento terá uma super representação de casos diagnosticados mais cedo, cuja sobrevida será aumentada por exatamente o tempo em que seu diagnóstico foi feito de forma mais antecipada pelo programa de monitoramento. Assim, eles não serão beneficiados, mas a quantidade de tempo que eles saberão que têm câncer terá aumentado.

CONSIDERE COMO O TEMPO DO DIAGNÓSTICO MUDA COM O MONITORAMENTO NO CENÁRIO ABAIXO: GRUPO SEM MONITORAMENTO: Dx IDADE 50 51 52 53 54 MORTE 55 GRUPO MONITORADO: Dx IDADE 50 51 52 53 54 MORTE 55

OUTROS RISCOS (BIAS) NO MONITORAMENTO: RISCO (BIAS) DE AMPLITUDE DE TEMPO • Muitas doenças crônicas, especialmente cânceres, não progridem com a mesma rapidez em todos os pacientes. • Qualquer grupo de doentes incluirá alguns para os quais a doença se desenvolve mais lentamente e em outros se desenvolve mais rápido. • Preferencialmente, o monitoramento incluirá doenças de desenvolvimento lento (com maior oportunidade de serem monitoradas) e que normalmente terá melhor prognóstico.

No cenário anterior, a incidência de doença é inicialmente mais alta, o diagnóstico é feito mais cedo, o estagio do diagnóstico é mais antecipado e a duração da sobrevida desde o diagnóstico é mais ampla. Todos eles nos dão a impressão de benefícios do monitoramento. Todavia o paciente não é beneficiado, visto que a morte não é adiada. A única evidência de efetividade no programa de monitoramento é uma redução da morbidade ou mortalidade específica por total de idade, idealmente demonstrado num ensaio randomizado (aleatório).

Exercício de mamografia (Mamógrafo) 1. Menos de 50 anos, a sensibilidade é de 75%; acima dos 50 anos, a sensibilidade é de 90%. 2. Menos de 50 anos, 640 mamografias anormais foram confirmadas com 17 cânceres, a razão FP/TP é 623/17 = 36, 7. Acima dos 50 anos, 100 mamografias anormais, foram confirmadas 14 cânceres; a razão FP/TP é 86/14 = 6, 1. Expressando-os como valores previstos positivos, teremos respectivamente: 17/640 x 100 = 2, 7% e 14/100 x 100 = 14%.

Exercício de mamografia (Mamógrafo) (continuação) 3. Menos de 50 anos, a incidência é de 1, 42/1000/ano (baseado em 37 mortes em 10000 em 10 anos). Acima dos 50 anos, a incidência é de 2, 5/1000/ano (baseado em 1/40/10 anos). MORTALIDADE – 0, 67/1000/ano (baseado em 1/150 em 10 anos).