Pesquisar este blog

domingo, 19 de junho de 2011

Falsos Positivos e Falsos Negativos

Exame laboratorial é bastante confiável. Certo? Nem sempre...

O campo agora é o da Medicina. Como se sabe, pode haver dois tipos de erro em exames laboratoriais: o “falso positivo”, quando o resultado é positivo mas o paciente não possui a doença, e o “falso negativo”, quando o indivíduo é portador da doença mas ela não é detectada no exame. Mostrarei neste post como, em doenças graves e de menor freqüência na população, o índice declarado de acerto de um determinado exame pode ser extremamente enganoso ao se avaliar a probabilidade de um resultado positivo estar correto. Ilustrarei a análise com uma possível aplicação prática na avaliação de resultados positivos de HIV em testes em gestantes no Brasil.

Inicialmente, considero uma situação hipotética de uma doença cuja prevalência (índice de infecção) na população é de 1% e cujos pacientes que realizarão o exame são escolhidos de forma aleatória, de forma que o exame não é exclusivo para as pessoas que desconfiam portar a doença. Os índices de acerto de um exame em pessoas doentes ou saudáveis são denominados, em Estatística Médica, de sensibilidade e especificidade do teste, respectivamente, termos que utilizarei de forma recorrente neste texto. Assumirei inicialmente os seguintes valores para estes índices:

Probabilidade de o exame dar positivo para pessoas que têm a doença
(sensibilidade do teste)
95%
Probabilidade de o exame dar negativo para pessoas que não têm a doença (especificidade do teste)
95%


Na prática, uma pessoa que realiza um exame não sabe se tem a doença, pois é justamente para obter essa informação que o exame é feito. Portanto, o que ela de fato deve avaliar, após receber o resultado do exame, é um das duas questões abaixo, conforme o caso:

(a) qual a probabilidade de eu realmente ter a doença se o resultado do exame foi positivo?
  (valor de predição positiva do teste, conhecido pela sigla VPP)

(b) qual a probabilidade de eu realmente não ter a doença se o resultado do exame foi negativo?
  (valor de predição negativa do teste, conhecido pela sigla VPN)

Avaliarei inicialmente a questão (a), que é a de maior relevância. Pode parecer assustador, mas o VPP do exame considerado no exemplo é de apenas 16,10%. Ou seja, apesar dos elevados índices de acerto do exame tanto em pessoas doentes como em pessoas saudáveis (95%), a chance de a pessoa ser saudável no caso de um resultado positivo é mais de 5 vezes maior do que a chance de ela estar doente (os cálculos são detalhados no apêndice desse texto). Como isto é possível?

O ponto crucial que influencia esse resultado é a prevalência muito baixa da doença. Considere um conjunto total de 10.000 pessoas realizando esse exame. Como 1% da população tem a doença, então, nesse conjunto, haverá em média 100 pessoas doentes e 9.900 pessoas saudáveis. Considerando o índice assumido de 95% de acerto em ambos os grupos, das 100 pessoas doentes, em média 95 receberão um resultado positivo e 5 receberão um resultado negativo. De forma análoga, 95% das 9.900 pessoas saudáveis (9405 pessoas) receberão um resultado negativo, e os 5% restantes (495 pessoas) receberão um resultado positivo. Portanto, desse conjunto total de 10.000 pessoas, haverá, em média, 590 resultados positivos (95 provenientes das pessoas doentes e 495 provenientes das pessoas saudáveis), sendo que apenas 16,10% destes resultados (95/590) correspondem a pessoas que estão de fato doentes.

Já quando o resultado do teste é negativo, a probabilidade da pessoa de fato não ter a doença (VPN) é de 99,95%, valor que também surpreende, mas desta vez por ser razoavelmente maior do que os valores de sensibilidade e especificidade do teste. A lógica agora é oposta: a baixa prevalência da doença atua a favor da confiabilidade do teste no caso de um resultado negativo.

Voltando à questão (a), o resultado mostra claramente porque um teste que é aplicado em doenças de baixa prevalência – e que, em geral, costumam ser graves – necessita ter um índice de acerto elevadíssimo, principalmente em pessoas saudáveis, para que um resultado positivo seja confiável. Para melhorar o índice VPP do teste, podem-se realizar dois procedimentos, que não são concorrentes:

1) Investir na melhoria dos índices de sensibilidade e especificidade do teste

Realizei uma análise variando, isoladamente, a sensibilidade e especificidade do teste, que são os seus índices de acerto quando aplicados a pessoas doentes e saudáveis, respectivamente. Em cada caso, considerei uma melhora gradativa em um dos índices, enquanto o outro se manteve no mesmo valor adotado anteriormente, de 95%. Os novos resultados de VPP (probabilidade de estar realmente doente em caso de resultado positivo) em função da melhora na acurácia do teste em cada uma dessas situações são mostrados na tabela abaixo:


É interessante observar que uma melhora apenas no índice de acerto para as pessoas doentes (sensibilidade do teste) não tem efeito quase nenhum na melhora do VPP. Na verdade, o problema maior está no índice de erro do teste quando aplicado a pessoas saudáveis, pelo fato de que a maioria da população NÃO tem a doença. Como mostrado na linha tracejada em preto na figura, para atingir níveis de confiança elevados (os tão famosos 95% em Estatística) é preciso ter um índice de acerto em pessoas saudáveis (especificidade do teste) em torno de 99,95%.

2) Realizar testes adicionais (“contraprovas”)

Talvez fosse interessante realizar outro tipo de teste para os pacientes cujo resultado tivessem sido positivo, pois a falha do teste pode não ter sido aleatória, mas sim causada por alguma característica do indivíduo que prejudica a realização deste teste em particular. Entretanto, considerarei que a falha foi “casual” e que o mesmo teste pode ser realizado repetidamente no paciente sob condições idênticas, tendo os mesmos índices de sensibilidade e especificidade considerados na primeira realização do teste.

O cálculo do VPP dos testes subsequentes deve ser feito levando-se em consideração a informação sobre o resultado dos testes anteriores, que indicarão novas probabilidades estimadas da pessoa ter a doença, antes de realizar o teste. Por exemplo, na avaliação do resultado do primeiro teste, considerei que a probabilidade da pessoa ter a doença antes do teste era de 1%, referente ao índice de prevalência da doença. No entanto, após um primeiro resultado positivo, a expectativa de que a pessoa esteja doente antes da realização do segundo teste é de 16,10%, referente ao cálculo do VPP do primeiro teste.

Na hipótese de ocorrerem sucessivos resultados positivos, as probabilidades de a pessoa ter a doença em cada caso são indicadas na tabela abaixo. Como se observa, a ocorrência de 3 testes positivos já seria suficiente para que o resultado fosse bem mais confiável.

Probabilidade de a pessoa ter a doença quando todos os resultados são positivos, no caso-exemplo
(prevalência de 1% e índices de sensibilidade e especificidade de 95%)
1 teste
2 testes
3 testes
4 testes
5 testes
16,10%
78,48%
98,57%
99,92%
99,996%


Aplicação prática

Um estudo realizado em 2005 nos Estados Unidos2 reportou que, em 752 laboratórios americanos, o método padrão na época para detecção de HIV-1 apresentou um índice de sensibilidade de 99,7% e um índice de especificidade de 98,5%. Com esses dados, a análise apresentada neste post poderia ser aplicada para avaliar o resultado desse teste em gestantes no Brasil, onde a prevalência desse tipo de infecção é de apenas 0,4%, segundo dados do Boletim Epidemiológico de 2010, emitido pelo Ministério da Saúde.3 Ressalta-se que, como o teste de HIV é obrigatório durante o acompanhamento pré-natal, todas as mulheres devem fazê-lo, e não apenas as que desconfiam serem portadoras da doença. Esta hipótese de aleatoriedade na condição da pessoa que faz o teste é fundamental, caso contrário não seria razoável supor que a probabilidade da pessoa ter a doença antes do primeiro teste seja igual à prevalência da doença.

Neste caso prático, seriam obtidas as seguintes probabilidades de a gestante estar infectada, após a realização do exame:

Se o 1º teste for positivo: 21,1%
Se o 1º e 2º testes forem positivos:  94,6 %
Se o 1º, 2º e 3º testes forem positivos: 99,9 %

Estes números mostram a importância de realização da contraprova. Um laboratório jamais deveria divulgar ao paciente o resultado de um exame de uma doença grave e de baixa prevalência na população sem que houvesse uma segunda ou até mesmo uma terceira prova. Por sua vez, o paciente deve sempre tomar a iniciativa de realizar exames adicionais, caso o resultado de um primeiro exame seja positivo. Lembro que, há algum tempo, o procedimento padrão na rede pública na presença de um resultado positivo de HIV é o de realizar um novo exame utilizando um método alternativo, mais caro.


Cálculo da Probabilidade para o caso exemplo:

1) Para avaliação do VPP do teste, a seguinte probabilidade condicionada deve ser calculada:

Pr (pessoa estar doente çresultado ser positivo) =
= Pr (pessoa estar doente Ç Resultado ser positivo)  / Pr (resultado positivo)
= (0,01 ´ 0,95) / (0,01 ´ 0,95 + 0,99 ´ 0,05)  =   0,1610 (ou 16,10%)

onde, no denominador, somam-se as probabilidades de resultado positivo nas duas situações mutuamente excludentes: pessoas doentes e pessoas saudáveis.

Para o cálculo do VPN, o raciocínio é análogo:

Pr (pessoa ser saudável çresultado ser negativo) =
= Pr (Pessoa ser saudável Ç Resultado ser negativo)  / Pr (Resultado ser negativo)
=   (0,99 ´ 0,95) / (0,01 ´ 0,05 + 0,99 ´ 0,95)  =   0,9995 (ou 99,95%)
                                                            
O cálculo para o 2º, 3º e demais testes em seqüência segue o mesmo conceito, porém substituem-se as probabilidades originais de estar doente e saudável (0,01 e 0,99, obtidas dos índices de prevalência da doença) pelas probabilidades obtidas após o teste anterior. Por exemplo, para o segundo teste, utilizam-se os valores de 0,161 e 0,839 para essas probabilidades.

2) Estudo reproduzido na Wikipedia e publicado originalmente em 2005 na revista Annals of Internal Medicine, sob o título "Screening for HIV: a review of the evidence for the U.S. Preventive Services Task Force" (http://www.annals.org/content/143/1/55).


terça-feira, 7 de junho de 2011

Fraudando as Estatísticas

Apesar de ter surgido no século XVII com o objetivo principal de estudar jogos e apostas, a Teoria da Probabilidade - e posteriormente, a Estatística - tem aplicações interessantes nas mais distintas áreas, como Medicina, Criptografia, Esportes, Atuária, Psicologia, entre muitas outras. Neste post, mostrarei como ela já pode ser aplicada na prática para estudar fraudes em balanços financeiros1.

Nos Estados Unidos, em 2003, um jovem empreendedor chamado Kevin Lawrence levantou 91 milhões de dólares em investimentos para criar uma cadeia de fitness clubs. Entretanto, ao invés de utilizar o dinheiro dos investidores exclusivamente para este fim, boa parte do dinheiro foi utilizada na compra de bens pessoais. Nos balanços financeiros da recém criada empresa, ele precisou inventar uma série de compras e transações financeiras envolvendo outras empresas de fachada, para dar a impressão de que o negócio estava em plena evolução.

Tudo ia aparentemente bem, até que um contador resolveu realizar uma comparação entre as freqüências em que cada algarismo (de 1 a 9) aparecia no primeiro dígito dos valores desses balanços e as freqüências determinadas pela chamada “Lei de Benford”2. Segundo esta lei, existe um padrão logarítmico na freqüência em que cada algarismo aparece no primeiro dígito (à esquerda) de valores associados a muitos fenômenos naturais e humanos, tais como comprimentos de rios, populações de grandes cidades, circulações de jornais, e balanços financeiros. A freqüência aproximada de cada algarismo é mostrada na tabela abaixo:

Algarismo
1
2
3
4
5
6
7
8
9
Frequência
30,1%
17,6%
12,5%
9,7%
7,9%
6,7%
5,8%
5,1%
4,6%

Percebe-se que a freqüência diminui progressivamente à medida que o valor do algarismo aumenta. Há também padrões para as frequências de cada algarismo no segundo, terceiro e demais dígitos (sempre da esquerda para a direita) dos valores associados aos fenômenos mencionados acima, no entanto esses padrões são menos notáveis em relação ao do primeiro dígito.

Testes estatísticos aplicados na análise de mais de 70.000 valores que constavam nos cheques e transações bancárias de Kevin Lawrence rejeitaram a hipótese de que os algarismos seguissem a lei de Benford, o que indicava a fraude no balanço. Ou seja, havia um forte indício de que os números do balanço não teriam sido originados de forma natural, fruto de transações financeiras reais, mas sim teriam sido gerados artificialmente. É evidente que, do ponto de vista jurídico, essa constatação não seria suficiente para condenar Kelvin, mas ela foi a motivação inicial para se realizar uma investigação que culminou com sua condenação a 20 anos de prisão. Além da fraude em si contra os investidores, um grande erro de Kelvin foi fraudar também as estatísticas associadas ao estudo das probabilidades.

De forma a também comprovar empiricamente a lei de Benford, realizei o mesmo tipo de análise nas minhas transações bancárias e itens da fatura de meus cartões de crédito em um período de até 6 meses. O histograma abaixo compara as freqüências em que cada algarismo aparece no primeiro dígito dos valores nas minhas contas com as fornecidas pela lei de Benford.


Devido ao aspecto aleatório, os dois histogramas jamais serão idênticos, mas percebe-se uma grande semelhança nos seus perfis. Para se ter uma análise quantitativa global das diferenças entre as freqüências dos algarismos nos dois casos, realizei um teste estatístico do tipo qui-quadrado. Seu resultado indicou uma probabilidade de 1,08% de se encontrarem discrepâncias semelhantes ou maiores do que as verificadas, na hipótese nula dos primeiros dígitos nas minhas contas seguirem a lei de Benford. Essa hipótese seria então rejeitada pelo nível de significância clássico de 5% em Estatística, porém não seria descartada caso um nível mais conservador de 1% fosse adotado. De qualquer forma, as freqüências de cada algarismo no primeiro dígito de minhas transações financeiras não diferem muito do padrão ditado pela lei de Benford.

Há muitas outras situações na história em que a lei de Benford pode ser empregada. Em meados de 1920, os organizadores de uma loteria clandestina no bairro de Harlem, Nova York, necessitavam de um gerador de números aleatórios para determinar os números que seriam sorteados em seu jogo. Decidiram tomar como base os dígitos do saldo do tesouro do governo americano publicado oficialmente, acreditando que a freqüência em que cada algarismo aparecia nesses valores fosse totalmente aleatória. Entretanto, os contraventores ignoraram a lei de Benford, e um apostador dessa loteria que a conhecesse poderia concentrar suas apostas nos algarismos de menor valor, tendo maiores chances de vitória que os demais.

A lei de Benford tem originado um número grande de publicações (vide o site http://www.benfordonline.net/) e tem sido considerada uma ferramenta útil para a identificação de fraudes em balanços financeiros3. Em 1995, um escritório de advocacia no Brooklyn, Nova York, a utilizou para checar fraudes em operações de diversas empresas4. Esta lei foi utilizada também para examinar 30 anos de declaração fiscal do ex-presidente americano Bill Clinton. Os números passaram no teste. Não seria interessante fazer o mesmo tipo de análise nas contas do Palocci?


1 Alguns exemplos citados neste texto foram retirados do ótimo livro de Leonard Mlodinow, “The Drunkard´s Walk – how Randomness Rules our Lives”.  Este livro foi lançado no Brasil com o nome “O andar do bêbado”, pela editora Zahar.

2 Esta lei foi sugerida inicialmente em 1881 por Newcomb (“Note on the frequency of use of the different digits in natural numbers”, publicado na  American Journal of Mathematics), ao perceber que as páginas dos livros de logarítmicos estavam mais gastas na consulta de algarismos de menor valor. Posteriormente, esta lei foi demonstrada de forma empírica em 1938 por Frank Benford (“The law of anomalous numbers”, publicado na Proceedings of the American Philosophical Society).

3 Entretanto, tal análise deve ser realizada com cautela, pois pode haver outros fatores – que não propriamente fraude –  que façam com que a distribuição dos algarismos do primeiro dígito não sigam a lei de Benford. Este aspecto é discutido por Andreas Diekmann e Ben Jann no trabalho “Benford’s Law and Fraud Detection: Facts and Legends”, publicado em 2010 na revista German Economic Review, volume 11, nº 3, pág. 397–401.

4 Estudo reportado por B. D. Burns, professor da Universidade de Sidney, em “Sensitivity to Statistical Regularities: People (largely) follow Benford’s law”.