Pesquisar este blog

terça-feira, 9 de agosto de 2011

Quem procura acha

Tão grande como a comoção pela perda de uma cantora tão jovem e talentosa foi o espanto pelo fato da idade da morte de Amy Winehouse, 27 anos, ter coincidido com a de outros ídolos, como Janis Joplin, Jimmy Hendrix, Jim Morrison, Kurt Cobain e Brian Jones. Levantaram-se hipóteses de que esta idade seria um número cabalístico para mortes de ídolos de rock, ou que haveria algum fator adicional de risco de morte para usuários de drogas nesta idade. Este tema até já motivou o lançamento de um livro1. Por sugestão de alguns leitores, faço neste post uma análise puramente estatística do quão (im)provável é essa incrível coincidência. Este estudo é mais complexo que outros que realizei anteriormente, pelos motivos que discutirei ao longo do texto.

A primeira dificuldade é delimitar o universo de análise (denominada população, em Estatística) que, em princípio, deveria ser composto de cantores famosos de rock que morreram em decorrência do uso de álcool e drogas ilícitas. A inclusão da Amy na agora famosa lista dos “mortos aos 27 anos” pode causar controvérsias, visto que não se trata propriamente de uma cantora de rock. Pode-se contestar também a consideração do ex-cantor Kurt Cobain, do Nirvana, visto que, embora visivelmente envolvido em drogas, não teve morte em conseqüência direta de uma overdose, mas sim fruto de suicídio, versão mais aceita atualmente. Aliás, uma prática comum quando se procuram coincidências é forçar a barra para incluir casos favoráveis a determinada tese, enquanto por outro lado se procuram justificativas para a exclusão de casos que a contrariam.

Outra dificuldade é identificar se um cantor teria sido famoso o suficiente para ser incluído no estudo. Para evitar uma análise subjetiva de minha parte, considerei todos os músicos listados no endereço da Wikipedia “http://pt.wikipedia.org/wiki/Anexo:Lista_de_mortes_de_personalidades_do_rock”. Por ser editada por um grande número de pessoas, esta lista é menos sujeita às preferências individuais. Dessa lista eliminei, além de duas mortes ocorridas antes dos 20 anos, óbitos acima de 60 anos, por considerar que, nesta faixa etária, as doenças naturais predominam sobre as acidentais.

Desta forma, a análise foi feita com base em uma amostra 172 mortes ocorridas entre os 21 e 60 anos de idade, com causas que incluem não somente overdose em si, mas outros fatores como acidentes aéreos, acidentes automobilísticos e doenças variadas como ataque cardíaco e AIDS. Todos esses fatores podem ter tido ou não alguma relação com o uso de drogas. O fluxograma abaixo mostra o número de mortes ocorridas para cada uma das idades ao longo desse intervalo.


Em uma primeira inspeção visual, de fato salta aos olhos o pico observado na idade de 27 anos. O que pretendo avaliar é a probabilidade desse pico ser uma mera casualidade2, sob a hipótese de que não há nenhum fator em particular que induza a ocorrência da morte nesta idade. Surge nesse ponto outra dificuldade, que é definir qual a distribuição que deveria se esperar para o número de mortes ao longo desse intervalo de 21 a 60 anos, em situações ideais. Em reportagem reproduzida no site do Globo (http://g1.globo.com/ciencia-e-saude/noticia/2011/07/medicos-desmistificam-relacao-entre-maldicao-dos-27-e-morte-de-amy.html) especialistas dizem que, quanto mais cedo ocorrer o uso de drogas, piores e mais rápidas são as conseqüências negativas para o organismo do homem. Isto poderia levar a um maior índice de mortes, por exemplo, entre os 20 e 30 anos, mas essa informação não é suficiente para deduzir qual seria a forma esperada para esse histograma.

Embora não haja sustentação forte para essa hipótese, considerarei como referência uma distribuição equiprovável para as mortes dos 21 aos 60 anos. Sob tais condições, e considerando as propriedades da distribuição binomial (vide apêndice 3), a probabilidade desse pico verificado aos 27 anos ter sido obra do acaso é de apenas 0,0032%. Entretanto, o que se deve calcular não é a probabilidade de haver 14 mortes aos 27 anos, mas sim a probabilidade desse pico ter ocorrido em ALGUMA idade. Afinal de contas, essa coincidência teria sido alardeada qualquer que fosse a idade em que ela ocorresse. Neste caso, a probabilidade sobe para pouco mais de 0,14%, ou 1 chance em 770, aproximadamente.

Apesar desta pequena probabilidade não ser, por si só, suficiente para refutar a tese de haver algum fator específico associado à idade de 27 anos, há que se atentar ainda para dois aspectos: o primeiro é o fato de que a probabilidade é pequena, mas longe de ser impossível. É mais de 50.000 vezes mais provável do que ganhar na Mega-Sena com uma aposta simples. E o segundo ponto, muito mais importante: esta é apenas uma das inúmeras coincidências que se poderia encontrar em dados populacionais envolvendo pessoas famosas. Poderíamos procurar estatísticas de datas de nascimento e morte de atores de cinema, atrizes de televisão, apresentadores, pintores, políticos, jogadores de futebol, artistas de outros gêneros musicais e muitos outros tipos de celebridades. Quanto mais coincidências procurarmos, maior será a probabilidade de se encontrar uma tão rara como a analisada neste post.

Faço analogia, por exemplo, com um link que me passaram essa semana4, sobre a notícia de cinco pessoas da mesma família que fazem aniversário no mesmo dia (casal, dois filhos e uma tia). É evidente que a chance de isso ocorrer em uma determinada família é extremamente baixa. Mas considerando a grande quantidade de famílias que existem no Brasil, cada uma envolvendo grupos de 5, 6 ou até 10 pessoas (note que até a tia foi incluída na referida notícia), a chance de ALGUMA família apresentar essa coincidência não necessariamente é baixa, e pode até ser muito alta. Em resumo: é comum se observar eventos raros em fenômenos aleatórios que ocorrem com elevada freqüência. Explorarei este assunto em maiores detalhes em um futuro post.


1) Eric Segalstad, “The 27s: The Greatest Myth of Rock and Roll”, Samadhi Creations (2009).

2)  Por exemplo, pode-se lançar um dado não viciado dez vezes, e em nove vezes ocorrer o número 6. Embora seja razoável desconfiar da honestidade do dado, é possível que um dado honesto produza esse resultado, no entanto essa probabilidade é de apenas 0,00008%, aproximadamente.

3) Considerando uma distribuição equiprovável para os falecidos entre os 21 e 60 anos, a probabilidade da morte ter ocorrido em cada uma dessas idades é de 1/40. Como a amostra selecionada teve 172 mortes, deve-se calcular a probabilidade de ocorrer um valor maior ou igual a 14 para uma variável aleatória com distribuição binomial de parâmetros p = 1/40 e n =172.