Qual é a probabilidade?: julho 2011

quarta-feira, 20 de julho de 2011

Coincidências de Alta Incidência

Há duas semanas minha filha fez aniversário. No mesmo dia, comemoramos também a data de nascimento de duas pessoas da família da minha mulher. Do meu círculo de amigos mais próximos, duas pessoas fazem aniversário dia 23 de outubro, e duas no dia 10 de abril, que, aliás, foi a data em que meu sobrinho de 2 anos nasceu.

Tenho certeza de que boa parte das pessoas pode citar coincidências como essas em relação a datas de aniversário de pessoas na família, colegas de trabalho ou amigos mais próximos. A princípio, se o ano tem 365 dias, seria razoável esperar que fossem raras as coincidências nas datas de aniversários em grupos de, por exemplo, cerca de 50 pessoas. A resposta natural de um cálculo preliminar que dividisse 365 por 50 seria menos de 1/7 de chance. Entretanto, essa é uma das curiosas situações em que a teoria da probabilidade revela valores que não são nada intuitivos.

A análise que segue utiliza o mesmo conceito da diferença entre uma repetição específica e uma repetição qualquer, que introduzi no post de 03/05, “A Mega em Cena”, onde analiso a probabilidade de saírem números repetidos em concursos consecutivos da Mega-Sena. Nesta questão da coincidência de aniversários, é natural pensarmos na probabilidade de NÓS fazermos aniversário no mesmo dia de alguém do grupo, quando na verdade o que se deve avaliar é a probabilidade de ALGUÉM fazer aniversário no mesmo dia de OUTRO ALGUÉM do grupo. Como veremos, a segunda probabilidade é muito maior do que a primeira.

Pense no caso com apenas duas pessoas, “A” e “B”. A primeira pode fazer aniversário em qualquer dia, mas, para que haja coincidência, a segunda teria que fazer aniversário necessariamente no mesmo dia da primeira. Ignorando daqui pra frente os anos bissextos (nada contra os que nascem nesse dia, mas é para facilitar os cálculos), a probabilidade de ambas fazerem aniversário no mesmo dia será de 1/365, ou pouco mais de 0,27%. Considero nesse cálculo que não há nenhuma afinidade a priori entre essas pessoas quanto à data de nascimento, como por exemplo fazerem parte de um grupo de encontro de capricornianos, ou seus pais terem se conhecido na maternidade onde nasceram.

Adicionando uma nova pessoa “C” ao grupo, temos três possibilidades de coincidências: “A e B”, “A e C”, e “B e C”. Ou seja, apesar de o número de possibilidades em que a pessoa “A” faz aniversário no mesmo dia de outra pessoa ter apenas dobrado em relação à situação onde havia apenas duas pessoas, o número de possibilidades de haver ALGUMA coincidência triplicou. Com quatro pessoas, há 6 coincidências possíveis de duas pessoas fazendo aniversário no mesmo dia (que corresponde, em Análise Combinatória, à “combinação de 4 dois a dois”, C₂⁴), e com cinco pessoas esse número é de 10 (ou C₂⁵ , a “combinação de 5 dois a dois”). Ao adicionarmos sucessivamente uma pessoa por vez, esse número de combinações segue crescendo.

A tabela abaixo indica a probabilidade (Pr) de haver ALGUMA coincidência de aniversário em um grupo de N pessoas, com N variando até 50. Os cálculos são detalhados no apêndice 2, e não são exatamente proporcionais aos números de combinações C₂^N, pelo fato de poder haver múltiplas coincidências. Por exemplo, em um grupo de 10 pessoas, pode haver uma coincidência envolvendo 3 pessoas, ou duas coincidências envolvendo 2 pessoas cada, e assim por diante.

Probabilidade de haver alguma coincidência nas datas de aniversário, em um grupo de N pessoas.

N	Pr (%)	N	Pr (%)	N	Pr (%)	N	Pr (%)	N	Pr (%)
1	-	11	14,11%	21	44,37%	31	73,05%	41	90,32%
2	0,27%	12	16,70%	22	47,57%	32	75,33%	42	91,40%
3	0,82%	13	19,44%	23	50,73%	33	77,50%	43	92,39%
4	1,64%	14	22,31%	24	53,83%	34	79,53%	44	93,29%
5	2,71%	15	25,29%	25	56,87%	35	81,44%	45	94,10%
6	4,05%	16	28,36%	26	59,82%	36	83,22%	46	94,83%
7	5,62%	17	31,50%	27	62,69%	37	84,87%	47	95,48%
8	7,43%	18	34,69%	28	65,45%	38	86,41%	48	96,06%
9	9,46%	19	37,91%	29	68,10%	39	87,82%	49	96,58%
10	11,69%	20	41,14%	30	70,63%	40	89,12%	50	97,04%

O valor da célula destacada surpreende: basta juntar um grupo de 23 pessoas (que equivale à quantidade de participantes de uma partida de futebol, incluindo o juiz) para que seja mais provável haver alguma coincidência nas datas de aniversário do que não haver coincidência nenhuma. E num grupo de 40 pessoas, quantidade quase 10 vezes menor do que o número de dias no ano, as chances de coincidência são de quase 90%, chegando a impressionantes 97% para um grupo de 50 pessoas. Esses resultados são influenciados por dois fatores: pelo aumento do número de combinações “dois a dois” com o aumento de N e também, de forma importante, pelo aumento na quantidade das múltiplas coincidências mencionadas no parágrafo anterior (vide apêndice 2).

Para verificar empiricamente esse resultado, dividi o conjunto de meus 200 amigos que têm datas de aniversário declaradas no Facebook em grupos de 23 pessoas. O agrupamento foi realizado em ordem alfabética, supondo que não houvesse nenhuma correlação entre a letra inicial do nome e a época do ano em que a pessoa nasceu¹. Foram gerados, dessa forma, 8 grupos completos de 23 pessoas, e as quantidades de coincidências de datas de aniversários em cada grupo estão indicadas na tabela abaixo. Todas as coincidências são de duas pessoas, não tendo havido em nenhum grupo coincidência de três ou mais pessoas nascendo no mesmo dia.

Coincidências nos aniversários em subconjuntos de 23 pessoas dos meus amigos no Facebook

Grupo	Número de coincidências	Grupo	Número de coincidências
1º	0	5º	1
2º	2	6º	0
3º	0	7º	0
4º	0	8º	3

Como se vê, em 3 dos 8 grupos houve alguma coincidência, sendo que em 2 grupos houve mais do que uma coincidência. No 9º grupo, não mostrado na tabela e que não chegou a ser formado por ter apenas 16 pessoas, já houve 1 coincidência. É importante ressaltar que essa proporção (3/8) de número de grupos onde houve coincidência não é uma boa estimativa para o valor teórico de 50,73% indicado na primeira tabela, pois o número de observações (8) é muito pequeno. Entretanto, esses resultados ilustram como a incidência de coincidências de aniversários é grande, mesmo em grupos com um número de pessoas muito menor do que o número de dias no ano.

1) Exceções seriam os casos de gêmeos com nomes parecidos, como Leandro e Leonardo, Bernardo e Bianca, etc... Entretanto, na minha lista só havia uma situação desse tipo, que foi eliminada da análise.

2) Detalhe dos cálculos da primeira tabela

Para calcular a probabilidade de haver ALGUMA coincidência em um grupo de N pessoas, é muito mais fácil tomar o complementar da probabilidade de não haver nenhuma coincidência. Isso porque há diversas combinações de coincidências. Por exemplo, em um grupo de 5 pessoas, pode-se ter:

- as 5 fazendo aniversário no mesmo dia;

- 4 fazendo aniversário no mesmo dia e a outra em um dia diferente;

- 3 fazendo aniversário no mesmo dia e os outros dois em dias diferentes;

- 3 fazendo aniversário no mesmo dia e os outros dois em um mesmo dia, diferente do primeiro;

- 2 fazendo aniversário no mesmo dia e os outros três em dias diferentes;

- 2 fazendo aniversário no mesmo dia, outros dois em um mesmo dia, diferente do primeiro, e o último em um dia diferente.

A expressão da probabilidade para cada caso é diferente, o que torna o cálculo bastante tedioso, e praticamente inviável quando N aumenta.

Por outro lado, o cálculo de não haver nenhuma coincidência é bastante simples. O primeiro pode fazer aniversário em qualquer dia (Pr=1), mas o segundo tem que fazer em um dia diferente do primeiro (Pr=364/365). O terceiro tem que fazer aniversário em um dia diferente dos outros dois (Pr=363/365), e assim por diante, até chegar ao número N. Multiplicando-se todas essas probabilidades (pois tem que acontecer uma coisa “E” outra), chega-se então à seguinte expressão:

Pr (nenhuma coincidência ) = 1 ´(364/365) ´(363/365) ´(362/365) ´... ´(365-(N-1))/365

e assim a probabilidade de haver ALGUMA coincidência em um grupo com N pessoas será:

1 - [(364´363´362´...´(364-N)) / (365)^N^-1]

sábado, 2 de julho de 2011

Transformando Casualidades em Causalidades

Todo feriado prolongado é sucedido pela divulgação das estatísticas sobre acidentes nas estradas, acompanhadas de comentários de especialistas que explicam as causas de eventuais variações nas quantidades de acidentes e/ou mortos em relação aos valores do histórico. Em geral, comparam-se os dados obtidos no feriado em questão com os valores observados no mesmo feriado em anos passados, ou então com outros feriados do ano corrente. Mas será que toda e qualquer variação nos números é conseqüência direta de uma ou mais causas?

O que mais me chamou a atenção neste último feriado de Corpus Christi foi uma análise das estatísticas para o estado de São Paulo, onde se demonstrou certa preocupação com o aumento no número de acidentes de 1256 para 1302, em relação ao mesmo feriado no ano de 2010. Houve também uma redução no número de mortes de 53 para 35, e a justificativa dada por um representante da Polícia Rodoviária Estadual (PRF) foi de que “a chuva e a neblina fizeram os motoristas aumentarem a atenção nas estradas, o que contribuiu para a queda das mortes”.

Por discordar dessa justificativa, resolvi pesquisar reportagens semelhantes publicadas após outros feriados. Em uma delas, referente às estatísticas do período de carnaval de 2011 no estado de São Paulo, relatou-se um aumento de 47,9% no número de mortos nas estradas federais em relação ao mesmo período no ano anterior. Dentre as causas divulgadas pela mesma PRF na época para explicar esse acréscimo, constam “a imprudência, a chuva e a quantidade crescente de veículos nas estradas brasileiras”. É evidente que um mesmo fator, a chuva, não pode ao mesmo tempo ter contribuído positivamente para diminuir a quantidade de mortos no feriado de Corpus Christi e ser um dos fatores negativos que fizeram aumentar o número de mortos no Carnaval.

O grande problema na análise destas estatísticas é a necessidade que os órgãos públicos sentem, talvez pressionados pela opinião pública e a imprensa, de encontrar de forma rápida e precisa uma justificativa para toda e qualquer variação dos resultados em relação aos valores verificados em uma estatística anterior. No entanto, certas variações podem não ter absolutamente nenhuma causa determinante, tendo sido frutos apenas da aleatoriedade. Ainda assim, busca-se um “bode expiatório” que possa fornecer a explicação desejada, e corre-se o risco de transformar meras casualidades em causalidades.

O que muitos ignoram é que o aspecto aleatório (a “sorte” ou o “azar”, no jargão comum) está presente não apenas nos jogos de azar, como o bingo e a Loto, mas em praticamente todas as atividades humanas. A diferença fundamental é que, enquanto nos primeiros exemplos a aleatoriedade é o único fator determinante, no segundo caso ela é apenas um dos fatores que influenciam no resultado das estatísticas.

Imagine uma situação em que, no feriado de Corpus Christi, todas as estradas e veículos estejam exatamente nas mesmas condições de conservação em relação ao mesmo feriado no ano anterior. Suponha também que as condições de tempo e o número de veículos e pessoas viajando nesses dois feriados tenham sido idênticos. Ainda que estejam sob as mesmas condições, é muito pouco provável que as estatísticas sejam iguais em ambos os casos¹. Portanto, um ou outro ano apresentará um número maior de mortes e/ou acidentes, não tendo havido nenhuma causa que justificasse, de forma determinante, esta variação.

Para ilustrar esse conceito, considero o exemplo de uma pessoa que transita sozinha de madrugada em numa estrada de mão dupla, em um estado de profunda sonolência. De forma extremamente imprudente, esse indivíduo insiste em prosseguir viagem, adormecendo no meio de uma curva e tendo acordado apenas com um barulho de uma colisão. Não é possível prever, a priori, qual será a contribuição dessa situação em particular para as estatísticas de acidentes nas estradas.

O veículo pode colidir com o guarda corpo do outro lado da estrada, e o motorista pode morrer sozinho ou até mesmo sobreviver. Uma outra possibilidade seria uma colisão com um veículo ocupado por quatro pessoas e, dependendo da forma como o acidente ocorrer, pode haver de 1 a 5 mortos. Finalmente, pode ocorrer uma situação mais catastrófica de colisão com um ônibus lotado, que originaria um acidente com dezenas de mortos. Embora as probabilidades para cada um desses três desfechos sejam influenciadas pelo volume de tráfego na estrada e pelo percentual de ônibus entre os veículos que a transitam, não se pode prever qual deles irá ocorrer.

Expandindo essa situação particular para o todo, entende-se o porquê de as estatísticas estarem sujeitas, em parte, a aspectos aleatórios que não podem ser previstos a priori ou explicados a posteriori. Não acredito, por exemplo, que as estradas de São Paulo tenham ficado definitivamente mais perigosas este ano porque houve 46 acidentes a mais em relação ao ano passado, em relação a um valor anterior de 1256 acidentes. Quanto à estatística do número de mortes, apesar do percentual de redução ter sido grande (33,9%), é importante observar que a base de cálculo de comparação, que é o número de mortos no ano anterior (53) é pequena. Se houvesse um único acidente a mais com 10 mortos em um ou outro ano, por exemplo, o percentual de redução iria saltar para 44,4% ou diminuir pela metade, respectivamente.

Na Semana Santa, por exemplo, houve uma redução de 50% nos mortos nas estradas federais no RJ em relação ao Carnaval: de 16 para 7. Esta comparação não leva a muitas conclusões, ainda mais levando-se em consideração a diferença no número de dias e de viajantes em relação aos dois feriados. Certa vez, uma reportagem alertou para o índice impressionante de crescimento no número de mortes nas estradas em Goiás em determinado feriado: 700%. Em números absolutos, a variação foi de 1 para 8 mortes, sendo que 6 destas mortes foram provocadas por um único acidente.

Mas isso não significa que resultados das estatísticas sejam obras completas do acaso. É evidente que fatores como uma fiscalização mais rigorosa contra motoristas embriagados, serviços de manutenção e melhoria das estradas e, principalmente, a atenção e boa conduta das pessoas são preponderantes para a redução no número de acidentes. Mas não se pode achar que qualquer variação seja causada por uma mudança estrutural ocorrida em algum desses aspectos. Um outro exemplo deste último feriado foi o balanço dos acidentes em Minas Gerais, a partir do qual a Polícia Rodoviária Federal comemorou o bom resultado da campanha que incentivou os motoristas a andarem com os faróis acesos mesmo durante o dia. Esta campanha teria sido um dos principais fatores, segundo a PRF, para a diminuição de 28 para 15 no número de mortos nas rodovias federais. Entretanto, nas rodovias estaduais, o número de mortos saltou de 20 para 29. Considero pouco provável que os motoristas só tenham andado com faróis acesos nas rodovias federais, até porque muitas vezes os condutores não sabem a esfera responsável pela jurisdição da estrada.

Diante desse quadro de dúvida se um determinado resultado é de fato causado por certo fator ou se é apenas fruto da aleatoriedade é que se devem utilizar técnicas apuradas de Estatística para tentar eliminar as flutuações aleatórias e identificar os reais fatores que tenham provocado variações nos resultados. Mas isso não é uma tarefa fácil. Em primeiro lugar, são necessários volumes razoáveis de dados para que o aspecto aleatório seja “diluído”, conforme discuti em um post anterior. Em seguida, é preciso identificar quais são as variáveis explicativas que podem influenciar no resultado a ser analisado e, posteriormente, aplicar modelos – em geral, envolvendo diversas variáveis - que possam quantificar essas relações causais. Como se vê, não se pode exigir que essa análise mais detalhada seja feita de um dia para o outro para dar uma resposta ao publico na velocidade natural que a notícia de um jornal pede.

¹é semelhante ao exemplo de duas pessoas que lançam 10 vezes um mesmo dado, sob condições idênticas. Os resultados obtidos por ambos dificilmente serão iguais, e o fato de uma delas ter eventualmente tirado mais vezes o número 6 não teria sido determinado por nenhuma causa em particular.

Pesquisar este blog

quarta-feira, 20 de julho de 2011

Coincidências de Alta Incidência

sábado, 2 de julho de 2011

Transformando Casualidades em Causalidades