14.3.08

Retomando um problema colocado por um leitor

HÁ ALGUNS DIAS, o leitor Nuno Sousa colocou, neste blogue, um interessante problema de probabilidades que adiante se transcreve. Sucede, porém, que o fez num comentário a um post de Humor Antigo [v. aqui], pelo que, apesar de ter recebido respostas, é possível que tenha passado despercebido a alguns leitores que gostariam de dar a sua opinião.
Aqui fica ele de novo, especialmente para quem ache que ainda há coisas a dizer:
*
Um investigador suspeita que o senhor António cometeu um crime, e tem 70% de certeza. Posteriormente, das análises feitas, descobriu-se que o sangue do criminoso era do tipo A, tal como o sangue do Senhor António. Sabendo que 15% da população tem sangue do tipo A, qual a probabilidade de o criminoso ser o senhor António?

13 Comments:

Blogger JOSÉ LUIZ FERREIRA said...

95,5%

15 de março de 2008 às 22:27  
Blogger Tiago said...

Usando o teorema de Bayes :

* Prob. de Sr. António ser criminoso: P(C) = 70%

* Prob. de ter sangue A sendo criminoso: P(A|C) = 100%

* Prob. de ter sangue A sem ser criminoso: P(A|ñC) = 15%

* Prob. de ter sangue A:
P(A) = P(A|C)P(C) + P(A|ñC)P(ñC)
= 1x0.7 + .15x0.3 = 74.5%

* Prob. de ser o criminoso tendo sangue A (a resposta):
P(C|A) = P(A|C)P(C)/P(A) = 0.7/0.745 = 93,96%

16 de março de 2008 às 23:39  
Blogger Jorge Oliveira said...

Caro Tiago

Se é um dado adquirido que António tem sangue do tipo A, quer seja criminoso, quer não, então deve ser também P(A|ñC) = 100% e não apenas 15%.

Assim, quando aplica o Teorema de Bayes o denominador da fracção torna-se igual à unidade, o que implica que a probabilidade revista de António ser o criminoso não se altera. Que lhe parece?

É que, quando nos dizem que o criminoso e António têm o mesmo tipo de sangue, que é o tipo A, restringimos o universo às pessoas com sangue do tipo A, que são 15%. Mas dentro deste subconjunto, que razão temos para alterar a probabilidade de 70% de António ser o criminoso? Não possuímos mais dados.

17 de março de 2008 às 08:20  
Blogger Tiago said...

Caro Jorge,

Eu concordaria consigo se soubessemos que o António tinha sangue A quando dizemos que a prob. de ser culpado era 70%. Mas a leitura que eu faço do problema é diferente:

70% de prob. de ser culpado sem se saber ainda o tipo de sangue de António.

Depois das análises, se o sangue não fosse A, a probabilidade de ser culpado passa a zero. Se o sangue for de tipo A, parece-me razoável esperar que a probabilidade de ser culpado suba (são novos dados no problema).

17 de março de 2008 às 09:39  
Blogger Jorge Oliveira said...

Caro Tiago

Na hipótese que põe, se nos disserem que o sangue de António é do tipo ñA, enquanto o do criminosos é do tipo A, ao calcular P(C|ñA) através da fórmula de Bayes, teria no numerador P(C).P(ñA|C), em que este segundo factor seria nulo, tornando nula a probabilidade de António ser o criminoso. Como seria de esperar.

A verdade é que a probabilidade de 70% de António ser o criminoso aparece um tanto "misteriosamente”, sem qualquer critério explicativo. Isso apenas nos permite considerar que existe uma determinada população na qual se observam duas características, “criminalidade” e “tipo de sangue”, perante as quais os indivíduos se repartem de uma forma que temos de admitir independente.

Ora, quando dois acontecimentos são independentes, a probabilidade condicional de um deles, dado o outro, não altera a probabilidade do primeiro.

Neste caso, o facto de nos dizerem que o sangue do Sr. António é do mesmo tipo que o sangue do criminoso não acrescenta informação. Por isso não surpreende que a probabilidade à posteriori seja igual à probabilidade à priori.

Julgo que a intenção do problema é mesmo a de confundir os espíritos, fazendo crer que depois de se saber que o sangue de António é do mesmo tipo que o do criminoso isso aumenta a probabilidade de ser ele o criminoso.

17 de março de 2008 às 11:35  
Blogger Tiago said...

Mas se as probabilidades fossem independentes, a prob. P(C|ñA) era diferente de zero, o que não faz sentido. Concordo que o enunciado soa um bocado subjectivo (afinal o que é a prob. de ser culpado?). Acho que, para clarificar o problema, ajuda arranjar um segundo suspeito: o João.

Temos assim que o criminoso ou é o António (70%) ou o João (30%). Temos duas hipóteses:

* O criminoso é o António (70%). Então tem 100% de prob. de ter sangue A, enquanto que o João tem 15% de ter sangue A e 85% de não ter.

* O criminoso é o João (30%). Então o João tem prob. 100% de ter sangue A, enquanto que o António tem 15% de ter e 85% de não ter.

Se não tivermos análises ao sangue, a prob. fica em 70% para o António e 30% para o João. É óbvio que fazendo análises podemos ter 3 situações:

(1) António A e João A
(2) António A e João ñA
(3) António ñA e João A

A soma das 3 prob. tem que ser 100%.

As três prob. são:

P(1) = 0,3x0,15+0,7x0,15 = 15%
P(2) = 0,7x0,85 = 59,5%
P(3) = 0,3x0,15 = 25,5%

Ou seja, a prob. de António ter sangue A é de 74,5%. E a prob. de João ter sangue A é de 40,5%. Isto acontece porque eles são suspeitos e o criminoso tem sangue A.

A prob. de António ser culpado, sabendo que tem sangue A, fica em ~94% , como calculado no outro comentário. A prob. de João ser culpado, sabendo que tem sangue A, é de ~74% (cálculo semelhante). O mais interessante, com o novo "suspeito", é que podemos usar as duas análises em simultâneo e brincar com o teorema de Bayes.

É fácil de obter que, se o António for A e o João ñA, a prob. de António ser culpado é 100% (o que seria de esperar). E, ainda mais interessante, se forem os dois A a prob. fica em 70% para o António novamente, voltando tudo à estaca 0!

17 de março de 2008 às 12:58  
Blogger Jorge Oliveira said...

Caro Tiago

Atenção : na hipótese que foi admitida, P(C|ñA) não traduz simplesmente a probabilidade de António ser o criminoso, caso António tenha sangue ñA, assim sem mais nem menos. Traduz a probabilidade de António ser o criminoso, se ele tiver sangue ñA e no pressuposto de que o criminoso tem sangue tipo A. Nessas circunstâncias, o facto de António ter sangue ñA eliminava-o como suspeito, pelo que seria P(C|ñA)=0.

O que isto quer dizer é que neste problema há duas condicionantes, o tipo de sangue do criminoso e o tipo de sangue do António. Por vezes falta uma formulação correcta para dar conta das duas.

Introduzir um segundo suspeito não me parece resolver o problema, embora acabe por se revelar bastante útil. Por um lado, porque nenhum deles influencia a probabilidade do outro. Por outro lado, porque, à luz do seu anterior raciocínio, levanta uma situação que se afigura curiosa e que denuncia um absurdo.

Repare no seguinte : admitimos que, à priori, o António tem uma probabilidade de 70% e o João 30%. Descobrindo que ambos possuem sangue do tipo A, o mesmo do criminoso, e aceitando a sua aplicação do teorema de Bayes, o António passaria a ter uma probabilidade de 93,96% e o João de 74,07%.

Nestas condições, o aumento de probabilidade do António seria de 1,34 vezes e o aumento de probabilidade do João seria de 2,47 vezes. Pior ainda : um terceiro suspeito, com 10% de probabilidade, passaria a ter 42,55%. Ou seja, o suspeito menos provável aumentaria mais volumosamente a sua probabilidade de ser o criminoso, o que certamente deixaria os investigadores bastante atrapalhados.

É por isto que considero que a descoberta de que o tipo de sangue do suspeito é igual ao do criminoso, seja o António ou qualquer outro, com maior ou menor grau de suspeição, não tem, perante os dados deste problema, qualquer influência numérica na probabilidade desse suspeito ser o criminoso.

Em última análise, porque esta atribuição apriorística de probabilidade é subjectiva. Não é suportada em nenhum critério palpável e relacionável com o tipo de sangue do criminoso.

Enfim, admito estar certo, mas em problemas de probabilidades as coisas nem sempre são o que parecem e passados tantos anos do seu estudo mais atento, também admito estar errado. Se tiver mais argumentação, vamos a isso.

18 de março de 2008 às 02:47  
Blogger Tiago said...

Acho que a introdução de um segundo suspeito ainda veio baralhar mais as coisas. Mas vou começar por aí.

Atenção que o aumento da probabilidade de ser suspeito de 1,34 para o António e 2,47 para o João só é válida se forem os únicos a terem o teste ao sangue. Se o teste for feito a ambos, com resultado positivo, as probabilidades ficam iguais ao que eram. Isto acontece porque as duas probabilidades estão ligadas, só pode haver um culpado. Nem me parece um paradoxo que um suspeito com a probabilidade mais baixa seja o que tenha o maior aumento relativo (se um suspeito estiver próximo dos 100%, mesmo que passe a 100% o aumento relativo vai ser sempre pequeno).

Mas, voltando ao problema inicial e esquecendo o João, aqui vai uma forma alternativa e equivalente de pensar no problema. E espero que mais intuitiva.

Temos o António com 70% de ser criminoso C, e 30% de não ser ñC. Por outro lado, 15% da população tem sangue A e 85% ñA. Se não soubermos o sangue do criminoso, temos 4 hipóteses (ficava melhor num quadro, mas não consigo formatar):

C e A : 0.7x0.15 = 10,5%
ñC e A : 0.3x0.15 = 4,5%
C e ñA : 0.7x0.85 = 59,5%
ñC e ñA : 0.3x0.85 = 25,5%

O que corresponde à hipótese da sua segunda mensagem (prob. independentes). Aqui, saber o sangue do António não nos diz nada sobre a sua probabilidade de ser culpado (ou saber se é culpado sobre o seu sangue).

Mas agora, vamos voltar ao quadro com a hipótese adicional de o criminoso ter sangue A. Então, se António é criminoso a prob. de ter sangue A é 100%, e de não ter 0%.

Temos então:

C e A : 0.7x1.0 = 70%
ñC e A : 0.3x0.15 = 4,5%
C e ñA : 0.7x0.0 = 0%
ñC e ñA : 0.3x0.85 = 25,5%

Aqui vemos que a probabilidade de António (que é suspeito, ou seja tem 70% de prob. de ser culpado), é de 74,5% de ter sangue A, e 25,5% de não ter. Se fizermos análises ao sangue e virmos que é A, ficamos com as duas primeiras hipóteses:

C e A : 0.7x1.0 = 70%
ñC e A : 0.3x0.15 = 4,5%

Mas agora, temos que dividir as percentagens pelo total, para ficar com a soma = 100%. E isso lá nos dá os 94%.

Claro que isto custa a engolir porque o bom senso nos faz pensar que "ser culpado" é uma coisa dificilmente quantificável. Por isso acho que uma analogia facilita a minha interpretação do problema.

Imaginemos uma tigela de 200 bolas, onde 140 são brancas e de madeira, e 60 são pretas com 15% (9) de madeira e 85% (51) de metal. O António tira uma bola ao calhas. Qual é a probabilidade de ser branca? 70%. E se eu souber que a que tirou é de madeira? Aí já a probabilidade é de 94%. Se a percentagem de madeira/metal nas brancas fosse igual (não saber o sangue do criminoso), a probabilidade era sempre 70%.

18 de março de 2008 às 11:10  
Blogger Jorge Oliveira said...

Vamos então à tabela 2x2 de probabilidades conjuntas. Como não se consegue manter a formatação ao passar para o espaço de comentários, podemos fazer-lhe referência por escrito e acompanhar com um desenho em casa.

Para o efeito suponhamos que colocamos o atributo “criminalidade” em duas colunas e o atributo “tipo de sangue” em duas linhas :

Primeira coluna C ; Segunda coluna ñC
Primeira linha A ; Segunda linha ñA

Agora temos de acrescentar uma coluna à direita e uma linha em baixo para inserir as probabilidades marginais dos atributos, que são os valores dados :

A soma da primeira linha é 0,15 a probabilidade marginal para sangue tipo (A).

A soma da segunda linha é 0,85 a probabilidade marginal para sangue tipo (ñA).

A soma da primeira coluna é 0,7 a probabilidade marginal para criminoso (C).

A soma da segunda coluna é 0,3 a probabilidade marginal para não criminoso (ñC).

No cruzamento de linhas e colunas temos as probabilidades conjuntas, que são as probabilidades de intersecção dos atributos. Havendo independência, a probabilidade da intersecção é o produto das probabilidades marginais. Os produtos dois a dois, dão, na primeira linha os valores 0,105 e 0,045 e na segunda linha os valores 0,595 e 0,255.

Isto não nos permite alterar a probabilidade de António ser o criminoso, tenha ele o tipo de sangue que tiver. Até aqui estamos de acordo.

Vamos agora introduzir a sua perspectiva.

É como se reconstruíssemos a tabela da seguinte forma : no cruzamento da 1ª coluna com a 1ª linha em lugar de 0,105 passa a estar 0,7 e no cruzamento da 1ª coluna com a 2ª linha, em lugar de 0,595 passa a estar zero. Os valores da segunda coluna mantêm-se.

A soma dos 4 valores da tabela continua ser a unidade, o que assegura a consistência das probabilidades conjuntas, mas verificou-se uma alteração drástica nas probabilidades marginais.

É como se enunciássemos o problema da seguinte forma. Nesta população há 70% de criminosos. Todos os criminosos têm sangue tipo A. Dos não criminosos 15% têm sangue tipo A.

Repare que altera a probabilidade marginal respeitante ao tipo de sangue. Agora ter sangue tipo A tem uma probabilidade marginal de 74,5% e ter sangue tipo ñA tem 25,5%.

Depois dizíamos assim : escolhido um indivíduo ao acaso verificou-se que tem sangue tipo A. Qual a probabilidade de ser criminoso? Na linha do sangue tipo A temos os valores 0,7 e 0,045, o que soma 0,745. Dividindo 0,7 por 0,745, obtemos o seu valor 0,939.

Tudo isto era possível. Mas era outro problema, porque deixou de se verificar a distribuição de probabilidades respeitantes ao tipo de sangue para o conjunto da população (15% e 85%).

Esta formulação é exactamente aquela que ilustrou com o seu exemplo das bolas. Se usar valores percentuais e não o número de bolas de cada tipo, obtem, como era de esperar, a tabela reconstruída de acordo com a sua perspectiva.

De facto, o que fez foi substituir o atributo “criminalidade” por “cor das bolas” e o atributo “tipo de sangue” por “material das bolas”. Assim :
Criminoso (C) equivale a bola branca (B)
Não criminoso (ñC) equivale a bola preta (P).
Sangue tipo (A) equivale a madeira (M)
Sangue tipo (ñA) equivale a metal, p.ex. ferro (F) para não confundir com madeira.

Este caso também dá um problema interessante. Mas estamos noutro problema, não o que foi proposto. E para esse, julgo que não há nada a fazer. Os investigadores não melhoram a probabilidade à priori, mesmo sabendo que o António tem o tipo de sangue do criminoso.

Penso que não consigo argumentar mais. Só é pena que o proponente do problema não intervenha, uma vez que até aceitou uma solução que estava errada.

18 de março de 2008 às 18:15  
Blogger Tiago said...

Caro Jorge,

Acho que já percebi onde está o nosso desentendimento, vamos lá ver se é desta que podemos chegar a um consenso. Tudo depende da interpretação que se faça do enunciado.

Para mim, quando se diz que António tem probabilidade 0,7 de ser culpado, é já sabendo que o criminoso tem sangue A. Isso justifica a tabela de três entradas.

Para si, o António ter prob. de 0,7 é anterior a saber o sangue do culpado. Isso dá a tabela com as quatro entradas.

Vamos agora, por hipótese, ficar com esta última interpretação. A policia, ao descobrir que o criminoso tem sangue A, o que acontece? A quarta entrada (ñA e C) tem que ser descartada. Temos então as outras:

P(A e C) = 0,105
P(A e ñC) = 0,045
P(ñA e ñC) = 0,255

e normalizando para a soma ser 1 (arredondando):

P(A e C) = 0,259
P(A e ñC) = 0,111
P(ñA e ñC) = 0,630

A probalidade de ser culpado passou a 26%

Agora, fazendo as análises e chegando à conclusão que tem sangue A, seguindo o raciocínio anterior temos:

P(C) = 0,259/(0,259+0,111) = 0,7

Voltámos aos 70%, ou seja a probabilidade inicial. Acho que podemos finalmente concordar na solução. Depende de saber se a probabilidade inicial é dada sabendo, ou não, o sangue do criminoso.

No primeiro caso (a minha escolha), saber o sangue de António melhora o resultado.

No segundo (a sua escolha), ao saber o sangue dos dois ficamos na mesma (tinham os dois prob. de 15% de ter sangue A).

Foi longo mas divertido!

18 de março de 2008 às 21:16  
Blogger Tiago said...

Caro Jorge,

Uma pequena adenda. Relendo o enunciado (o que eu já não fazia há algum tempo), vejo que a sua interpretação é a correcta. O enunciado diz explicitamente que as análises foram posteriores à suspeita de 70% (seja lá isso o que for). Por isso a resposta correcta é inequívoca; os 70% são anteriores ao sangue do criminoso, e por isso a probabilidade final não se altera.

Concedo a derrota, mas foi uma discussão divertida!

18 de março de 2008 às 21:26  
Blogger Jorge Oliveira said...

Caro Tiago

Não há aqui que falar em derrota. Não estávamos num Benfica-Sporting.

Até porque agora verifico que a sua argumentação decorria de uma falha de interpretação, ou esquecimento, do próprio enunciado.

Mas concordo que foi uma discussão muito divertida e muito interessante. E profícua. Confesso que os seus argumentos me deixavam por vezes atrapalhado, obrigando-me a recorrer aos meus velhos apontamentos desta matéria, que é sempre difícil e propícia ao esquecimento.

Mas disto tudo, realço o seu fair-play final. Não é habitual.

Espero que tenhamos oportunidade de trocar impressões noutra ocasião que se apresente.

Um abraço

19 de março de 2008 às 13:35  
Blogger Nuno Sousa said...

Dentro de breve, sugerirei outro. Se o Sr. C. Medina não se importar...

Abraço

Nuno Sousa

19 de março de 2008 às 15:15  

Enviar um comentário

<< Home