Qual é a probabilidade de essa pessoa ser do sexo feminino?


32

Há uma pessoa atrás de uma cortina - não sei se a pessoa é do sexo feminino ou masculino.

Eu sei que a pessoa tem cabelos longos e que 90% de todas as pessoas com cabelos longos são do sexo feminino

Eu sei que a pessoa tem um tipo sanguíneo raro AX3 e que 80% de todas as pessoas com esse tipo sanguíneo são do sexo feminino.

Qual é a probabilidade de a pessoa ser mulher?

NOTA: esta formulação original foi expandida com duas suposições adicionais: 1. O tipo sanguíneo e o comprimento do cabelo são independentes 2. A proporção masculino: feminino na população em geral é 50:50

(O cenário específico aqui não é tão relevante - em vez disso, tenho um projeto urgente que exige que eu entenda a abordagem correta para responder a isso. Minha intuição é que é uma questão de probabilidade simples, com uma resposta definitiva simples, do que algo com várias respostas discutíveis de acordo com diferentes teorias estatísticas.)


1
Não existem múltiplas teorias de probabilidade, mas é notoriamente verdade que as pessoas têm dificuldade em pensar corretamente sobre probabilidades. (Augustus DeMorgan, um bom matemático, desistiu do estudo da probabilidade devido a suas dificuldades.) Não olhe para os debates: procure apelos aos princípios da probabilidade (como os axiomas de Kolmogorov). Não deixe que isso seja resolvido democraticamente: sua pergunta está atraindo muitas respostas mal concebidas que, mesmo que algumas delas concordem, são apenas coletivamente erradas. @ Michael C dá uma boa orientação; minha resposta tenta mostrar por que ele está certo.
whuber

@Whuber, se a independência for assumida, você concorda que 0,97297 é a resposta correta? (Acredito que a resposta possa estar entre 0% e 100% sem essa suposição - seus diagramas mostram isso muito bem).
ProbablyWrong

Independência do quê, exatamente? Você está sugerindo que os penteados feminino e masculino são iguais? Como você diz na sua pergunta, esse cenário específico que envolve sexo / cabelo / tipo sanguíneo pode não ser relevante: isso me diz que você procura entender como resolver problemas como esse em geral. Para fazer isso, você precisará saber quais suposições implicam quais conclusões. Portanto, você precisa se concentrar com muito cuidado nas suposições que deseja fazer e determinar exatamente quanto elas permitem que você conclua.
whuber

3
O tipo de independência a explorar diz respeito à combinação das três características. Por exemplo, se o AX3 é um marcador para uma síndrome que inclui calvície em mulheres (mas não em homens), qualquer pessoa de cabelos compridos com AX3 é necessariamente masculina, tornando a probabilidade de ser mulher 0%, não 97,3%. Espero que isso torne óbvio que qualquer pessoa que produza uma resposta definitiva para essa pergunta deve estar fazendo suposições adicionais, mesmo que não as reconheça explicitamente. As respostas realmente úteis, IMHO, seriam aquelas que mostram diretamente como diferentes suposições levam a resultados diferentes.
whuber

2
Você está perdendo a probabilidade de uma mulher não ter cabelos longos. Essa é uma medida crítica.
Daniel R Hicks #

Respostas:


35

Muitas pessoas acham útil pensar em termos de uma "população", subgrupos dentro dela e proporções (em vez de probabilidades). Isso se presta ao raciocínio visual.

Explicarei as figuras em detalhes, mas a intenção é que uma rápida comparação das duas figuras indique imediata e convincentemente como e por que nenhuma resposta específica à pergunta pode ser dada. Um exame um pouco mais longo sugerirá quais informações adicionais seriam úteis para determinar uma resposta ou pelo menos obter limites para as respostas.

Diagrama de Venn

lenda

Hachura : fêmea / Sólido : macho.

Parte superior : cabelos compridos / Parte inferior : cabelos curtos.

Direita (e colorida) : AX3 / Esquerda (sem cor) : não AX3.

Dados

A hachura superior é 90% do retângulo superior ("90% de todas as pessoas com cabelos longos são do sexo feminino").

A hachura total no retângulo colorido da direita é 80% desse retângulo ("80% de todas as pessoas com esse tipo de sangue são do sexo feminino").

Explicação

Este diagrama mostra esquematicamente como a população (de todas as fêmeas e não fêmeas em consideração) pode ser dividida simultaneamente em fêmeas / não fêmeas, AX3 / não AX3 e cabelos compridos / cabelos não compridos ("curto"). Ele usa a área, pelo menos aproximadamente, para representar proporções (há algum exagero para tornar a imagem mais clara).

É evidente que essas três classificações binárias criam oito grupos possíveis. Cada grupo aparece aqui.

As informações fornecidas afirmam que o retângulo superior chocado (fêmeas de cabelos compridos) compreende 90% do retângulo superior (todas as pessoas de cabelos compridos). Ele também afirma que as partes cruzadas combinadas dos retângulos coloridos (fêmeas de cabelos compridos com AX3 e fêmeas de cabelos curtos com AX3) compreendem 80% da região colorida à direita (todas as pessoas com AX3). É-nos dito que alguém está no canto superior direito (seta): pessoas de cabelos compridos com AX3. Que proporção desse retângulo é hachurada (fêmea)?

Também assumi (implicitamente) que o tipo sanguíneo e o comprimento do cabelo são independentes : a proporção do retângulo superior (cabelos longos) colorida (AX3) é igual à proporção do retângulo inferior (cabelos curtos) colorido (AX3). É isso que independência significa. É uma suposição justa e natural a ser feita ao abordar questões como essa, mas é claro que precisa ser declarada.

A posição do retângulo hachurado superior (fêmeas de cabelos compridos) é desconhecida. Podemos imaginar deslizando o retângulo superior hachurado de um lado para o outro e deslizando o retângulo inferior hachurado de um lado para o outro e possivelmente alterando sua largura. Se fizermos isso para que 80% do retângulo colorido permaneçam hachurados, essa alteração não alterará nenhuma das informações declaradas, mas poderá alterar a proporção de mulheres no retângulo superior direito. Evidentemente, a proporção pode estar em qualquer lugar entre 0% e 100% e ainda ser consistente com as informações fornecidas, como nesta imagem:

Figura 2


Uma força desse método é estabelecer a existência de múltiplas respostas para a pergunta. Pode-se traduzir tudo isso algebricamente e, por meio da estipulação de probabilidades, oferecer situações específicas como possíveis exemplos, mas surgirá a questão de saber se esses exemplos são realmente consistentes com os dados. Por exemplo, se alguém sugerir que talvez 50% das pessoas de cabelos compridos sejam do tipo AX3, no início não é evidente que isso seja possível, mesmo com todas as informações disponíveis. Esses diagramas (Venn) da população e seus subgrupos tornam essas coisas claras.


3
Whuber, assumindo que o tipo sanguíneo e o comprimento do cabelo são independentes, então certamente a porção de mulheres de cabelos compridos com o tipo AX3 deve ser a mesma que a porção de mulheres de cabelos curtos com o AX3? Ou seja, você não tem flexibilidade para mudar retângulos da maneira que propõe ... Se assumirmos também que homens e mulheres são 50:50 em toda a população, isso não nos fornece informações suficientes para resolver essa questão com um único resposta indiscutível?
ProbablyWrong

@whuber +1 muito bom.
Michael R. Chernick

5
Provavelmente errado, olhe atentamente para a pergunta em seu comentário: como ela lida com mulheres , ela está fazendo uma suposição adicional sobre independência, condicionada ao gênero. A suposição de independência (incondicional) do tipo de cabelo e sangue não menciona gênero, de modo que, para entender o que isso significa, apague o hachura das figuras. Espero que isso indique por que temos a flexibilidade de situar a hachura onde quisermos dentro dos retângulos superior e inferior.
whuber

1
@whuber, eu gosto disso. No entanto, tenho 2 perguntas / esclarecimentos: 1. os números parecem assumir proporções populacionais para cabelos longos e curtos (cerca de 6: 4) e ~ AX3 vs AX3 (cerca de 85:15), mas isso não é mencionado na pergunta original nem discutido em suas explicações das figuras. Eu suspeito que as proporções pop não são relevantes. Estou certo / você poderia esclarecer isso nas explicações? 2. Penso que esta situação está finalmente funcionando com o mesmo fenômeno que o Paradox de Simpson , apenas emoldurado de maneira diferente (chegando ao assunto por outra direção, por assim dizer). É uma avaliação justa?
gung - Restabelece Monica

3
@gung, obrigado por fazer esses esclarecimentos. As figuras, é claro, devem representar algumas proporções para funcionar, mas as proporções não especificadas na declaração do problema podem variar. (Construí a figura para que cerca de 50% da população pareça feminina, antecipando uma edição posterior na qual isso foi assumido.) A idéia de aplicar essa representação gráfica para entender o Paradoxo de Simpson é intrigante; Eu acho que tem mérito.
whuber

13

Esta é uma questão de probabilidade condicional. Você sabe que a pessoa tem cabelos longos e tipo sanguíneo Ax3. Deixe Então você procura . Você sabe que e . Isso é suficiente para calcular ? Suponha que . Então Suponha que . Então, pelo exposto,

     A={'The person has long hair'}              B={'The person has blood type Ax3'}C={'The person is female'}.

P(C|A and B)P(C|A)=0.9P(C|B)=0.8
P(C|A and B)P(A and B and C)=0.7
P(C|A and B)=P(A and B and C)/P(A and B)=0.7/P(A and B).
P(A and B)=0.8P(C|A and B)=0.875 . Por outro lado, se , teríamos = 0,78.P(A and B)=0.9P(C|A and B)

Agora ambos são possíveis quando e . Portanto, não podemos ter certeza do que é.P(C|A)=0.9P(C|B)=0.8P(C|A and B)


Olá Michael, Se eu o leio corretamente, você está dizendo que a pergunta apresentada não pode ser respondida, certo? Ou, em outras palavras, você precisaria de mais informações para responder a essa pergunta? 1. Vamos supor que o tipo de sangue raro na minha pergunta original não tenha impacto no desejo ou na capacidade de uma pessoa de crescer seus cabelos por muito tempo. A pergunta agora pode ser respondida? 2. Você concorda que a resposta deve ser maior que 0,9? (Porque você tem um segundo pedaço de informação independente - tipo de sangue - que reforça a hipótese de que a pessoa é uma fêmea)
ProbablyWrong

2
Se for independente, então e você precisará especificar qual fração das pessoas tem cabelos longos, ou seja, , e qual fração das pessoas tem o tipo sanguíneo Ax3, ou seja, . Além disso, você não pode dizer que a resposta deve ser maior que 0,9, o que equivale a afirmar que (realmente não vejo o porquê). P(A and B)P(A and B)=P(A)P(B)P(A)P(B)P(C|A and B)>0.9
Néstor

2
@ProbablyWrong. Sim, o problema, como indicado inicialmente, possui informações insuficientes para uma resposta única.
Michael R. Chernick

@ Néstor, Micahael, discordo de que precisamos saber qual fração das pessoas tem cabelos compridos ou que fração das pessoas tem o tipo sanguíneo AX3. Eu acho que a resposta à pergunta original resolve exclusivamente sem conhecê-las (supondo que A e B sejam independentes, o que todos temos, e supondo que conhecemos a divisão de homens e mulheres em toda a população - não é irracional supor que sejam 50:50 , Eu acho que).
ProbablyWrong

7
Por queEu pensei que usando a definição de probabilidade condicional. P ( C | A B ) = P ( C ( A B ) )
P(C|A and B)=P(A and B and C)×P(A and B)??
P(C|AB)=P(C(AB))P(AB)=P(ABC)P(AB)
precisa saber é o seguinte

4

Discussão fascinante! Gostaria de saber se especificamos P (A) e P (B) também se os intervalos de P (C | A, B) não serão muito mais estreitos que o intervalo completo [0,1], simplesmente por causa das muitas restrições. temos.

Seguindo a notação apresentada acima:

A = o evento em que a pessoa tem cabelos compridos

B = o evento em que a pessoa tem tipo sanguíneo AX3

C = o evento em que a pessoa é mulher

P (C | A) = 0,9

P (C | B) = 0,8

P (C) = 0,5 (ou seja, vamos assumir uma proporção igual de homens e mulheres na população em geral)

não parece possível supor que os eventos A e B sejam condicionalmente independentes, dado C! Isso leva diretamente a uma contradição: seP(AB|C)=P(A|C)P(B|C)=P(C|A)P(A)P(C)P(C|B)P(B)P(C)

então

P(C|AB)=P(AB|C)(P(C)P(AB))=P(C|A)P(A)P(C)P(C|B)P(B)P(C)(P(C)P(AB))

Se agora assumimos que A e B também são independentes: maioria dos termos é cancelada e terminamos comP(AB)=P(A)P(B)

P(C|AB)=P(C|A)P(C|B)P(C)=0.90.80.5>1

Seguindo a maravilhosa representação geométrica do problema do whuber: Embora seja verdade que, de um modo geral, possa assumir qualquer valor no intervalo as restrições geométricas restringem significativamente a faixa de valores possíveis para valores de e que não são "muito pequenos". (Embora também possamos limitar os marginais: e )P(C|AB)[0,1]P(A)P(B)P(A)P(B)

Vamos calcular o {\ bf menor valor possível} para sob as seguintes restrições geométricas:P(C|AB)

1. A fração da área superior (A TRUE) coberta pelo retângulo superior deve ser igual aP(C|A)=0.9

2. A soma das áreas dos dois retângulos deve ser igual aP(C)=0.5

3. A soma da fração das áreas dos dois retângulos coloridos (ou seja, sua sobreposição com o evento B) deve ser igual aP(C|B)=0.8

4. (trivial) O retângulo superior não pode ser movido além do limite esquerdo e não deve ser movido além da sobreposição mínima à esquerda.

5. (trivial) O retângulo inferior não pode ser movido além do limite direito e não deve ser movido além de sua sobreposição máxima à direita.

Essas restrições limitam a liberdade de deslizar os retângulos com hash e, por sua vez, geram limites mais baixos para . A figura abaixo (criada com este script R ) mostra dois exemplos P(C|AB)insira a descrição da imagem aqui

Percorrer um intervalo de valores possíveis para P (A) e P (B) ( script R ) gera esse gráfico insira a descrição da imagem aqui

Em conclusão, podemos limitar a probabilidade condicional P (c | A, B) para dado P (A), P (B)


2
Markus, o primeiro parágrafo pertence a uma pergunta separada e não a uma resposta. O material subsequente parece uma boa observação, mas é difícil seguir sem saber o que e representam. Lembre-se de que usuários diferentes verão as respostas em diferentes seqüências, de acordo com suas preferências e quando as respostas foram editadas pela última vez; portanto, cada resposta deve ser legível independentemente das outras (embora, é claro, você possa vincular outras respostas). A,B,C
whuber

1
@ whuber: obrigado pelo comentário útil! Espero que as novas edições tornem mais legíveis e claras.
Markus Loecher

@whuber e outros: eu esperava reacender a discussão, mas o tópico parece ter ficado inativo? Não há mais comentários de ninguém?
Markus Loecher

1

Faça as hipóteses é que a pessoa atrás de uma cortina é uma mulher.

Apresentamos duas evidências, a saber:

Evidência 1: Sabemos que a pessoa tem cabelos compridos (e somos informados de que 90% de todas as pessoas com cabelos compridos são do sexo feminino)

Evidência 2: Sabemos que a pessoa tem um tipo sanguíneo raro AX3 (e somos informados de que 80% de todas as pessoas com esse tipo sanguíneo são do sexo feminino)

Dada apenas a Evidência 1, podemos afirmar que a pessoa atrás de uma cortina tem um valor de probabilidade de 0,9 de ser mulher (assumindo uma divisão de 50:50 entre homens e mulheres).

Com relação à pergunta colocada anteriormente no tópico, a saber "Você concorda que a resposta deve ser MAIOR que 0,9?", Sem fazer nenhuma Matemática, eu diria intuitivamente que a resposta deve ser "sim" (é MAIOR que 0,9). A lógica é que a evidência 2 está apoiando a evidência (novamente, assumindo uma divisão de 50:50 para o número de homens e mulheres no mundo). Se nos dissessem que 50% de todas as pessoas com sangue do tipo AX3 eram do sexo feminino, a evidência 2 seria neutra e não teria influência. Mas, como nos dizem que 80% de todas as pessoas com esse tipo de sangue são do sexo feminino, a Evidência 2 está apoiando evidências e logicamente deve aumentar a probabilidade final de uma mulher acima de 0,9.

Para calcular uma probabilidade específica, podemos aplicar a regra de Bayes para a evidência 1 e, em seguida, usar a atualização bayesiana para aplicar a evidência 2 à nova hipótese.

Suponha:

A = o evento em que a pessoa tem cabelos compridos

B = o evento em que a pessoa tem tipo sanguíneo AX3

C = o evento que a pessoa é do sexo feminino (assuma 50%)

Aplicando a regra de Bayes à Evidência 1:

P (C | A) = (P (A | C) * P (C)) / P (A)

Nesse caso, novamente se assumirmos a divisão 50:50 entre homens e mulheres:

P (A) = (0,5 * 0,9) + (0,5 * 0,1) = 0,5

Então, P (C | A) = (0,9 * 0,5) / 0,5 = 0,9 (Não é surpresa, mas seria diferente se não tivéssemos 50:50 divididos entre homens e mulheres)

Usando a atualização bayesiana para aplicar a Evidência 2 e conectando 0,9 como a nova probabilidade anterior, temos:

P (C | A e B) = (P (B | C) * 0,9) / P (E)

Aqui, P (E) é a probabilidade da Evidência 2, dadas as hipóteses de que a pessoa já tem 90% de chance de ser mulher.

P (E) = (0,9 * 0,8) + (0,1 * 0,2) [essa é a lei da probabilidade total: (P (mulher) * P (AX3 | mulher) + P (homem) * P (AX3 | homem)] , P (E) = 0,74

Então, P (C | A AND B) = (0,8 * 0,9) / 0,74 = 0,97297


1
Existem algumas afirmações em sua resposta que não fazem sentido para mim. (1) P (C | A) = 0,9 por suposição. Em nenhum lugar foi dito que P (C) = 0,9. Assumimos que P (C) = 0,5. (2) Como você obteve o resultado para P (E)? P (mulher) = P (homem) = 0,5 por suposição, onde você escreve P (mulher) = 0,9.
Michael R. Chernick

O valor de P (C) é assumido em 0,5, que é o que eu usei. O valor de P (E) é a probabilidade da evidência 2 após a aplicação da evidência 1 (o que leva a novas hipóteses de que a probabilidade de a pessoa ser do sexo feminino é de 0,9). P (E) = (probabilidade de a pessoa ser mulher (dada a Evidência 1) * probabilidade de a pessoa ter AX3 se for uma mulher) + (probabilidade de a pessoa ser homem (dada a Evidência 1) * probabilidade de a pessoa ter AX3 Se um homem) = (0,9 * 0,8) + (0,1 * 0,2) = 0,74
RandomAnswer

Sua definição de probabilidade de E é um pouco confusa e os termos que você está usando para calculá-la parecem diferentes do que você escreveu antes. Realmente não importa. A resposta está aparentemente correta com base na resposta bem apresentada de Huu.
Michael R. Chernick

@ Michael Exceto parece que Huu cometeu erros.
whuber

2
Esta resposta está simplesmente errada. Pode haver outros erros, mas este é flagrante. Você indica uma resposta definitiva para P ("Tem cabelo comprido") (seu P (A)) e, em seguida, usa-a para dar sua resposta definitiva final. Simplesmente não há informações suficientes para determinar isso, mesmo assumindo P (F) = 0,5. Sua linha para calcular P (A) parece vir do nada. Aqui está a fórmula correta usando o timoem de Bayes: P (A) = P (A | F) P (F) / P (F | A) a partir do qual, usando suas suposições declaradas, chegue a P (A) = P (A | F) * 5/9. No entanto, ainda não sabemos P (A | F), que pode ser qualquer coisa.
Bogdanovist

0

Pergunta Restatement and Generalization

A , e são incógnitas binárias cujos valores possíveis são e . Deixe defender a proposição "O valor de é ". Também deixe representar "A probabilidade de que , dado esse ". O que é , dado queBC01ZiZi(X|Y)XY(Aa|BbCcI)

  1. (Aa1|Bb1I)=u1 e(Aa2|Cc2I)=u2
  2. (Aa1|Bb1I)=u1 e e(Aa2|Cc2I)=u2(BC|I)=(B|I)(C|I)
  3. (Aa1|Bb1I)=u1 e e(Aa2|Cc2I)=u2(A0|I)=12
  4. (Aa1|Bb1I)=u1 e e e(Aa2|Cc2I)=u2(A0|I)=12(BC|I)=(B|I)(C|I)

e que não contém informações relevantes além do que está implícito nas atribuições? O último conjunto de condições 2 e 4 é um atalho para a declaração de independência tratar cada dos quatro casos, por sua vez.I

(BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1

Respostas

Caso 1

Temos que especificar a distribuição . O problema é subdeterminado, porque requer oito números, mas temos apenas três equações - as duas condições fornecidas e a condição de normalização.(ABC|I)(ABC|I)

Foi demonstrado por vários meios esotéricos que a distribuição a ser atribuída quando a informação não determina uma solução é a que, de todas as distribuições consistentes com a informação conhecida, possui a maior entropia. Qualquer outra distribuição implica que sabemos mais do que as informações conhecidas, o que obviamente é uma contradição.

Tudo o que precisamos fazer, portanto, é atribuir a distribuição máxima de entropia. É mais fácil dizer do que fazer, e não encontrei uma solução geral de forma fechada. Porém, soluções específicas podem ser encontradas usando um otimizador numérico. Maximizamos sujeito às restrições e e Agora vamos aplicar isso à pergunta. Se tiver-mos

i,j,k(AiBjCk|I)ln(AiBjCk|I)
i,j,k(AiBjCk|I)=1
(Aa1|Bb1I)=u1i.e.k(Aa1Bb1Ck|I)i,k(AiBb1Ck|I)=u1
(Aa2|Cc2I)=u2i.e.j(Aa2BjCc2|I)i,j(AiBjCc2|I)=u2

  1. "A pessoa é mulher"A1
  2. "A pessoa tem cabelos compridos"B1
  3. "A pessoa tem sangue tipo AX3"C1

então , , , , , , , , e descobrimos que, para a solução máxima de entropia, . Portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, uma vez que possui cabelos longos e tipo sanguíneo AX3, é de 0,932.a=1b=1c=1a1=1b1=1a2=1c2=1u1=0.9u2=0.8(A1|B1C1I)0.932

Caso 2

Agora, repetimos o exercício com a restrição extra de que, para uma determinada pessoa, conhecer o valor de (o estado do cabelo) não afeta nossa estimativa do valor de (o estado do tipo sanguíneo) e vice-versa. Tudo é o mesmo que no Caso 1, exceto que há duas restrições extras na otimização, a saber: ou seja, Isso forneceBC

(B0|ClI)=(B0|I),l=0,1
i(AiB0Cl|I)i,j(AiBjCl|I)=i,k(AiB0Ck|I),l=0,1
(A1|B1C1I)0.936, portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, pois possui cabelos longos e tipo sanguíneo AX3, é de 0,936.

Caso 3

Agora removemos a condição de independência e a substituímos pela condição anterior de que há uma chance igual de uma pessoa ser homem ou mulher: Desta vez , portanto, a probabilidade de a pessoa atrás da cortina ser do sexo feminino , considerando que ele / ela tem cabelos longos e tipo sanguíneo AX3, é 0,973.

(A0|I)=12i.e.j,k(A0BjCk|I)=12
(A1|B1C1I)0.973

Caso 4

Finalmente, reintroduzimos as restrições de independência do Caso 2 e descobrimos que . Portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, uma vez que possui cabelos longos e tipo sanguíneo AX3, é de 0,989.(A1|B1C1I)0.989


-2

Acredito agora que, se assumirmos uma proporção de homens e mulheres na população em geral, haverá uma única resposta indiscutível.

A = o evento em que a pessoa tem cabelos compridos

B = o evento em que a pessoa tem tipo sanguíneo AX3

C = o evento em que a pessoa é mulher

P (C | A) = 0,9

P (C | B) = 0,8

P (C) = 0,5 (ou seja, vamos assumir uma proporção igual de homens e mulheres na população em geral)

Então P (C | A e B) = [P (C | A) x P (C | B) / P (C)] / [[P (C | A) x P (C | B) / P (C )] + [[1-P (C | A)] x [1-P (C | B)] / [1-P (C)]]]

neste caso, P (C | A e B) = 0,972973


P [C | A e B) = P (A e B e C) / P (A e B) = P (A e B e C) / [P (A | B) P (B)]. Como você conseguiu sua fórmula?
Michael R. Chernick

Provavelmente existe uma maneira de adicionar condições para que você obtenha uma resposta única.
Michael R. Chernick

Para adicionar pela independência de A e B, a fórmula simplifica para P (A e B e C} / [P (A) P (B)] = P (B e C | A) / P (B)
Michael R. Chernick

2
A intenção da minha pergunta era realmente para você justificar a fórmula. Eu não entendo como isso seria derivado.
Michael R. Chernick

2
Não, a resposta que supostamente usou a regra de Bayes está incorreta. Não sei por que você está confuso, a fórmula de MC acima está correta e não pode ser usada para obter nenhum resultado, é isso que as respostas dele e de Whuber à pergunta explicaram!
Bogdanovist

-2

Nota: Para obter uma resposta definitiva, as respostas abaixo assumem que a probabilidade de uma pessoa, um homem de cabelos compridos e uma mulher de cabelos compridos terem AX3 é aproximadamente a mesma. Se desejar mais precisão, isso deve ser verificado.

Você começa com o conhecimento de que a pessoa tem cabelos compridos; portanto, nesse ponto, as chances são de:

90:10

Nota: A proporção de homens e mulheres na população em geral não importa para nós quando descobrimos que a pessoa tem cabelos compridos. Por exemplo, se houvesse uma mulher em uma centena na população em geral, uma pessoa de cabelos compridos selecionada aleatoriamente ainda seria uma mulher 90% do tempo. A proporção de mulheres para homens importa! (veja a atualização abaixo para detalhes)

Em seguida, aprendemos que a pessoa tem AX3. Como o AX3 não tem relação com cabelos longos, sabe-se que a proporção de homens e mulheres é de 50:50 e, como assumimos que as probabilidades são as mesmas, podemos simplesmente multiplicar cada lado da probabilidade e normalizar para que a soma de os lados da probabilidade são iguais a 100:

(90:10) * (80:20)
==> 7200:200

    Normalize by dividing each side by (7200+200)/100 = 74

==> 7200/74:200/74
==> 97.297.. : 2.702..

Assim, a chance de a pessoa por trás da cortina ser do sexo feminino é de aproximadamente 97,297%.

ATUALIZAR

Aqui está uma exploração adicional do problema:

Definições:

f - number of females
m - number of males
fl - number of females with long hair
ml - number of males with long hair
fx - number of females with AX3
mx - number of males with AX3
flx - number of females with long hair and AX3
mlx - number of males with long hair and AX3
pfl - probability that a female has long hair
pml - probability that a male has long hair
pfx - probability that a female has AX3
pmx - probability that a male has AX3

Primeiro, é-nos dado que 90% das pessoas de cabelos compridos são do sexo feminino e 80% das pessoas com AX3 são do sexo feminino, portanto:

fl = 9 * ml
pfl = fl / f
pml = ml / m 
    = fl / (9 * m)

fx = 4 * mx
pfx = fx / f
pmx = mx / m 
    = fx / (4 * m)

Como assumimos que a probabilidade do AX3 é independente do sexo e do cabelo comprido, nosso PFX calculado se aplicará a mulheres com cabelos compridos e o pmx se aplicará a homens com cabelos compridos para encontrar o número deles que provavelmente têm o AX3:

flx = fl * pfx 
    = fl * (fx / f) 
    = (fl * fx) / f
mlx = ml * pmx 
    = (fl / 9) * (fx / (4 * m)) 
    = (fl * fx) / (36 * m)

Assim, a proporção provável do número de mulheres com cabelos compridos e AX3 em relação ao número de homens com cabelos compridos e AX3 é:

flx             :   mlx
(fl * fx) / f   :   (fl * fx) / (36 * m)
1/f             :   1 / (36m)
36m             :   f

Como é dado que existe um número igual de 50:50, você pode cancelar os dois lados e terminar com 36 mulheres para cada homem. Caso contrário, existem 36 * m / f de fêmeas para cada macho no subgrupo especificado. Por exemplo, se houvesse o dobro de mulheres que homens, haveria 72 mulheres para cada homem, daqueles com cabelos compridos e AX3.


1
Essa solução depende do pressuposto de mais do que o atualmente declarado no problema: a saber, que cabelos longos, AX3 e sexo são independentes. Caso contrário, você não pode justificar "aplicar" pfx para mulheres com cabelos longos, etc.
whuber

@ whuber: Sim, eu faço essa suposição. No entanto, o objetivo da probabilidade não é fornecer a melhor aproximação com base nos dados que você possui? Assim, como você já sabe que cabelos compridos e AX3 são independentes para a população em geral, você deve levar essa premissa para machos e fêmeas até que você aprenda explicitamente o contrário. É verdade que não é universalmente correto, mas é o melhor que você pode fazer até obter mais informações. P: Apenas com os dados atuais, se você tivesse a% de chance de ser uma mulher atrás da cortina, você realmente diria "entre 0 e 100%"?
usar o seguinte código

1
Temos uma diferença importante na filosofia, @Briguy. Eu acredito firmemente em não fazer suposições infundadas. Não está claro em que sentido a suposição de independência mútua é "melhor": admito que possa estar em certas aplicações. Mas, em geral, isso parece perigoso para mim. Eu preferiria ter clareza sobre as suposições necessárias para resolver um problema, para que as pessoas possam decidir se vale a pena coletar os dados para verificar essas suposições, em vez de assumir coisas matematicamente convenientes para obter uma resposta. Essa é a diferença entre estatísticas e matemática.
whuber

Para responder à sua pergunta: sim, 0% - 100% é exatamente a resposta que eu daria. (Dei respostas semelhantes a perguntas comparáveis ​​neste site.) Esse intervalo reflete com precisão a incerteza. Esta questão está intimamente relacionada ao paradoxo de Ellsberg . O artigo original de Ellsberg está bem escrito e claro: eu o recomendo.
whuber

@ whuber: Obrigado por reservar um tempo para dialogar comigo. Entendo a importância de pensar e listar as suposições feitas, e atualizei minha resposta de acordo. No entanto, em relação à sua resposta, acredito que ela esteja incompleta. A razão para isso é que você pode considerar todos os casos desconhecidos e encontrar a probabilidade média de todos eles chegarem à sua resposta final. Embora ambas sejam possíveis, probabilidades acima de 50% são muito mais prevalentes do que probabilidades abaixo de 50% em todos os casos, por isso é melhor adivinharmos que é uma mulher.
Briguy37

-4

98% Feminino, interpolação simples. Primeira premissa 90% feminina, deixa 10%, a segunda premissa deixa apenas 2% dos 10% existentes, portanto 98% feminino

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.