Qual é a diferença entre "probabilidade" e "probabilidade"?


474

A página da wikipedia afirma que probabilidade e probabilidade são conceitos distintos.

Na linguagem não técnica, "probabilidade" é geralmente sinônimo de "probabilidade", mas no uso estatístico há uma clara distinção de perspectiva: o número que é a probabilidade de alguns resultados observados, dado um conjunto de valores de parâmetros, é considerado o probabilidade do conjunto de valores de parâmetros, dados os resultados observados.

Alguém pode dar uma descrição mais realista do que isso significa? Além disso, alguns exemplos de como "probabilidade" e "probabilidade" discordam seriam bons.


9
Ótima pergunta. Eu acrescentaria "odds" e "oportunidade" em lá também :)
Neil McGuigan

5
Eu acho que você deveria dar uma olhada nesta pergunta stats.stackexchange.com/questions/665/… porque Probabilidade é para fins estatísticos e probabilidade para probabilidade.
226106 robin girard #

3
Uau, essas são algumas respostas realmente boas. Então, um grande obrigado por isso! Em algum momento, vou escolher uma que eu particularmente goste como resposta "aceita" (embora existam várias que eu acho que são igualmente merecidas).
Douglas S. Stones

1
Observe também que a "razão de verossimilhança" é na verdade uma "razão de probabilidade", pois é uma função das observações.
21411 JohnRos

Respostas:


321

A resposta depende se você está lidando com variáveis ​​aleatórias discretas ou contínuas. Então, dividirei minha resposta de acordo. Assumirei que você deseja alguns detalhes técnicos e não necessariamente uma explicação em inglês simples.

Variáveis ​​aleatórias discretas

Suponha que você tenha um processo estocástico que aceite valores discretos (por exemplo, resultados de jogar uma moeda 10 vezes, número de clientes que chegam a uma loja em 10 minutos, etc.). Nesses casos, podemos calcular a probabilidade de observar um conjunto específico de resultados, fazendo suposições adequadas sobre o processo estocástico subjacente (por exemplo, a probabilidade de cabeças de aterrissagem de moedas é p e que o lançamento da moeda é independente).

Indique os resultados observados por O e o conjunto de parâmetros que descrevem o processo estocástico como θ . Assim, quando falamos em probabilidade, queremos calcular P(O|θ) . Em outras palavras, dado valores específicos para θ , P(O|θ) é a probabilidade de que iríamos observar os resultados representados por O .

No entanto, quando modelamos um processo estocástico da vida real, geralmente não sabemos θ . Nós simplesmente observar O eo objetivo é, então, para chegar a uma estimativa para θ que seria uma escolha plausível dada a resultados observados O . Sabemos que, dado um valor de θ a probabilidade de observar O é P(O|θ) . Assim, um processo de estimação 'natural' é escolher esse valor de θ que maximizaria a probabilidade de que nós realmente observar O . Em outras palavras, encontramos os valores de parâmetros θ que maximizam a seguinte função:

L(θ|O)=P(O|θ)

L(θ|O) é chamada de função de verossimilhança. Observe que, por definição, a função de probabilidade está condicionada aoO observadoe que é uma função dos parâmetros desconhecidosθ .

Variáveis ​​aleatórias contínuas

No caso contínuo, a situação é semelhante, com uma diferença importante. Não podemos mais falar sobre a probabilidade de termos observado O dado θ porque no caso contínuo P(O|θ)=0 . Sem entrar em detalhes técnicos, a idéia básica é a seguinte:

Denote a função de densidade de probabilidade (pdf) associada aos resultados O como: f(O|θ) . Assim, no caso contínuo, estimamos θ dados os resultados observados O maximizando a seguinte função:

L(θ|O)=f(O|θ)

Nesta situação, não podemos afirmar que tecnicamente estamos percebendo o valor do parâmetro que maximiza a probabilidade de que observemos O que nós maximizar o PDF associado ao resultado observado O .


35
A distinção entre variáveis ​​discretas e contínuas desaparece do ponto de vista da teoria da medida.
whuber

24
@ whuber sim, mas uma resposta usando a teoria da medida não é acessível a todos.

16
@ Krikant: De acordo. O comentário foi em benefício do OP, que é matemático (mas talvez não estatístico) para evitar ser enganado ao pensar que há algo fundamental na distinção.
whuber

6
É possível interpretar uma densidade contínua o mesmo que o caso discreto se é substituído por d ó , no sentido em que se pedem P r ( S ( S ' , S ' + d S ' ) | q ) (probabilidade ou seja que os dados O estão contidos em uma região infinintesimal em torno de O ' ) e a resposta é f ( O ' | θ ) d O ' ( d d O 'OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdOdeixa claro que estamos calculando a área de um "compartimento" infinintesimamente fino de um histograma).
probabilityislogic

9
Estou com mais de 5 anos de atraso na festa, mas acho que um acompanhamento muito crucial para essa resposta seria stats.stackexchange.com/questions/31238/…, que enfatiza o fato de que a função de probabilidade não é um pdf em relação a θ . L ( θ ) é de fato um pdf de dados, dado o valor do parâmetro, mas como L é uma função de θ sozinho (com dados mantidos como constantes), é irrelevante que L ( θ ) seja um pdf de dados dados θ . L(θ)θL(θLθL(θ)θ
Shobhit

135

Esse é o tipo de pergunta que quase todo mundo vai responder e eu esperaria que todas as respostas fossem boas. Mas você é um matemático, Douglas, então deixe-me oferecer uma resposta matemática.

Um modelo estatístico precisa conectar duas entidades conceituais distintas: dados , que são elementos x de algum conjunto (como um espaço vetorial) e um possível modelo quantitativo do comportamento dos dados. Os modelos são geralmente representados por pontos θ em uma variedade dimensional finita, uma variedade com limite ou um espaço funcional (o último é denominado um problema "não paramétrico").

Os dados x são conectados aos possíveis modelos θ por meio de uma função Λ(x,θ) . Para qualquer θ , Λ(x,θ) deve ser a probabilidade (ou densidade de probabilidade) de x . Por qualquer x dado , por outro lado, Λ(x,θ) pode ser visto como uma função de θ e geralmente é assumido como tendo certas propriedades agradáveis, como ser continuamente diferenciável em segundo. A intenção de ver Λdesta forma e para invocar estes pressupostos é anunciado chamando Λ a "probabilidade".

É bem parecido com a distinção entre variáveis ​​e parâmetros em uma equação diferencial: às vezes queremos estudar a solução (ou seja, focamos nas variáveis ​​como argumento) e às vezes queremos estudar como a solução varia com os parâmetros. A principal distinção é que, em estatística, raramente precisamos estudar a variação simultânea de ambos os conjuntos de argumentos; não existe um objeto estatístico que corresponda naturalmente à alteração dos dados x e dos parâmetros do modelo θ . É por isso que você ouve mais sobre essa dicotomia do que em ambientes matemáticos análogos.


6
+1, que resposta legal. A analogia com equações diferenciais parece muito apropriada.
Mvctas # 5/12

3
Como economista, embora essa resposta não se relacione tão intimamente quanto a anterior aos conceitos que aprendi, foi a mais informativa em um sentido intuitivo. Muito Obrigado.
Robson

1
Na verdade, esta afirmação não é realmente verdadeira "não há objeto estatístico que corresponda naturalmente à alteração dos dados x e dos parâmetros do modelo θ". Existe, é chamado de "suavização, filtragem e previsão". Nos modelos lineares, é o filtro Kalman; nos modelos não lineares, eles têm os filtros não lineares completos, en.wikipedia.org/wiki/Kushner_equation etc
crow

1
Sim, ótima resposta! Por mais ridículo que isso pareça, escolhendo vez da notação padrão de P ( x , θ ) , ficou mais fácil ver que estamos começando com uma probabilidade conjunta que pode ser definida como probabilidade ou probabilidade condicional. Além disso, o comentário "certas propriedades agradáveis" ajudou. Obrigado! Λ(x,θ)P(x,θ)
Mike Williamson

2
@whuber Sim, eu sei não é a notação usual. Foi exatamente por isso que ajudou! Parei de pensar que deveria ter um significado particular e, em vez disso, apenas segui a lógica. ;-pΛ
Mike Williamson

110

Vou tentar minimizar a matemática na minha explicação, pois já existem algumas boas explicações matemáticas.

Como Robin Girand aponta, a diferença entre probabilidade e probabilidade está intimamente relacionada à diferença entre probabilidade e estatística . Em certo sentido, a probabilidade e as estatísticas preocupam-se com problemas opostos ou inversos entre si.

Considere um sorteio. (Minha resposta será semelhante ao Exemplo 1 na Wikipedia .) Se sabemos que a moeda é justa ( ), uma pergunta típica de probabilidade é: Qual é a probabilidade de obter duas cabeças seguidas. A resposta é P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Uma pergunta estatística típica é: a moeda é justa? Para responder a isso, precisamos perguntar: Até que ponto nossa amostra suporta a hipótese de que ?P(H)=P(T)=0.5

O primeiro ponto a ser observado é que a direção da pergunta se inverteu. Em probabilidade que iniciar com um parâmetro assumido ( ) e estimar a probabilidade de uma dada amostra (duas cabeças em uma fileira). Nas estatísticas, começamos com a observação (duas cabeças seguidas) e fazemos INFERENCE sobre o nosso parâmetro ( p = P ( H ) = 1 - P ( T ) = 1 - q ).P(head)p=P(H)=1P(T)=1q

O exemplo 1 da Wikipedia mostra que a estimativa de probabilidade máxima de após 2 cabeças seguidas é p M L E = 1 . Mas os dados de maneira alguma descartam o valor real do parâmetro p ( H ) = 0,5 (não vamos nos preocupar com os detalhes no momento). De fato, apenas valores muito pequenos de p ( H ) e particularmente de p ( H ) = 0 podem ser razoavelmente eliminados após n = 2P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2(dois lances da moeda). Após o terceiro arremesso , podemos agora eliminar a possibilidade de que (ou seja, não é uma moeda de duas cabeças), mas a maioria dos valores intermediários pode ser razoavelmente suportada pelos dados . (Um intervalo binomial exato de confiança de 95% para p ( H ) é de 0,094 a 0,992.P(H)=1.0p(H)

Após 100 lançamentos de moedas e (digamos) 70 cabeças, agora temos uma base razoável para a suspeita de que a moeda não seja de fato justa. Um IC exato de 95% em agora é de 0,600 a 0,787 e a probabilidade de observar um resultado tão extremo quanto 70 ou mais caras (ou caudas) de 100 lançamentos dados p ( H ) = 0,5 é 0,0000785.p(H)p(H)=0.5

Embora eu não tenha usado explicitamente cálculos de probabilidade, este exemplo captura o conceito de probabilidade: Probabilidade é uma medida da medida em que uma amostra fornece suporte para valores específicos de um parâmetro em um modelo paramétrico .


3
Ótima resposta! Especialmente os três últimos parágrafos são muito úteis. Como você estenderia isso para descrever o caso contínuo?
Demetris 02/09

8
Para mim, a melhor resposta. Eu não me importo com matemática, mas para mim a matemática é uma ferramenta regida pelo que eu quero (não gosto de matemática por si só, mas pelo que isso me ajuda a fazer). Somente com esta resposta eu conheço a última.
Morre

73

Vou dar-lhe a perspectiva da visão da Teoria da Verossimilhança que se originou com Fisher - e é a base para a definição estatística no artigo citado da Wikipedia.

XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

XθFθL(θ)=P(θ;X=x)Xθ

Embora pareça que simplesmente reescrevemos a função de probabilidade, uma conseqüência essencial disso é que a função de probabilidade não obedece às leis da probabilidade (por exemplo, não está vinculada ao intervalo [0, 1]). No entanto, a função de probabilidade é proporcional à probabilidade dos dados observados.

Esse conceito de probabilidade na verdade leva a uma escola de pensamento diferente, os "verossimilhantes" (distintos de frequentista e bayesiano) e você pode pesquisar no Google por todos os vários debates históricos. A pedra angular é o Princípio da Verossimilhança, que diz essencialmente que podemos realizar inferência diretamente da função de verossimilhança (nem os bayesianos nem os freqüentadores aceitam isso, pois não é uma inferência baseada em probabilidade). Atualmente, muito do que é ensinado como "freqüentista" nas escolas é na verdade uma amálgama de pensamento freqüentista e de probabilidade.

Para uma visão mais profunda, um bom começo e referência histórica é a Probabilidade de Edwards . Para uma versão moderna, eu recomendaria a maravilhosa monografia de Richard Royall, Statistical Evidence: A Likelihood Paradigm .


3
Resposta interessante, eu realmente pensei que a "escola de probabilidade" era basicamente os "frequentistas que não projetam amostras de escola", enquanto a "escola de design" era o resto dos freqüentadores. Na verdade, acho difícil dizer qual "escola" eu sou, pois tenho um pouco de conhecimento de todas as escolas. A escola "Probabilidade como lógica estendida" é a minha favorita (duh), mas não tenho experiência prática suficiente em aplicá-la a problemas reais para ser dogmática.
probabilityislogic

5
+1 para "a função de probabilidade não obedece às leis da probabilidade (por exemplo, não está vinculada ao intervalo [0, 1]). No entanto, a função de probabilidade é proporcional à probabilidade dos dados observados".
Morsa, o gato

10
"a função de verossimilhança não obedece às leis da probabilidade" poderia usar mais esclarecimentos, especialmente porque foi escrito como θ: L (θ) = P (θ; X = x), ou seja, igualado a uma probabilidade!
Redcalx #

Obrigado pela sua resposta. Você poderia comentar o comentário que @locster fez?
Vivek Subramanian

2
Para mim, como não matemático, isso parece matemática religiosa, com crenças diferentes, resultando em valores diferentes para as chances de eventos acontecerem. Você pode formulá-lo, para que seja mais fácil entender quais são as diferentes crenças e por que todas fazem sentido, em vez de uma estar simplesmente incorreta e a outra escola / crença estar correta? (pressuposto de que existe uma maneira correta de calcular as chances de eventos a ocorrer)
Zelphir Kaltstahl

56

Dadas todas as excelentes respostas técnicas acima, deixe-me voltar à linguagem: probabilidade quantifica antecipação (de resultado), probabilidade quantifica confiança (no modelo).

Suponha que alguém nos desafie a um 'jogo de apostas lucrativo'. Então, as probabilidades nos servirão para calcular coisas como o perfil esperado de seus ganhos e perdas (média, modo, mediana, variação, proporção de informações, valor em risco, arruinação dos jogadores e assim por diante). Por outro lado, a probabilidade nos servirá para quantificar se confiamos nessas probabilidades em primeiro lugar; ou se "cheiramos um rato".


Aliás - já que alguém mencionou as religiões da estatística - acredito que a razão de probabilidade seja parte integrante do mundo bayesiano e também do mundo freqüentista: no mundo bayesiano, a fórmula de Bayes apenas combina anterior com probabilidade de produzir posterior.


Esta resposta resume para mim. Eu tive que pensar no que significava quando li que probabilidade não é probabilidade, mas o seguinte caso me ocorreu. Qual é a probabilidade de uma moeda ser justa, visto que vemos quatro cabeças seguidas? Não podemos realmente dizer nada sobre probabilidade aqui, mas a palavra "confiança" parece adequada. Nós sentimos que podemos confiar na moeda?
dnuttle

Inicialmente, esse pode ter sido o objetivo historicamente pretendido das probabilidades, mas hoje em dia as probabilidades são todos os cálculos bayesianos, e sabe-se que as probabilidades podem amálgama de crenças e plausibilidade, razão pela qual a teoria de Dempster-Shafer foi criada, para desambiguar as duas interpretações.
gaborous

50

p(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3)p=2/3f(1,p)px=1


Belo complemento às definições teóricas usadas acima!
Frank Meulenaar 17/09/11

Cknpn(1p)knnkpx(1p)1xkx=n/k

40

Se eu tiver uma moeda justa (valor do parâmetro), a probabilidade de ela aparecer cara é 0,5. Se eu jogar uma moeda 100 vezes e aparecer 52 vezes, há uma alta probabilidade de ser justa (o valor numérico da probabilidade potencialmente assumindo várias formas).


3
Esta e a resposta de Gypsy devem estar no topo! Intuição e clareza acima do rigor matemático seco, para não dizer algo mais depreciativo.
Nemanja Radojković

24

P(x|θ)

  • xθθP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • θxθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ

Freqüentemente, essa expressão ainda é uma função de ambos os seus argumentos, portanto é uma questão de ênfase.


Para o segundo caso, pensei que as pessoas costumam escrever P (theta | x).
Yuqian

Originalmente, intuitivamente, eu já pensei que as duas palavras são iguais, com uma diferença de perspectiva ou formulação de linguagem natural, então sinto como "O quê? Eu estava certa o tempo todo ?!" Mas, se for esse o caso, por que a distinção é tão importante? Como o inglês não é minha língua materna, cresci com apenas uma palavra para aparentemente os dois termos (ou simplesmente nunca tive um problema em que precisava distinguir os termos?) E nunca soube que havia alguma diferença. É só agora, que conheço dois termos em inglês, que começo a duvidar da minha compreensão dessas coisas.
Zelphir Kaltstahl

3
Sua resposta parece ser bastante abrangente e fácil de entender. Eu me pergunto, por que houve tão poucos votos positivos.
Julian

4
θθθθ

eu acho que essa é a melhor resposta entre todos
Aaron

4

θ

P(X|θ)θP(X|θ)dθθθ


1
Como aponta a resposta de @Lenar Hoyt, se teta é uma variável aleatória (que pode ser), a probabilidade é uma probabilidade. Portanto, a resposta real parece ser que a probabilidade pode ser uma probabilidade, mas às vezes não é.
Mike Wise

@MikeWise, acho theta pode sempre ser visto como uma variável "random", enquanto que as chances são de que ele é apenas não tão "aleatório" ...
Response777

4

você conhece o piloto da série "num3ers" na qual o FBI tenta localizar a base de um criminoso em série que parece escolher suas vítimas aleatoriamente?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

lx(θ)θpθ(x)xp(x|θ)xθ

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.