Qual é o conceito estatístico mais difícil de entender?


32

Essa é uma pergunta semelhante à aqui , mas acho que vale a pena perguntar o suficiente.

Eu pensei em colocar como entrada, o que acho que é um dos mais difíceis de entender.

A minha é a diferença entre probabilidade e frequência . Um está no nível de "conhecimento da realidade" (probabilidade), enquanto o outro está no nível de "realidade em si" (frequência). Isso quase sempre me deixa confuso se eu pensar muito sobre isso.

Edwin Jaynes cunhou um termo chamado "falácia da projeção da mente" para descrever a confusão dessas coisas.

Quaisquer pensamentos sobre outros conceitos difíceis de entender?


(Eu não sei o suficiente para colocar isso como resposta, portanto adicionando um comentário.) Eu sempre achei estranho que o PI aparecesse em equações estatísticas. Quero dizer - o que o PI tem a ver com estatísticas? :)
Restabelecer Monica - Adeus SE

2
Eu concordo (Na minha surprisal) - Eu acho que é que aparece em muitas análises matemáticas. Apenas uma observação, você pode escrever usando os comandos Latex como dentro dos sinais de $. Eu uso a página wiki para obter a sintaxe en.wikibooks.org/wiki/LaTeX/Mathematics . Outro truque é "clicar com o botão direito" em uma equação que você vê neste site e selecionar "show source" para obter os comandos que foram usados. π \ piππ\ pi
probabilityislogic

@Wiki Se você aceitar que surge quando você mede o comprimento de um pedaço reto de linha até o comprimento de um círculo, não vejo por que não apareceria ao medir a probabilidade de cair em um segmento para medir a probabilidade de cair em um pedaço de círculo? π
precisa saber é o seguinte

@Wiki Sempre que você tiver funções trigonométricas (seno, cosseno, tangente etc.), corre o risco de aparecer . E lembre-se de que sempre que você obtém uma função, na verdade encontra uma tangente. O que é surpreendente é que não aparece com mais frequência. πππ
Carlos Accioly

@Carlos Eu suspeito que a prevalência de se deva principalmente ao uso da métrica , levando a n-esferas. Na mesma linha, eu esperaria que fosse cuja prevalência se devesse à análise. 2 e2π2e
sesqu 29/01

Respostas:


31

por alguma razão, as pessoas têm dificuldade em entender o que realmente é um valor-p.


3
@shabbychef: A maioria das pessoas entende da pior maneira possível, ou seja, a probabilidade de cometer um erro do tipo I.
suncoolsu

2
Eu acho que é principalmente relacionada a como p-valores são explicados nas aulas (ou seja: apenas dando uma definição rápida e sem especificar o p-valores não são)
nico

Eu acho que isso tem a ver principalmente com a forma como é introduzido. Para mim, era um "complemento" ao teste de hipóteses clássico - então parece que é apenas mais uma maneira de fazer um teste de hipóteses. O outro problema é que geralmente é ensinado apenas com relação a uma distribuição normal, onde tudo "funciona bem" (por exemplo, o valor p é uma medida de evidência no teste de uma média normal). Generalizar a p-valor não é fácil, pois não há princípios específicos para orientar a generalização (por exemplo, não há um acordo geral sobre como um p-valor deve variar de acordo com o tamanho da amostra e comparações múltiplas)
probabilityislogic

@shabbychef +1, embora o aluno geralmente tenha dificuldades com valores-p (aproximadamente porque o conceito em teste é um pouco mais sutil do que um processo de decisão binário e porque a "inversão de uma função" não é fácil de entender). Quando você diz "por algum motivo", você quer dizer que não está claro para você por que as pessoas têm dificuldades? PS: Se eu pudesse, tentaria fazer estatísticas neste site sobre a relação entre "ser a melhor resposta" e "falar sobre valor-p" :). Eu também ainda me pergunto se o conceito mais difícil estatística a compreensão pode ter o mais upvote (se é difícil de entender ... :))
robin Girard

1
@ eduardo - sim, um valor p pequeno o suficiente é suficiente para colocar em dúvida a hipótese nula: mas é calculado em isolamento completo a uma alternativa. Usando valores-p sozinhos, você nunca pode "rejeitar" formalmente , porque nenhuma alternativa foi especificada . Se você rejeitar formalmente , também deverá rejeitar os cálculos baseados na suposição de que é verdadeiro, o que significa que você deve rejeitar o cálculo do valor-p que foi derivado sob essa suposição (ele mexe com sua cabeça, mas é a única maneira de raciocinar de forma consistente ). H 0 H 0H0 0H0 0H0 0
probabilityislogic

23

Semelhante à resposta de shabbychef, é difícil entender o significado de um intervalo de confiança nas estatísticas freqüentistas. Penso que o maior obstáculo é que um intervalo de confiança não responde à pergunta que gostaríamos de responder. Gostaríamos de saber: "qual é a chance de o verdadeiro valor estar dentro desse intervalo específico?" Em vez disso, podemos apenas responder: "qual é a chance de um intervalo escolhido aleatoriamente criado dessa maneira conter o parâmetro true?" O último é obviamente menos satisfatório.


1
Quanto mais penso nos intervalos de confiança, mais difícil é para mim pensar em que tipo de pergunta eles podem responder em um nível conceitual que não pode ser respondido perguntando "a chance de um valor verdadeiro estar dentro de um intervalo, dado o estado de alguém. conhecimento". Se eu perguntasse "qual é a chance (dependendo das minhas informações) de que a renda média em 2010 tenha sido entre 10.000 e 50.000?" Não acho que a teoria dos intervalos de confiança possa dar uma resposta a essa pergunta.
probabilityislogic

21

Qual é o significado de "graus de liberdade"? Que tal df que não são números inteiros?


13

A probabilidade condicional provavelmente leva à maioria dos erros na experiência cotidiana. Existem muitos conceitos mais difíceis de entender, é claro, mas as pessoas geralmente não precisam se preocupar com eles - este de que não podem se afastar e é uma fonte de desventura desenfreada.


+1; você poderia adicionar um exemplo ou dois, favorito ou atual?
denis

1
Para iniciantes: P (você tem a doença | teste é positivo)! = P (teste é positivo | você tem a doença).
Xmjx

9

Penso que pouquíssimos cientistas entendem este ponto básico: só é possível interpretar os resultados de análises estatísticas pelo valor nominal, se todas as etapas foram planejadas com antecedência. Especificamente:

  • O tamanho da amostra deve ser escolhido com antecedência. Não é bom continuar analisando os dados à medida que mais sujeitos são adicionados, parando quando os resultados parecem bons.
  • Quaisquer métodos usados ​​para normalizar os dados ou excluir discrepantes também devem ser decididos com antecedência. Não é bom analisar vários subconjuntos de dados até encontrar os resultados desejados.
  • E, finalmente, é claro, os métodos estatísticos devem ser decididos antecipadamente. Não é bom analisar os dados por métodos paramétricos e não paramétricos e escolher os resultados desejados.

Métodos exploratórios podem ser úteis para, bem, explorar. Mas você não pode se virar e executar testes estatísticos regulares e interpretar os resultados da maneira usual.


5
Eu acho que John Tukey pode discordar en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial

3
Eu discordo parcialmente aqui. Acho que a ressalva que as pessoas sentem falta é que as operações de condicionamento apropriadas são fáceis de ignorar para esse tipo de problema. Cada uma dessas operações altera as condições da inferência e, portanto, altera as condições de sua aplicabilidade (e, portanto, de sua generalidade). Definitivamente, isso é aplicável apenas à "análise confirmatória", onde um modelo e uma pergunta bem definidos foram construídos. Na fase exploratória, não procura responder a perguntas definidas - procura construir um modelo e apresentar hipóteses para os dados.
probabilityislogic

Editei um pouco minha resposta para levar em conta os comentários de Dikran e probabilityislogic. Obrigado.
Harvey Motulsky

1
Para mim, os "excluídos" não são tão claramente errados quanto sua resposta implica. Por exemplo, você pode estar interessado apenas nos relacionamentos com um certo intervalo de respostas, e excluir discrepantes ajuda realmente esse tipo de análise. Por exemplo, se você deseja modelar a renda da "classe média", é uma boa idéia excluir os outliers super-ricos e empobrecidos. É apenas a valores atípicos dentro do seu quadro de inferência (por exemplo, observações "estranho" classe média) foram seus comentários aplicam
probabilityislogic

2
Em última análise, o verdadeiro problema com as questões levantadas na resposta inicial é que eles (pelo menos parcialmente) invalidam os valores-p. Se você estiver interessado em quantificar um efeito observado, deve-se conseguir fazer todo e qualquer um dos itens acima com impunidade.
russellpierce

9

Língua firme na bochecha: para os freqüentadores, o conceito bayesiano de probabilidade; para os bayesianos, o conceito freqüentista de probabilidade. ; o)

Ambos têm mérito, é claro, mas pode ser muito difícil entender por que uma estrutura é interessante / útil / válida se a sua compreensão da outra for muito firme. A validação cruzada é um bom remédio, pois fazer perguntas e ouvir respostas é uma boa maneira de aprender.


2
Eu regra que costumo lembrar: use probabilidades para prever frequências. Depois que as frequências forem observadas, use-as para avaliar as probabilidades que você atribuiu. Infelizmente, a coisa confusa é que, muitas vezes, a probabilidade que você atribui é igual à frequência que você observou. Uma coisa que sempre achei estranha é por que os freqüentadores usam a palavra probabilidade? não tornaria seus conceitos mais fáceis de entender se a frase "a frequência de um evento" fosse usada em vez de "a probabilidade de um evento"?
probabilityislogic

p(x)eu(xn,x)dxEu=1Eu=neu(x[n-Eu],xEu)xnx[n-Eu]xEu

8

Da minha experiência pessoal, o conceito de probabilidade também pode causar muita agitação, especialmente para não estatísticos. Como a wikipedia diz, muitas vezes é confundida com o conceito de probabilidade, que não é exatamente correto.



6

O que as diferentes distribuições realmente representam, além de como elas são usadas.


3
Essa foi a pergunta que achei mais perturbadora após as estatísticas 101. Eu encontraria muitas distribuições sem motivação para elas além das "propriedades" relevantes para os tópicos em questão. Levou inaceitavelmente tempo para descobrir o que qualquer um representava.
sesqu

1
O "pensamento" da entropia máxima é um método que ajuda a entender o que é uma distribuição, a saber, um estado de conhecimento (ou uma descrição da incerteza sobre algo). Esta é a única definição que fez sentido para mim em todas as situações
probabilityislogic

Ben Bolker fornece uma boa visão deste no 'beastiary de distribuições' seção de Modelos e dados ecológicos em R
David LeBauer

5

Eu acho que a pergunta é interpretável de duas maneiras, o que dará respostas muito diferentes:

1) Para quem estuda estatística, particularmente em um nível relativamente avançado, qual é o conceito mais difícil de entender?

2) Qual conceito estatístico é incompreendido pela maioria das pessoas?

Pois 1) não sei a resposta. Algo da teoria da medida, talvez? Algum tipo de integração? Eu não sei.

Para 2) valor-p, com as mãos para baixo.


A teoria da medida não é um campo estatístico nem difícil. Alguns tipos de integração são difíceis, mas, mais uma vez, isso não é estatística.
pyon 29/01

5

O intervalo de confiança na tradição não bayesiana é difícil.


5

Acho que as pessoas sentem falta do barco em praticamente tudo da primeira vez. Eu acho que o que a maioria dos estudantes não entende é que eles geralmente estimam parâmetros com base em amostras. Eles não sabem a diferença entre uma estatística de amostra e um parâmetro de população. Se você colocar essas idéias na cabeça deles, as outras coisas devem seguir um pouco mais fácil. Tenho certeza que a maioria dos estudantes também não entende o cerne da CLT.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.