O que são pecados estatísticos comuns?


227

Sou estudante de psicologia e, à medida que estudo mais e mais independentemente em estatística, fico cada vez mais impressionado com a inadequação do meu treinamento formal. Tanto a experiência pessoal quanto a de segunda mão sugerem que a escassez de rigor estatístico na graduação e na pós-graduação é onipresente na psicologia. Como tal, pensei que seria útil para alunos independentes como eu criar uma lista de "pecados estatísticos", tabulando as práticas estatísticas ensinadas aos alunos de graduação como prática padrão que são de fato substituídas por superior (mais poderoso, flexível ou métodos robustos, etc.) modernos ou que demonstrem ser francamente inválidos. Antecipando que outros campos também podem ter um estado de coisas semelhante, proponho um wiki da comunidade onde podemos coletar uma lista de pecados estatísticos em todas as disciplinas.


5
Estou ciente de que "pecado" é possivelmente inflamatório e que alguns aspectos da análise estatística não são em preto e branco. Minha intenção é solicitar casos em que uma determinada prática comumente ensinada seja claramente inadequada.
Mike Lawrence

5
Você também pode adicionar estudantes de biologia / ciências da vida à mistura, se quiser;)
nico

11
talvez substitua-o por pecados estatísticos em ciências da vida? ... ou algo mais específico ... #
John

11
@ whuber Houve algumas respostas boas, então eu juntei as duas.

11
Oi @ Amanda, você poderia dar alguma indicação aqui do que está falando? Ninguém gosta da possibilidade de ser enganado.
precisa saber é o seguinte

Respostas:



115

A maioria das interpretações dos valores-p é pecaminosa! O uso convencional de valores-p é muito defeituoso; um fato que, na minha opinião, põe em questão as abordagens padrão para o ensino de testes de hipóteses e testes de significância.

Haller e Krause descobriram que os instrutores estatísticos são quase tão propensos quanto os alunos a interpretar mal os valores de p. (Faça o teste no trabalho deles e veja como você o faz.) Steve Goodman é um bom argumento para descartar o uso (incorreto) convencional do valor-p em favor das probabilidades. O artigo de Hubbard também merece uma olhada.

Haller e Krauss. Interpretações errôneas de significado: Um problema que os alunos compartilham com seus professores . Methods of Psychological Research (2002) vol. 7 (1) pp. 1-20 ( PDF )

Hubbard e Bayarri. Confusão sobre medidas de evidência (p's) versus erros (α's) em testes estatísticos clássicos . The American Statistician (2003) vol. 57 (3)

Bom homem. Em direção a estatísticas médicas baseadas em evidências. 1: Falácia do valor P. Ann Intern Med (1999) vol. 130 (12) pp. 995-1004 ( PDF )

Veja também:

Wagenmakers, EJ. Uma solução prática para os problemas difundidos dos valores de p. Psychonomic Bulletin & Review, 14 (5), 779-804.

para alguns casos claros em que mesmo a interpretação nominalmente "correta" de um valor-p foi incorreta devido às escolhas feitas pelo pesquisador.

Atualização (2016) : Em 2016, a American Statistical Association emitiu uma declaração sobre valores-p, veja aqui . De certa forma, essa foi uma resposta à "proibição de valores-p" emitida por uma revista de psicologia cerca de um ano antes.


2
@ Michael (+1) Adicionei links para resumos e PDFs sem permissão. Espero que você não se importe.
chl

7
+1, mas gostaria de fazer alguns comentários críticos. Em relação à linha de abertura, pode-se dizer que "quase todas" (no sentido teórico da medida) interpretações de qualquer conceito bem definido estão incorretas, porque apenas uma está correta. Segundo, a que você se refere quando diz "o uso convencional" e "abordagens padrão"? Essas referências vagas soam como um homem de palha. Eles não concordam com o que se pode encontrar na literatura sobre educação em estatística, por exemplo.
whuber

4
@ Whuber Veja o jornal Goodman. Está de acordo muito bem com a minha experiência no campo da farmacologia. Os métodos dizem "Resultados em que P <0,05 foi considerado estatisticamente significante" e, em seguida, os resultados são apresentados com + para p <0,05, ++ para p <0,01 e +++ para p <0,0001. A afirmação implica o controle das taxas de erro de Neyman e Pearson, mas o uso de diferentes níveis de p sugere a abordagem de Fisher, onde o valor de p é um índice da força da evidência contra a hipótese nula. Como Goodman aponta, você não pode controlar simultaneamente as taxas de erro e avaliar a força das evidências.
Michael Lew

8
@ Michael Existem interpretações alternativas e mais generosas desse tipo de relatório. Por exemplo, o autor pode estar ciente de que os leitores podem aplicar seus próprios limites de significância e, portanto, fazer a sinalização de valores-p para ajudá-los. Como alternativa, o autor pode estar ciente de possíveis problemas de comparações múltiplas e usar os diferentes níveis em um ajuste do tipo Bonferroni. Talvez uma parte da culpa pelo uso indevido de valores-p deva ser colocada aos pés do leitor, não do autor.
whuber

4
@ Whuber Concordo inteiramente, mas apenas que o que você sugere é verdade em uma pequena fração dos casos (uma versão restrita de 'inteiramente'). Existem alguns periódicos que especificam que os valores de p devem ser relatados em um, dois ou três níveis de estrela, em vez dos valores exatos, portanto esses periódicos compartilham alguma responsabilidade pelo resultado. No entanto, tanto esse requisito mal considerado quanto o uso aparentemente ingênuo dos valores de p podem ser o resultado da falta de uma explicação clara das diferenças entre taxas de erro e evidências nos vários textos introdutórios de estatísticas que estão nas minhas prateleiras.
Michael Lew

73

A armadilha mais perigosa que encontrei ao trabalhar em um modelo preditivo não é reservar um conjunto de dados de teste desde o início, para dedicar à avaliação de desempenho "final".

É muito fácil superestimar a precisão preditiva do seu modelo se você tiver a chance de usar os dados de teste de alguma forma ao ajustar os parâmetros, selecionar o anterior, selecionar o critério de parada do algoritmo de aprendizagem ...

Para evitar esse problema, antes de iniciar seu trabalho em um novo conjunto de dados, você deve dividir seus dados como:

  • conjunto de desenvolvimento
  • conjunto de avaliação

Em seguida, divida seu conjunto de desenvolvimento como um "conjunto de desenvolvimento de treinamento" e "conjunto de desenvolvimento de teste", em que você usa o conjunto de desenvolvimento de treinamento para treinar vários modelos com parâmetros diferentes e seleciona os melhores de acordo com o desempenho no conjunto de desenvolvimento de teste. Você também pode fazer uma pesquisa em grade com validação cruzada, mas apenas no conjunto de desenvolvimento. Nunca use o conjunto de avaliação enquanto a seleção do modelo não for 100% concluída.

Quando estiver confiante com a seleção e os parâmetros do modelo, execute uma validação cruzada de 10 dobras no conjunto de avaliação para ter uma idéia da precisão preditiva "real" do modelo selecionado.

Além disso, se seus dados forem temporais, é melhor escolher a divisão de desenvolvimento / avaliação em um código de tempo: "É difícil fazer previsões - especialmente sobre o futuro".


5
Eu concordo com isso em princípio, mas no caso de um pequeno conjunto de dados (geralmente tenho apenas 20 a 40 casos), o uso de um conjunto de avaliação separado não é prático. Aninhados validação cruzada pode contornar este problema, mas pode levar a estimativas pessimistas em pequenos conjuntos de dados
BGreene

11
Em geral, é necessário um enorme conjunto de dados para que a divisão de dados seja confiável. É por isso que a validação interna rigorosa com o bootstrap é tão atraente.
precisa

Especialmente quando o conjunto de desenvolvimento é um dado passado e a avaliação define um dado futuro. Por que não, depois de todo o ajuste do modelo, treine o modelo final com seus parâmetros fixos em todo o conjunto de desenvolvimento e preveja todo o conjunto de avaliação com ele. Em um cenário real, você não pode validar cruzadamente os dados futuros da maneira que descreve de qualquer maneira, para usar todos os dados passados ​​relevantes.
David Ernst

64

Relatar valores de p quando você pesquisava dados (descoberta de hipóteses) em vez de estatísticas (teste de hipóteses).


2
Você pode (ou alguém) elaborar?
antoine-sac


E quanto aos valores de p corrigidos para o teste de múltiplas hipóteses (com algum sabor do método Bonferroni ou uma correção mais avançada)? Eu tenderia a pensar que está bem, mesmo no contexto da mineração de dados?
Antoine-sac

Gosto da ideia geral, mas é uma distorção equiparar estatísticas a testes de hipóteses quando o último é um subconjunto do primeiro.
Rolando2

46

Testando as hipóteses versus H 1 : μ 0 (por exemplo, em uma configuração gaussiana)H0 0:μ=0 0H1 1:μ0 0

para justificar que em um modelo (ou seja, misture " H 0 não é rejeitado" e " H 0 é verdadeiro").μ=0 0H0 0H0 0

Um exemplo muito bom desse tipo de raciocínio (muito ruim) é quando você testa se as variações de dois gaussianos são iguais (ou não) antes de testar se a média delas é igual ou não com a suposição de variação igual.

Outro exemplo ocorre quando você testa a normalidade (versus não normalidade) para justificar a normalidade. Todo estatístico fez isso na vida? é baaad :) (e deve levar as pessoas a verificarem a robustez da não gaussianidade)


6
A mesma lógica (considerando "ausência de evidência a favor de H1" como "evidência de ausência de H1") está subjacente a todos os testes de adequação. O raciocínio também costuma surgir quando as pessoas afirmam "o teste não foi significativo; portanto, podemos concluir que não há efeito do fator X / nenhuma influência da variável Y". Eu acho que o pecado é menos grave se acompanhado de raciocínio sobre o poder do teste (por exemplo, estimativa a priori do tamanho da amostra para atingir um certo poder, dado um certo tamanho de efeito relevante).
Caracal

Se você não fizer nenhuma consideração sobre o poder, eu diria que a cláusula é verdadeira quando não é rejeitada é muito ruim, enquanto a cláusula H 1 é verdadeira enquanto H 0 é rejeitada está um pouco errada :). H0 0H1 1H0 0
amigos estão dizendo sobre robin girard

Ótimo!! Sim, isso me deixa louco ..
jpillow

3
Eu tento ser estatisticamente alfabetizado e ainda me apaixono por isso de vez em quando. Quais são as alternativas? Mude seu modelo para que o nulo antigo se torne ? A única outra opção em que consigo pensar é capacitar seu estudo o suficiente para que uma falha em rejeitar o nulo seja, na prática, próxima o suficiente para confirmar o nulo. Por exemplo, se você deseja garantir que a adição de um reagente às células não elimine mais de 2% deles, atinja uma taxa de falsos negativos satisfatória. H1 1
DocBuckets

O teste de equivalência do @DocBuckets com dois testes unilaterais é mais rigoroso do que a abordagem baseada em energia. Mas você precisa definir um tamanho de efeito mínimo relevante abaixo do qual possa falar de equivalência prática.
David Ernst

46

Alguns erros que me incomodam:

  1. Assumindo que estimadores imparciais são sempre melhores que estimadores tendenciosos.

  2. Supondo que um alto implica um bom modelo, baixo R 2 implica um modelo ruim.R2R2

  3. Interpretação / aplicação incorreta da correlação.

  4. Estimativas de pontos de relatório sem erro padrão.

  5. Usando métodos que assumem algum tipo de Normalidade Multivariada (como Análise Discriminante Linear) quando métodos mais robustos, com melhor desempenho e não / semiparamétricos estão disponíveis.

  6. Usar o valor-p como uma medida de força entre um preditor e a resposta, e não como uma medida de quantas evidências existem de algum relacionamento.


5
Você os dividiria em opções separadas?
russellpierce

41

Dicotomização de uma variável preditora contínua para "simplificar" a análise ou para resolver o "problema" da não linearidade no efeito do preditivo contínuo.


18
Eu não acho que isso seja realmente um "pecado", pois os resultados obtidos não estão errados. No entanto, ele descarta muitas informações úteis, portanto não é uma boa prática.
precisa

2
Nessa linha, o uso de grupos extremos projeta superestima o tamanho do efeito, enquanto o uso de uma divisão média ou mediana subestima o tamanho do efeito.
22410 russellpierce

2
Isso nem é pecado se houver duas ou mais populações distintas. Suponha que você tenha classes ou subpopulações separáveis; então, pode fazer sentido discretizar. Um exemplo muito trivial: prefiro usar indicadores para site / local / cidade / país ou lat / long?
Iterator

3
+1 e torna-se um pecado grave quando eles começam a escolher o ponto de corte da dicotomização para otimizar algum tipo de diferença que é então testada.
Erik

5
@Iterator, você começa a entender a verdadeira razão de agregar (a duas ou mais categorias), porque é preciso ter razões teóricas a priori para acreditar que a variação é significativamente compartimentada nessas categorias . Por exemplo, fazemos isso o tempo todo assumindo que coleções de um trilhão de células compreendem um indivíduo ou que um período contíguo de 24 horas aqui na Terra seja significativamente interpretado como uma unidade. Mas a agregação arbitrária não apenas "descarta" a informação (por exemplo, poder estatístico), mas pode levar a preconceitos (sérios) sobre as relações entre os fenômenos.
Alexis #

41

Não estou realmente respondendo à pergunta, mas há um livro inteiro sobre esse assunto:

Phillip I. Bom, James William Hardin (2003). Erros comuns nas estatísticas (e como evitá-los). Wiley. ISBN 9780471460688


6
+1 Certifiquei-me de ler este livro logo após a publicação. Eu tenho muitas oportunidades de cometer erros estatísticos, por isso estou sempre agradecido por tê-los apontados antes de cometê-los!
whuber


41

Estatística ritualizada.

Esse "pecado" é quando você aplica qualquer coisa que lhe foi ensinada, independentemente de sua adequação, porque é assim que as coisas são feitas. São estatísticas por rotina, um nível acima, permitindo que a máquina escolha suas estatísticas para você.

Os exemplos são estudantes de nível introdutório a Estatística, que tentam ajustar tudo ao modesto teste t e ao kit de ferramentas ANOVA, ou sempre que alguém se pergunta "Ah, eu tenho dados categóricos, devo usar X" sem parar para olhar para o dados ou considere a pergunta que está sendo feita.

Uma variação desse pecado envolve o uso de código que você não entende para produzir uma saída que você apenas entende, mas conhece "a quinta coluna, cerca de 8 linhas abaixo" ou qualquer que seja a resposta que você deveria estar procurando.


6
Infelizmente, se você não está interessado em inferência estatística, ou é escasso em termos de tempo e / ou recursos, o ritual parece muito atraente ...
probabilityislogic

Para mim, a descrição de Epigrad é de alguém que se preocupa excessivamente com inferência e negligencia coisas como reflexão, descoberta e consideração de causalidade.
Rolando2

35

Talvez regressão passo a passo e outras formas de teste após a seleção do modelo.

Selecionar variáveis ​​independentes para modelagem sem ter uma hipótese a priori por trás dos relacionamentos existentes pode levar a falácias lógicas ou correlações espúrias, entre outros erros.

Referências úteis (de uma perspectiva biológica / bioestatística):

  1. Kozak, M. & Azevedo, R. (2011). O uso da seleção de variáveis ​​por etapas para criar modelos de análise de caminho seqüencial faz sentido? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? The Journal of animal ecology, 75 (5), 1182-11. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Estratégias de Modelagem de Regressão , Springer 2001.


32

Algo que vejo uma quantidade surpreendente em jornais de conferências e até em jornais está fazendo múltiplas comparações (por exemplo, de correlações bivariadas) e depois relatando todos os p <0,05s como "significativos" (ignorando a exatidão ou a injustiça disso no momento).

Sei o que você quer dizer com graduados em psicologia - também terminei o doutorado em psicologia e ainda estou apenas aprendendo realmente. É muito ruim, acho que a psicologia precisa levar a análise quantitativa de dados mais a sério se quisermos usá-la (o que, claramente, deveríamos)


9
Isto é particularmente importante. Lembro-me de ler um estudo sobre se o Ramadã era ruim para bebês cujas mães estavam em jejum. Parecia plausível (menos comida, menor peso ao nascer), mas depois olhei para o apêndice. Milhares de hipóteses, e alguns por cento delas estavam na faixa "significativa". Você obtém "conclusões" estranhas como "é ruim para a criança se o Ramadã é o segundo, quarto ou sexto mês".
Carlos

29

Sendo exploratório, mas fingindo ser confirmatório. Isso pode acontecer quando se está modificando a estratégia de análise (ajuste de modelo, seleção de variáveis ​​e assim por diante) orientada por dados ou orientada a resultados, mas não afirmando isso abertamente e relatando apenas os "melhores" (ou seja, com menores valores de p) como se tinha sido a única análise. Isso também se aplica ao fato de vários testes feitos por Chris Beeley e resultar em uma alta taxa de falsos positivos em relatórios científicos.


26

O que eu vejo com frequência e sempre mói minhas engrenagens é a suposição de que um efeito principal estatisticamente significativo em um grupo e um efeito principal não estatisticamente significativo em outro grupo implica um efeito significativo x interação com o grupo.


24

Especialmente em epidemiologia e saúde pública - usando aritmética em vez de escala logarítmica ao reportar gráficos de medidas relativas de associação (taxa de risco, razão de chances ou razão de risco).

Mais informações aqui .


5
Para não mencionar não rotulá-los de todo xkcd.com/833
radek

23

Correlação implica causalidade, que não é tão ruim quanto aceitar a hipótese nula.


mas às vezes ... às vezes as direções potenciais da causa têm probabilidades altamente díspares. Certamente não vou pensar que uma correlação entre idade e altura possa ser causada pela altura ... ou por alguma variável interveniente. Além disso, acho que esse é um dos aspectos aos quais o treinamento em ciências comportamentais geralmente é bastante sensível.
John

de fato, inferindo algo A and B are correlatednormalmente só ver A causes B, mas não B causes A... (e esquecer Co que provoca Ae B)
Andre Holzner

12
google faz $ 65B por ano não se preocupar com a diferença ...
Neil McGuigan

5
Eu concordo com seus pontos e todos eles são válidos. Mas o lucro do Google implica: correlação => causalidade?
suncoolsu

3
O Google ganha todo esse dinheiro sem se importar com a causa. De fato, por que isso aconteceria? A previsão é a coisa ...
conjugateprior

23

Análise de dados de taxa (precisão, etc.) usando ANOVA, assumindo assim que os dados de taxa apresentam erro distribuído gaussiano quando na verdade é distribuído binomialmente. Dixon (2008) fornece uma discussão sobre as conseqüências desse pecado e a exploração de abordagens de análise mais apropriadas.


4
Quanto isso diminui o poder da análise? Em que condições é mais problemático? Em muitos casos, os desvios das suposições da ANOVA não afetam substancialmente os resultados em uma extensão importante.
Michael Lew

Qual é a alternativa do procedimento ANOVA?
Henrik

@ Michael Lew & Henrik: Acabei de atualizar esta entrada para incluir um link para Dixon (2008)
Mike Lawrence

2
Mas, em resumo, é mais problemático quando as probabilidades observadas são baixas ou altas, pois a faixa de valores é restrita e incapaz de atender às suposições gaussianas.
russellpierce

Isso é tão ruim quanto a aproximação normal ao binômio - deve ser boa, desde que cada caso seja ponderado pelo denominador usado no cálculo da taxa. Esperaria um desempenho ruim para taxas abaixo de 10% e acima de 90%.
probabilityislogic

18

Um popular atual está plotando intervalos de confiança de 95% em torno dos valores brutos de desempenho em projetos de medidas repetidas quando eles se relacionam apenas à variação de um efeito. Por exemplo, um gráfico de tempos de reação em um design de medidas repetidas com intervalos de confiança em que o termo de erro é derivado do MSE de uma ANOVA de medidas repetidas. Esses intervalos de confiança não representam nada sensato. Eles certamente não representam nada sobre o tempo absoluto de reação. Você pode usar o termo de erro para gerar intervalos de confiança em torno do efeito, mas isso raramente é feito.


Existe um artigo padrão que pode ser citado para dissuadir os revisores de exigirem essa prática muito comum?
russellpierce

A única crítica que conheço é Blouin & Riopelle (2005), mas eles não chegam ao cerne da questão. Geralmente, não insisto em não mostrá-los, mas em fazer algo correto, como nos gráficos de efeito de Masson & Loftus (2003, veja a figura 4, painel direito ... se eles foram removidos do esquerdo, você faria corretamente )
John

Só para ficar claro, o problema com esses ICs é que eles são puramente usados ​​por razões inferenciais com relação a diferenças entre condições e, portanto, são piores que o PLSD ... na verdade, eu os prefiro. Pelo menos eles são honestos.
John

17

Embora eu possa me relacionar com muito do que Michael Lew diz, o abandono dos valores-p em favor da razão de verossimilhança ainda perde um problema mais geral - o de enfatizar demais os resultados probabilísticos sobre os tamanhos dos efeitos, necessários para dar um significado substantivo ao resultado. Esse tipo de erro ocorre em todas as formas e tamanhos e acho que é o erro estatístico mais insidioso. Com base em J. Cohen, M. Oakes e outros, escrevi um artigo sobre isso em http://integrativestatistics.com/insidious.htm .


3
Na verdade, não estou claro como uma razão de verossimilhança (LR) não alcança tudo o que um tamanho de efeito alcança, enquanto também emprega uma escala facilmente interpretável (os dados contêm X vezes mais evidências para Y do que para Z). Um tamanho de efeito geralmente é apenas uma forma de razão da variabilidade explicada para a inexplicável e (no caso aninhado) a LR é a razão da variabilidade inexplicada entre um modelo que tem efeito e um que não tem. Não deveria haver pelo menos uma forte correlação entre o tamanho do efeito e a RL? Em caso afirmativo, o que é perdido ao passar para a escala da razão de verossimilhança?
Mike Lawrence

Mike - Você me interessou, mas seus pontos se estendem a tamanhos de efeito tão simples quanto as diferenças médias entre os grupos? Estes podem ser facilmente interpretados por um leigo e também podem ser atribuídos intervalos de confiança.
Roland2

Ah, então, por tamanho de efeito, você quer dizer tamanho de efeito absoluto, um valor que não tem sentido em si mesmo, mas que pode ser tornado significativo pela transformação em tamanho de efeito relativo (dividindo por alguma medida de variabilidade, como mencionei), ou computando um intervalo de confiança para o tamanho do efeito absoluto. Meu argumento acima se aplica aos méritos de LRs versus tamanhos de efeito relativo. Pode ser útil computar os ICs de efeitos nos casos em que o valor real do efeito é de interesse (por exemplo, previsão), mas eu ainda defendo o LR como uma escala mais intuitiva para falar sobre evidências a favor / contra os efeitos.
Mike Lawrence

Eu acho que o uso de LRs vs ICs provavelmente variará de acordo com o contexto, que pode ser resumido de maneira útil da seguinte forma: Estágios mais exploratórios da ciência, onde as teorias são mais ou menos caracterizadas pela existência / ausência de fenômenos, podem preferir os LRs para quantificar evidências. Por outro lado, os ICs podem ser preferidos em estágios mais avançados da ciência, onde as teorias são suficientemente refinadas para permitir previsões nuanças, incluindo faixas de efeitos esperados ou, inversamente, quando diferentes faixas de magnitudes de efeito suportam diferentes teorias. Finalmente, as previsões geradas a partir de qualquer modelo precisam de ICs.
Mike Lawrence

0 0|β|=1 1|β|>1 1|β|1 1β=0 0β0 0

15

Falha ao testar a suposição de que o erro é normalmente distribuído e tem variação constante entre os tratamentos. Essas suposições nem sempre são testadas; portanto, o ajuste do modelo de mínimos quadrados é provavelmente usado frequentemente quando na verdade é inapropriado.


11
O que é inadequado na estimativa de mínimos quadrados quando os dados são não normais ou heterocedásticos? Não é totalmente eficiente, mas ainda é imparcial e consistente.
Rob Hyndman

3
Se os dados forem heterocedásticos, você poderá obter previsões fora da amostra muito imprecisas, pois o modelo de regressão se esforçará demais para minimizar o erro nas amostras em áreas com alta variação e não o suficiente nas amostras de áreas de baixa variação. Isso significa que você pode acabar com um modelo muito tendencioso. Isso também significa que as barras de erro nas previsões estarão erradas.
Dikran Marsupial

6
Não, é imparcial, mas a variação é maior do que se você usasse um método mais eficiente pelos motivos explicados. Sim, os intervalos de previsão estão incorretos.
precisa

4
Sim (eu estava usando viés em sentido coloquial, e não estatístico, para significar que o modelo era sistematicamente tendencioso para observações em regiões de alta variação do espaço de feições - mea culpa!) - seria mais preciso dizer que a maior variação significa há uma chance maior de obter um modelo ruim usando um conjunto de dados finito. Essa parece uma resposta razoável para sua pergunta. Na verdade, não vejo a imparcialidade como um consolo - o importante é que o modelo dê boas previsões sobre os dados que realmente tenho e, muitas vezes, a variação é mais importante.
Dikran Marsupial

14

Meu curso introdutório de psicometria na graduação passou pelo menos duas semanas ensinando como realizar uma regressão gradual. Existe alguma situação em que a regressão gradual seja uma boa ideia?


6
"Boa ideia" depende da situação. Quando você deseja maximizar a previsão, não é uma ideia horrível - embora possa levar a um excesso de adaptação. Existem alguns casos raros em que isso é inevitável - onde não há teoria para orientar a seleção do modelo. Eu não contaria a regressão gradual como um "pecado", mas utilizá-la quando a teoria é suficiente para impulsionar a seleção de modelos.
russellpierce

20
Talvez o pecado esteja fazendo testes estatísticos em um modelo obtido por meio de regressão passo a passo.
precisa

3
Tudo bem se você usar a validação cruzada e não extrapolar. Não publique os valores-p, pois eles não fazem sentido.
Neil McGuigan

Estou trabalhando em um projeto que usa regressão gradual. O motivo é que eu tenho D >> N, onde D é dimensionalidade e N é tamanho da amostra (excluindo o uso de um modelo com todas as variáveis), subconjuntos de recursos são altamente correlacionados entre si, quero uma maneira estatisticamente baseada em princípios. de selecionar talvez 2-3 "melhores" recursos, e não pretendo relatar os valores-P, pelo menos sem algum tipo de correção bastante conservadora.
dsimcha

12

Meu antigo professor de estatísticas tinha uma "regra de ouro" para lidar com discrepâncias: se você encontrar uma discrepância no gráfico de dispersão, cubra-a com o polegar :)


Isso é semelhante à Winsorization, que não é muito terrível.
Ari B. Friedman

12

Pode ser mais uma resposta de estatísticas pop do que o que você está procurando, mas:

Usando a média como um indicador de localização quando os dados estão altamente inclinados .

Isto não é necessariamente um problema, se você e seu público-alvo sabem do que estão falando, mas esse geralmente não é o caso, e a mediana geralmente oferece uma idéia melhor do que está acontecendo.

Meu exemplo favorito é o salário médio, que geralmente é relatado como "salário médio". Dependendo da desigualdade de renda / riqueza em um país, isso pode ser muito diferente do salário médio, o que fornece um indicador muito melhor de onde as pessoas estão na vida real. Por exemplo, na Austrália, onde temos uma desigualdade relativamente baixa, a mediana é 10 a 15% menor que a média . Nos EUA, a diferença é muito mais acentuada , a mediana é inferior a 70% da média e a diferença está aumentando.

Informar sobre o salário "médio" (médio) resulta em um quadro mais satisfatório do que o necessário, e também pode dar a um grande número de pessoas a falsa impressão de que não estão ganhando tanto quanto as pessoas "normais".


Há uma discussão semi-relacionado deste como se aplica a análise de tendências aqui: tamino.wordpress.com/2012/03/29/...
naught101

2
Isso não está apenas relacionado à assimetria, mas é um problema geral que a média ou qualquer outra medida de tendência central não seja suficiente sem considerar a dispersão. Por exemplo, se as medianas de dois grupos fossem iguais, mas a faixa interquartil fosse 100 vezes maior para uma população. Apenas olhando para a mediana, você diria que eles são da "mesma distribuição populacional", quando na realidade seriam muito diferentes. Para não mencionar vários modos de criar problemas ...
probabilityislogic

Mas, para alguns propósitos, a média é relevante: o salário é uma variável extensa , o que significa que a soma dos salários é significativa. Para perguntas em que a renda salarial total de algum (sub) grupo é relevante, os meios são a coisa certa: o total pode ser recuperado a partir da média, e não da mediana.
Kjetil b halvorsen

@kjetilbhalvorsen: Por que não usar o total então?
precisa saber é o seguinte

n

10

Que o valor de p é a probabilidade de que a hipótese nula seja verdadeira e (1-p) é a probabilidade de que a hipótese alternativa seja verdadeira, de que, ao não rejeitar a hipótese nula, a hipótese alternativa é falsa etc.


11
1 1

Interessante, você pode me dar uma referência para ler sobre isso?
Dikran Marsupial 5/05

2
(aqui está você) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] pessoalmente, embora eu ache interessante, luto com a questão de por que a distribuição posterior da razão de verossimilhança é a quantidade de interesse.
probabilityislogic

10

Do mesmo modo que @dirkan - O uso de valores-p como uma medida formal de evidência da hipótese nula é verdadeiro. Ele possui algumas boas características heurísticas e intuitivamente boas, mas é essencialmente uma medida incompleta de evidência, porque não faz referência à hipótese alternativa. Embora os dados possam ser improváveis ​​sob nulo (levando a um pequeno valor p), os dados podem ser ainda mais improváveis sob a hipótese alternativa.


Não estou respondendo porque não quero me dar ao trabalho de pensar em um deles e, por esse motivo, percorrendo todos os que já foram dados para garantir que eu não repita um! Mas acho que posso ser útil. Há um livro de Good e Hardin chamado "Erros comuns em estatística e como evitá-los". Você pode encontrar muitos ótimos exemplos lá. É um livro popular que já está entrando em sua quarta edição.
Michael Chernick

Também o livro de Altman com Chapman & Hall / CRC "Estatísticas Práticas em Pesquisa Médica" tem um capítulo na literatura médica, onde são revelados muitos pecados estatísticos que ocorreram em artigos publicados.
Michael Chernick


9

Usando estatística / probabilidade no teste de hipóteses para medir a "verdade absoluta". As estatísticas simplesmente não podem fazer isso, elas só podem ser úteis para decidir entre alternativas , que devem ser especificadas "de fora" do paradigma estatístico. Declarações como "a hipótese nula é verdadeira pelas estatísticas" estão incorretas; as estatísticas podem dizer apenas "a hipótese nula é favorecida pelos dados, em comparação com a hipótese alternativa". Se você assumir que a hipótese nula ou a alternativa deve ser verdadeira, você pode dizer "o nulo provou ser verdade", mas isso é apenas uma consequência trivial de sua suposição, e não algo demonstrado pelos dados.


9

α=0,05

E da mesma forma (ou quase o mesmo que) a resposta do @ ogrisel , realizando uma pesquisa em grade e relatando apenas o melhor resultado.


Eu acho que você pretendia criar um link para uma história em quadrinhos diferente, embora seja imortal.
Rolando2

Possivelmente, se me lembro bem o que eu tinha em mente naquela época: xkcd.com/882
Andrew

8

(Com um pouco de sorte, isso será controverso.)

Usando uma abordagem de Neyman-Pearson para análise estatística de experimentos científicos. Ou, pior, usando um híbrido mal definido de Neyman-Pearson e Fisher.


desculpe por ser ignorante, mas o que há de errado com uma construção de Neyman-Pearson para a análise de (o resultado de) experimentos científicos?
Andre Holzner

@ Andre Eu acho que essa observação pode estar intimamente relacionada a outra oferecida por @ Michael Lew em outras partes deste tópico ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Solicitando e talvez obtendo o fluxograma : aquela coisa gráfica em que você diz qual é o nível de suas variáveis ​​e que tipo de relacionamento está procurando, e segue as setas para baixo para obter um teste de marca ou uma estatística de marca . Às vezes, é oferecido com caminhos 'paramétricos' e 'não paramétricos' misteriosos.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.