Os grandes conjuntos de dados são inadequados para o teste de hipóteses?

129

Em um artigo recente da Amstat News , os autores (Mark van der Laan e Sherri Rose) declararam que "sabemos que, para tamanhos de amostra grandes o suficiente, todos os estudos - incluindo aqueles nos quais a hipótese nula de nenhum efeito é verdadeira - declararão um efeito estatisticamente significativo ".

Bem, eu não sabia disso. Isso é verdade? Isso significa que o teste de hipóteses é inútil para grandes conjuntos de dados?

— Carlos Accioly
fonte

10

+1: essa pergunta geralmente expõe alguns pontos de vista interessantes.

— User603 9/09/10

7

Mais discussões sobre grandes conjuntos de dados são exibidas em stats.stackexchange.com/q/7815/919 . (O foco está na modelagem de regressão lá.)

— whuber

1

segmento relacionado ?

— Antoine

8

Se uma amostra grande faz você pensar que o teste de hipóteses era a ferramenta errada, então o teste de hipóteses também não estava respondendo à pergunta certa em amostras menores - que ele estava errado apenas se tornou mais óbvio em tamanhos de amostra grandes, mas as mesmas considerações são relevantes . Se um resultado significativo em um tamanho de efeito muito pequeno faz você dizer "bem, não era isso que eu queria, eu queria que ele me dissesse se era importante", então o teste de hipóteses era apenas a ferramenta errada para começar. Existem ferramentas mais adequadas (por exemplo, intervalos de confiança, testes de equivalência, etc.) para esse tipo de problema.

— Glen_b 27/05

91

Não é verdade. Se a hipótese nula for verdadeira, ela não será rejeitada com mais frequência em tamanhos de amostra grandes do que pequenos. Há uma taxa de rejeição incorreta que geralmente é definida como 0,05 (alfa), mas é independente do tamanho da amostra. Portanto, tomada literalmente, a afirmação é falsa. No entanto, é possível que em algumas situações (mesmo campos inteiros) todos os nulos sejam falsos e, portanto, todos serão rejeitados se N for alto o suficiente. Mas isso é uma coisa ruim?

O que é verdade é que efeitos trivialmente pequenos podem ser considerados "significativos" com tamanhos de amostra muito grandes. Isso não sugere que você não tenha tamanhos de amostras tão grandes. O que isso significa é que a maneira como você interpreta sua descoberta depende do tamanho do efeito e da sensibilidade do teste. Se você possui um tamanho de efeito muito pequeno e um teste altamente sensível, precisa reconhecer que a descoberta estatisticamente significativa pode não ser significativa ou útil.

Dado que algumas pessoas não acreditam que um teste da hipótese nula, quando o nulo é verdadeiro , sempre tem uma taxa de erro igual ao ponto de corte selecionado para qualquer tamanho de amostra, aqui está uma simulação simples para Rprovar o ponto. Torne N o tamanho que desejar e a taxa de erros do tipo I permanecerá constante.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

— John
fonte

8

+1: de fato, todas as três respostas aqui são logicamente consistentes entre si.

— User603 9/09/10

1

Finalmente, encontrei um desmembramento de algo que um professor (não estatístico) me disse há muito tempo.

— Jase

1

@ Sypa, não. Só porque SE diminui à medida que N sobe, não significa que você sempre encontrará um efeito com N grande (veja a simulação). Lembre-se de que, à medida que o SE está diminuindo, a qualidade da estimativa do efeito está aumentando. Se não houver efeito populacional, é muito mais provável que esteja próximo de 0 e não mostre diferença. De fato, a distribuição dos valores-p é plana, independentemente do tamanho da amostra sempre que o nulo for verdadeiro (escreva sua própria simulação para isso). Não há contradição na resposta.

— John

4

Então você estaria errado. Você pode considerar ler as outras respostas aqui também. Como você não pode seguir a relação entre a simulação e o teste de hipóteses, acho que só posso apontar para sua afirmação principal de que, quando o erro padrão diminui, t aumenta e ep diminui. Isso é verdade apenas se o efeito permanecer constante. Mas o efeito é uma amostra aleatória e quando o efeito verdadeiro é 0, então, à medida que N aumenta, o efeito observado tende a diminuir. Portanto, mesmo quando N aumenta SE, ele não aumenta os valores t porque o numerador no valor t também será menor.

— John

1

O fato de o rnorm não poder produzir um número irracional é irrelevante no exemplo. Mesmo se não extrair exatamente normal de uma média de 0 e sd de 1, é o mesmo não normal para ambas as amostras. A taxa de erro tipo I pode estar um pouco fora de 0,05, mas deve permanecer constante, independentemente de N. (Se você realmente quisesse levantar uma questão esotérica, deveria ter abordado a pseudo-aleatoriedade.) #

— John

31

Concordo com as respostas que apareceram, mas gostaria de acrescentar que talvez a pergunta possa ser redirecionada. Testar ou não uma hipótese é uma questão de pesquisa que deve, pelo menos em geral, ser independente da quantidade de dados que se possui. Se você realmente precisa testar uma hipótese, faça-o e não tenha medo da sua capacidade de detectar pequenos efeitos. Mas primeiro pergunte se isso faz parte dos seus objetivos de pesquisa.

Agora, para algumas queixas:

Algumas hipóteses nulas são absolutamente verdadeiras por construção. Quando você está testando um gerador de números pseudo-aleatórios para equidistribuição, por exemplo, e esse PRG é realmente equidistribuído (o que seria um teorema matemático), então o nulo é válido. Provavelmente, muitos de vocês podem pensar em exemplos mais interessantes do mundo real decorrentes da randomização em experimentos em que o tratamento realmente não tem efeito. (Eu destacaria toda a literatura sobre esp como um exemplo. ;-)
Em uma situação em que um nulo "simples" é testado em relação a uma alternativa "composta", como nos testes t ou z, ele normalmente leva um tamanho de amostra proporcional a para detectar um tamanho de efeito de . Existe um limite superior prático para isso em qualquer estudo, o que implica que existe um limite inferior prático em um tamanho de efeito detectável. Portanto, como uma questão teórica, der Laan e Rose estão corretos, mas devemos tomar cuidado ao aplicar sua conclusão. $1/\epsilon^2$ $\epsilon$

— whuber
fonte

Não é tudo isso uma questão de erro tipo I versus erro tipo II (ou potência)? Se alguém corrigir a probabilidade de erro do tipo I ( ) em 0,05, então, obviamente (exceto no caso discreto), será 0,05 se a amostra é grande ou não. Porém, para uma dada probabilidade de erro do tipo I, 0,05, por exemplo, a potência ou a probabilidade de você detectar o efeito quando existe, é maior para amostras de tamanhos grandes.

α

$\alpha$

@fcop Seus comentários, embora corretos, parecem direcionados para outras respostas. Eles não entendem o objetivo, sugerindo que nem todas as análises estatísticas precisam ser testes de hipóteses. Os erros do tipo I e II têm significado apenas ao realizar testes formais de hipóteses.

— whuber

o PO se refere a uma afirmação: "Sabemos que, para tamanhos de amostra grandes o suficiente, todos os estudos - incluindo aqueles nos quais a hipótese nula de nenhum efeito é verdadeira - declararão um efeito estatisticamente significativo". Portanto, se você testar, por exemplo, versus , em amostras grandes, a potência é tão alta que você 'detecta' até pequenos desvios de 1. Portanto, acho que a declaração deles não está correta, mas essa potência em amostras grandes permite que você para detectar diferenças muito pequenas.

H_{0} : μ = 1

$H_0: \mu=1$

H_{1} : μ \neq 1

$H_1: \mu \ne 1$

@fcop Obrigado por explicar. Concordo com o seu raciocínio: quando o nulo é verdadeiro, então, por construção, mesmo grandes estudos encontrarão um efeito significativo com uma chance no máximo igual ao tamanho do teste - ou seja, é improvável que encontrem um efeito significativo.

— whuber

19

O teste de hipóteses tradicionalmente focava nos valores de p para derivar significância estatística quando alfa é menor que 0,05 e apresenta uma grande fraqueza. E isso é que, com um tamanho de amostra suficientemente grande, qualquer experimento pode eventualmente rejeitar a hipótese nula e detectar diferenças trivialmente pequenas que acabam sendo estatisticamente significativas.

Esta é a razão pela qual as empresas farmacêuticas estruturam os ensaios clínicos para obter a aprovação do FDA com amostras muito grandes. A amostra grande reduzirá o erro padrão para próximo de zero. Por sua vez, isso aumentará artificialmente a estatística t e diminuirá proporcionalmente o valor de p para próximo de 0%.

Reuni-me em comunidades científicas que não são corrompidas por incentivos econômicos e o teste de hipóteses de conflito de interesses relacionado está se afastando de quaisquer medidas de valor p para medidas de tamanho de efeito. Isso ocorre porque a unidade de distância estatística ou diferenciação na análise do Tamanho do efeito é o desvio padrão em vez do erro padrão. E o desvio padrão é completamente independente do tamanho da amostra. O erro padrão, por outro lado, é totalmente dependente do tamanho da amostra.

Portanto, quem é cético em relação ao teste de hipóteses que atinge resultados estatisticamente significativos com base em grandes amostras e metodologias relacionadas ao valor de p tem razão em ser cético. Eles devem executar novamente a análise usando os mesmos dados, mas usando testes estatísticos de Tamanho de efeito. E, observe se o Tamanho do efeito é considerado material ou não. Ao fazer isso, você pode observar que várias diferenças estatisticamente significativas estão associadas ao Tamanho do efeito que é imaterial. É o que os pesquisadores de ensaios clínicos às vezes querem dizer quando um resultado é estatisticamente significativo, mas não "clinicamente significativo". Eles querem dizer que esse tratamento pode ser melhor que o placebo, mas a diferença é tão marginal que não faria diferença para o paciente em um contexto clínico.

— Sympa
fonte

1

A amostra grande de uma pessoa é a pequena amostra de outra. :)

— Iterator

3

Você não fez a pergunta errada então? Talvez o processo de aprovação da FDA deva especificar um ganho maior em relação ao placebo (talvez relacionado aos custos do medicamento, incluindo seus efeitos adversos), em vez de apenas exigir significância estatística? Porque pode muito bem haver uma diferença real, embora muito pequena, e essa diferença mostrou ser estatisticamente significativa, por menor que seja.

— Emil Vikström

O FDA não exige "apenas significância estatística". Isso seria absurdo. Todos na indústria entendem o que significa "clinicamente significativo". O FDA avalia a evidência estatística de eficácia do medicamento, medida por parâmetros clínicos, como remissão, contra preocupações de saúde e segurança. Por favor, leia as diretrizes da FDA antes de fazer afirmações infundadas.

— qwr 16/07

15

Um teste de hipótese (freqüentista) aborda precisamente a questão da probabilidade dos dados observados ou algo mais extremo provavelmente assumindo que a hipótese nula é verdadeira. Essa interpretação é indiferente ao tamanho da amostra. Essa interpretação é válida se a amostra for do tamanho 5 ou 1.000.000.

Uma ressalva importante é que o teste é relevante apenas para erros de amostragem. Quaisquer erros de medição, problemas de amostragem, cobertura, erros de entrada de dados, etc. estão fora do escopo do erro de amostragem. À medida que o tamanho da amostra aumenta, os erros de não amostragem se tornam mais influentes, pois pequenas partidas podem produzir partidas significativas do modelo de amostragem aleatória. Como resultado, testes de significância tornam-se menos úteis.

Isso não é de forma alguma uma acusação de teste de significância. No entanto, precisamos ter cuidado com nossas atribuições. Um resultado pode ser estatisticamente significativo. No entanto, precisamos ser cautelosos sobre como fazemos atribuições quando o tamanho da amostra é grande. Essa diferença é devido ao nosso processo de geração hipotético em relação ao erro de amostragem ou é o resultado de um número de possíveis erros de não amostragem que podem influenciar a estatística do teste (que a estatística não leva em consideração)?

Outra consideração com amostras grandes é o significado prático de um resultado. Um teste significativo pode sugerir (mesmo que possamos descartar erros de não amostragem) uma diferença que é trivial no sentido prático. Mesmo que esse resultado seja improvável, dado o modelo de amostragem, é significativo no contexto do problema? Dada uma amostra grande o suficiente, uma diferença de alguns dólares pode ser suficiente para produzir um resultado estatisticamente significativo ao comparar a renda entre dois grupos. Isso é importante em algum sentido significativo? A significância estatística não substitui o bom senso e o conhecimento do assunto.

Como um aparte, o nulo não é verdadeiro nem falso. É um modelo. É uma suposição. Assumimos que o nulo é verdadeiro e avaliamos nossa amostra em termos dessa suposição. Se for improvável que nossa amostra tenha essa premissa, depositamos mais confiança em nossa alternativa. Questionar se um nulo é ou não verdadeiro na prática é um mal-entendido da lógica do teste de significância.

— Brett
fonte

3

Isso apóia um argumento para aumentar a complexidade do modelo à medida que os tamanhos das amostras se tornam grandes - no caso de amostra grande, o erro de amostragem não é mais o domínio dominante da incerteza. Obviamente, isso apenas "faz sentido" em uma estrutura bayesiana, que permite outras fontes de incerteza além do erro de amostragem.

— probabilityislogic

13

Um argumento simples que não foi exposto diretamente em outra resposta é que simplesmente não é verdade que "todas as hipóteses nulas são falsas".

A simples hipótese de que uma moeda física tenha uma probabilidade de cabeças exatamente igual a 0,5, ok, isso é falso.

Mas a hipótese composta de que uma moeda física tem uma probabilidade de cabeças maior que 0,499 e menor que 0,501 pode ser verdadeira. Nesse caso, nenhum teste de hipótese - não importa quantas jogadas de moeda o faça - será capaz de rejeitar essa hipótese com uma probabilidade maior que (os testes são vinculados a falsos positivos). $\alpha$

O setor médico testa hipóteses de "não inferioridade" o tempo todo, por esse motivo - por exemplo, um novo medicamento contra o câncer precisa mostrar que a probabilidade de sobrevivência de seus pacientes sem progressão não é menos de 3 pontos percentuais menor que a de um medicamento existente , em algum nível de confiança (o , geralmente 0,05). $\alpha$

— Keith Winstein
fonte

9

Em certo sentido, [todas] muitas hipóteses nulas são [sempre] falsas (o grupo de pessoas que moram em casas com números ímpares nunca ganha exatamente o mesmo, em média, que o grupo de pessoas que moram em casas com números pares).

Na estrutura freqüentista, a pergunta que se coloca é se a diferença de renda entre os dois grupos é maior que (onde é o quantil da distribuição de a estatística de teste sob o valor nulo). Obviamente, para crescendo sem limites, essa banda se torna cada vez mais fácil de romper. $T_{\alpha}n^{-0.5}$ $T_{\alpha}$ $\alpha$ $n$

Este não é um defeito dos testes estatísticos. Simplesmente uma conseqüência do fato de que, sem informações adicionais (a priori), temos que um grande número de pequenas inconsistências com o nulo deve ser tomado como evidência contra o nulo. Não importa quão triviais sejam essas inconsistências.

Em grandes estudos, torna-se interessante redefinir a questão como um teste bayesiano, ou seja, perguntar a si mesmo (por exemplo) o que é . $\hat{P}(|\bar{\mu}_1-\bar{\mu}_2|^2>\eta|\eta, X)$

— user603
fonte

Isso é estranho ... intuitivamente, isso parece contradizer a Lei dos Grandes Números.

— Carlos Accioly

Carlos:> você pode ser mais específico?

— User603 9/09/10

O LLN basicamente afirma que quanto maior sua amostra, melhor ela representa a distribuição de probabilidade "real". No seu exemplo, quanto mais números de casas eu examinar, mais próximo de 50% será o número de casas com números ímpares. Portanto, parece estranho que você se torne mais fácil de romper a banda, uma vez que ela diminui proporcionalmente à raiz quadrada de . (Eu estou fazendo sentido aqui?)

n

$n$

— Carlos Accioly

1

@Carlos - mas convergência não significa igualdade; isso é garantido apenas para o limite inacessível do infinito. Portanto, não há contradição ;-)

5

A resposta curta é não". Pesquisas sobre testes de hipóteses no regime assintótico de observações infinitas e múltiplas hipóteses têm sido muito, muito ativas nos últimos 15 a 20 anos, devido a dados de microarranjos e aplicações de dados financeiros. A resposta longa está na página do curso da Stat 329, "Inferência Simultânea em Grande Escala", ministrada em 2010 por Brad Efron. Um capítulo completo é dedicado ao teste de hipóteses em larga escala.

— gappy
fonte

7

Acredito que o livro de Efron se concentra em um grande número de variáveis (e nos vários problemas de teste resultantes que surgem), não no tamanho da amostra.

— Galit Shmueli

4

O teste de hipóteses para grandes dados deve levar em consideração o nível de diferença desejado, e não se há ou não uma diferença. Você não está interessado no H0 de que a estimativa é exatamente 0. Uma abordagem geral seria testar se a diferença entre a hipótese nula e o valor observado é maior que um determinado valor de corte.

Um exemplo simples com o teste T: você pode fazer as seguintes suposições para tamanhos de amostra grandes, desde que você tenha tamanhos de amostra iguais e desvios padrão em ambos os grupos e : portanto, $\bar{X_1} > \bar{X_2}$

T = \frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} + \frac{δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}+\frac{\delta}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

T = \frac{\bar{X 1} - \bar{X 2}}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

como sua hipótese nula implica: $H_0:\bar{X1}-\bar{X2} = \delta$

\frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (0, 1)

$\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}\approx N(0,1)$

Você pode usar isso facilmente para testar uma diferença significativa e relevante. Em R, você pode usar o parâmetro noncentrality das distribuições T para generalizar esse resultado também para tamanhos de amostra menores. Você deve levar em consideração que este é um teste unilateral, a alternativa é . $H_A$ $\bar{X1}-\bar{X2} > \delta$

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Que dá :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100

— Joris Meys
fonte

não existe um erro de cópia / passado na primeira equação?

— user603

Eu não vejo isso?

— Joris Meys 12/09

4

"Isso significa que o teste de hipóteses é inútil para grandes conjuntos de dados?"

Não, isso não significa isso. A mensagem geral é que as decisões tomadas após a realização de um teste de hipótese devem sempre levar em consideração o tamanho estimado do efeito, e não apenas o valor-p. Particularmente, em experimentos com tamanhos de amostra muito grandes, essa necessidade de considerar o tamanho do efeito se torna dramática. Obviamente, em geral, os usuários não gostam disso porque o procedimento se torna menos "automático".

Considere este exemplo de simulação. Suponha que você tenha uma amostra aleatória de 1 milhão de observações de uma distribuição normal padrão,

n <- 10^6
x <- rnorm(n)

e outra amostra aleatória de 1 milhão de observações de uma distribuição normal com média igual a e variância igual a um. $0.01$

y <- rnorm(n, mean = 0.01)

Comparando as médias das duas populações com um teste t no nível de confiança canônico de , obtemos um pequeno valor p de aproximadamente . $95\%$ $2.5\times 10^{-14}$

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

É correto dizer que o teste t "detectou" que os meios das duas populações são diferentes. Mas observe o intervalo de confiança muito curto de , pois a diferença entre as duas populações significa: . $95\%$ $[-0.013, -0.008]$

Uma diferença entre as duas médias populacionais dessa ordem de magnitude é relevante para o problema específico que estamos estudando ou não?

— zen
fonte

Concordo com tudo na sua resposta, exceto a primeira frase, que eu mudaria para "Sim, isso geralmente significa isso", porque com grandes amostras de um milhão ou mais, os tamanhos dos efeitos são TÃO pequenos.

— zbicyclist

Não é tudo isso uma questão de erro do tipo I versus erro do tipo II (ou potência)? Se alguém corrigir a probabilidade de erro do tipo I ( ) em 0,05, então, obviamente (exceto no caso discreto), será 0,05 se a amostra é grande ou não. Porém, para uma dada probabilidade de erro do tipo I, 0,05, por exemplo, a potência ou a probabilidade de você detectar o efeito quando existe, é maior para amostras de tamanhos grandes.

α

$\alpha$

3

Eu acho que é um problema da maioria dos testes de significância ter alguma classe geral indefinida de alternativas implícitas ao nulo, que nunca sabemos. Freqüentemente, essas classes podem conter algum tipo de hipótese de "coisa certa", na qual os dados se encaixam perfeitamente (ou seja, uma hipótese da forma onde é o i-ésimo ponto de dados). O valor da probabilidade do log é um exemplo de teste de significância que possui essa propriedade. $H_{ST}:d_{1}=1.23,d_{2}=1.11,\dots$ $d_{i}$

Mas geralmente não se interessa por essa hipótese certa. Se você pensar sobre o que realmente deseja fazer com o teste de hipótese, em breve reconhecerá que só deve rejeitar a hipótese nula se tiver algo melhor para substituí-la. Mesmo que seu nulo não explique os dados, não há utilidade em descartá-los, a menos que você tenha uma substituição. Agora você sempre substituiria o nulo pela hipótese "coisa certa"? Provavelmente não, porque você não pode usar a hipótese "coisa certa" para generalizar além do seu conjunto de dados. Não é muito mais do que imprimir seus dados.

Portanto, o que você deve fazer é especificar a hipótese na qual você estaria realmente interessado em agir se elas fossem verdadeiras. Em seguida, faça o teste apropriado para comparar essas alternativas entre si - e não com alguma classe de hipótese irrelevante que você sabe ser falsa ou inutilizável.

Veja o caso simples de testar a média normal. Agora, a verdadeira diferença pode ser pequena, mas adotando uma posição semelhante à da resposta de @ keith, simplesmente testamos a média em vários valores discretos que são do nosso interesse. Assim, por exemplo, poderíamos ter vs . O problema é transferido para o nível em que queremos fazer esses testes. Isso tem uma relação com a ideia do tamanho do efeito: em que nível de granulação teria influência na sua tomada de decisão? Isso pode exigir etapas de tamanho ou $H_{0}:\mu=0$ $H_{1}:\mu\in\{\pm 1,\pm 2,\pm 3,\pm 4,\pm 5,\pm 6\}$ $0.5$ $100$ ou qualquer outra coisa, dependendo do significado do teste e dos parâmetros. Por exemplo, se você estivesse comparando a riqueza média de dois grupos, alguém se importaria se houvesse uma diferença de dois dólares, mesmo que houvesse 10.000 erros padrão longe de zero? Eu sei que não.

A conclusão é basicamente que você precisa especificar seu espaço de hipóteses - aquelas nas quais você realmente está interessado. Parece que com o big data isso se torna uma coisa muito importante a ser feita, simplesmente porque seus dados têm muito poder de resolução. Também parece importante comparar como hipótese - ponto com ponto, composto com composto - para obter resultados bem comportados.

— probabilityislogic
fonte

3

Não. É verdade que todos os testes úteis de hipóteses de pontos são consistentes e, portanto, mostrarão um resultado significativo se apenas o tamanho da amostra for grande o suficiente e existir algum efeito irrelevante. Para superar essa desvantagem do teste de hipóteses estatísticas (já mencionado pela resposta de Gaetan Lion acima), existem testes de relevância. Estes são semelhantes aos testes de equivalência, mas ainda menos comuns. Para um teste de relevância, o tamanho de um efeito relevante mínimo é pré-especificado. Um teste de relevância pode basear-se em um intervalo de confiança para o efeito: Se o intervalo de confiança e a região de relevância forem disjuntos, você poderá rejeitar o valor nulo.

No entanto, van der Laan e Rose assumem em sua afirmação que mesmo hipóteses nulas verdadeiras são testadas em estudos. Se uma hipótese nula for verdadeira, a propensão a rejeitar não é maior que alfa, especialmente no caso de amostras grandes e até especificadas incorretamente, só posso ver que a distribuição da amostra é sistematicamente diferente da distribuição da população,

— Horst Grünbusch
fonte

3

O artigo que você mencionou tem um ponto válido, no que diz respeito aos testes freqüentadores padrão. É por isso que testar um determinado tamanho de efeito é muito importante. Para ilustrar, aqui está uma anova entre três grupos, onde o grupo B é ligeiramente diferente do grupo A e C. tente o seguinte em r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Como esperado, com maior número de amostras por teste, a significância estatística do teste aumenta:

— Lucas Fortini
fonte

2

Penso que o que eles querem dizer é que, com frequência, é feita uma suposição sobre a densidade de probabilidade da hipótese nula, que tem uma forma "simples", mas não corresponde à verdadeira densidade de probabilidade.

Agora, com conjuntos de dados pequenos, talvez você não tenha sensibilidade suficiente para ver esse efeito, mas com um conjunto de dados grande o suficiente rejeitará a hipótese nula e concluirá que há um novo efeito em vez de concluir que sua suposição sobre a hipótese nula está incorreta.

— Andre Holzner
fonte

1

Não sei se Mark e Shern tinham sua opinião em mente, mas apenas para reformular seu argumento - se o modelo para os dados abaixo de nulo estiver "errado", você rejeitará a hipótese nula para dados grandes o suficiente.

1

Não é tudo isso uma questão de erro tipo I versus erro tipo II (ou potência)? Se alguém fixa a probabilidade de erro do tipo I ( ) em 0,05, então, obviamente (exceto no caso discreto), será 0,05 se a amostra é grande ou não. $\alpha$

Mas para uma dada probabilidade de erro do tipo I, 0,05, por exemplo, a potência ou a probabilidade de você detectar o efeito quando ele estiver lá (portanto, a probabilidade de rejeitar (= detectar o efeito) quando for verdadeiro (= quando o efeito existe)), é maior para amostras grandes. $H_0$ $H_1$

O poder aumenta com o tamanho da amostra (todas as outras coisas são iguais).

Mas a afirmação de que "sabemos que, para tamanhos de amostra suficientemente grandes, todos os estudos - incluindo aqueles nos quais a hipótese nula de nenhum efeito é verdadeira - declararão um efeito estatisticamente significativo". está incorreto.