Valor p em um teste bicaudal com distribuição nula assimétrica

Minha situação é a seguinte: desejo, através de um estudo de Monte-Carlo, comparar valores- de dois testes diferentes para obter significância estatística de um parâmetro estimado (nulo é "sem efeito - parâmetro é zero" e a alternativa implícita é " parâmetro não é zero "). O teste A é o "teste t independente de duas amostras para igualdade de médias" , com variações iguais sob o valor nulo. $p$

Teste B Eu me construí. Aqui, a distribuição nula usada é uma distribuição discreta genérica assimétrica . Mas encontrei o seguinte comentário em Rohatgi & Saleh (2001, 2ª ed., P. 462)

"Se a distribuição não é simétrica, o valor de não está bem definido no caso de dois lados, embora muitos autores recomendem duplicar o valor de um lado " $p$ $p$ .

Os autores não discutem mais isso, nem comentam a "sugestão de muitos autores" para dobrar o valor unilateral . (Isso cria a pergunta "o dobro do valor- de que lado? E por que esse lado e não o outro?) $p$ $p$

Não pude encontrar nenhum outro comentário, opinião ou resultado sobre esse assunto. Entendo que com uma distribuição assimétrica, embora possamos considerar um intervalo simétrico em torno da hipótese nula em relação ao valor do parâmetro, não teremos a segunda simetria usual, a da alocação de massa em probabilidade. Mas não entendo por que isso torna o valor "não bem definido". Pessoalmente, usando um intervalo simétrico em torno da hipótese nula para os valores do estimador, não vejo definição $p$ problema em dizer "a probabilidade de que a distribuição nula produza valores iguais aos limites ou fora desse intervalo é XX". O fato de a massa de probabilidade, por um lado, ser diferente da massa de probabilidade, por outro lado, não parece causar problemas, pelo menos para os meus propósitos. Mas é mais provável que Rohatgi & Saleh saibam algo que eu não conheço.

Portanto, esta é a minha pergunta: em que sentido o valor- é (ou pode ser) "não bem definido" no caso de um teste bilateral, quando a distribuição nula não é simétrica? $p$

Uma observação talvez importante: eu me aproximo mais do assunto no espírito dos pescadores, não estou tentando obter uma regra estrita de decisão no sentido Neyman-Pearson. Deixo ao usuário do teste o uso das informações do valor- juntamente com outras informações para fazer inferências. $p$

hypothesis-testing p-value

— Alecos Papadopoulos
fonte

Além das abordagens baseadas em verossimilhança ("Pescadores") e LR (NP), outro método considera como obter curtos intervalos de confiança e os utiliza para testes de hipóteses. Isso é feito no espírito da teoria da decisão (e usando seus métodos), onde o comprimento é incluído na função de perda. Para distribuições simétricas unimodais da estatística de teste, obviamente, os intervalos mais curtos possíveis são obtidos usando intervalos simétricos (essencialmente "duplicando o valor p" de testes unilaterais). Intervalos de menor comprimento dependem da parametrização: portanto, eles não podem ser pescadores.

— whuber

Eu queria saber se as respostas postadas aqui também seriam aplicáveis nas distribuições beta. Obrigado.

— JLT

@JLT: Sim, por que não?

— Scortchi - Restabelece Monica

Respostas:

Se olharmos para o teste exato de 2x2 e considerarmos essa a nossa abordagem, o que é "mais extremo" pode ser medido diretamente pela "menor probabilidade". (Agresti [1] menciona várias abordagens de vários autores para calcular valores p bicaudais apenas para este caso do teste exato de 2x2 Fisher, do qual essa abordagem é uma das três discutidas especificamente como 'mais populares'.)

Para uma distribuição contínua (unimodal), basta encontrar o ponto na outra cauda com a mesma densidade que o valor da amostra e tudo com probabilidade igual ou menor na outra cauda é contado no cálculo do valor-p.

Para distribuições discretas que são monotonicamente não crescentes nas caudas, é igualmente simples. Você apenas conta tudo com probabilidade igual ou inferior à sua amostra, que, dadas as suposições que adicionei (para fazer o termo "coroa" se encaixar na idéia), fornece uma maneira de resolvê-la.

Se você está familiarizado com os intervalos de HPD (e novamente, estamos lidando com a unimodalidade), é basicamente como tirar tudo de fora de um intervalo aberto de HPD que é delimitado de uma só vez pela estatística de sua amostra.

insira a descrição da imagem aqui

[Para reiterar - esta é uma probabilidade abaixo do nulo que estamos equiparando aqui.]

Então, pelo menos no caso unimodal, parece simples o suficiente para imitar o teste exato de Fisher e ainda falar sobre as duas caudas.

No entanto, você pode não ter pretendido invocar o espírito do teste exato de Fisher dessa maneira.

Então, pensando fora da idéia do que torna algo "como, ou mais extremo" por um momento, vamos seguir um pouco mais para o final das coisas de Neyman-Pearson. Pode ajudar (antes de você testar!) Definir a região de rejeição para um teste realizado em algum nível genérico (não quero dizer que você precise literalmente calcular uma, exatamente como você a calcularia). Assim que você fizer isso, a maneira de calcular dois valores de cauda para o seu caso deve se tornar óbvia. $\alpha$

Essa abordagem pode ser valiosa mesmo se você estiver realizando um teste fora do teste da razão de verossimilhança usual. Para algumas aplicações, pode ser complicado descobrir como calcular valores-p em testes de permutação assimétricos ... mas muitas vezes se torna substancialmente mais simples se você pensar primeiro em uma regra de rejeição.

Com os testes F de variância, notei que o "valor p de cauda dupla" pode dar valores p bem diferentes ao que considero a abordagem correta. [Não importa qual grupo você chama de "amostra 1" ou se coloca a variação maior ou menor no numerador.]

[1]: Agresti, A. (1992),
Uma Pesquisa de Inferência Exata para Tabelas de Contingência
Statistical Science , vol. 7 , nº 1. (fev.), Pp. 131-153.

— Glen_b -Reinstate Monica
fonte

ctd ... Se estamos fazendo um teste de razão de verossimilhança, a razão de verossimilhança é sempre unicaudal, mas se construirmos um teste bicaudal equivalente com base em alguma estatística, ainda procuraremos proporções menores de probabilidade para localizar "mais extremo"

— Glen_b -Reinstala Monica

Dobrar o valor p unilateral pode ser defendido como uma correção de Bonferroni para a realização de dois testes unilaterais. Afinal, após um teste bicaudal, geralmente estamos muito inclinados a considerar qualquer dúvida lançada sobre a verdade do nulo como favorecendo outra hipótese cuja direção é determinada pelos dados.

— Scortchi - Restabelece Monica

@Alecos, é simples o suficiente para justificar uma escolha simétrica! Acho difícil ver como você leu o que escrevi como sugerindo uma escolha simétrica de alguma forma não é uma coisa válida a fazer (essa escolha é coberta pela discussão que dei sobre a regra de rejeição - você pode facilmente construir uma simétrica regra de rejeição). A primeira parte da minha resposta foi responder à parte da pergunta sobre Fisher. Se você perguntar sobre Fisher, não devo discutir o que parece fazer Fisher, com base no que ele fez em circunstâncias semelhantes? Você parece interpretar minha resposta como dizendo mais do que é.

— Glen_b -Reinstate Monica

@Alecos Em particular, não estou defendendo as abordagens de Fisher ou Neyman Pearson (se estamos falando de testes de razão de verossimilhança ou apenas de testes de hipóteses de maneira mais geral), nem deve me considerar como tentando sugerir que qualquer coisa que eu omiti pode estar errada . Estou apenas discutindo várias das coisas que você parecia estar levantando na sua pergunta.

— Glen_b -Reinstate Monica

Em última análise, sim. O interessante da abordagem de Fisher é que ela oferece uma maneira muito sensata de chegar a um valor-p sem sequer ter uma alternativa. Mas se você tiver alternativas específicas de interesse, poderá direcionar sua região de rejeição mais ou menos precisamente para essas alternativas, declarando as partes do espaço de amostra em que as alternativas tenderão a colocar suas amostras como região de rejeição. Uma estatística de teste, T, é uma maneira conveniente de conseguir isso, associando, em essência, um único número a cada ponto (dando-nos um "mais extremo", conforme medido por T). ...

— ctd

$S$ $T$ $S$ $T=|S|$

$t=\min(\Pr_{H_0}(S<s),\Pr_{H_0}(S>s))$ $S$ $2t$

$S$ $S$ $T=f_S(S)$ $X$ $1.66$ $-1.66$

p = Pr (X > 1,66) + Pr (X < - 1,66) = 0,048457 + 0,048457 = 0,09691.

$p=\Pr(X > 1.66) +\Pr(X<-1.66)=0.048457+0.048457=0.09691.$

Y

$Y$

e^{1.66} = 5.2593

$\mathrm{e}^{1.66}=5.2593$

0.025732

$0.025732$

= e^{- 3.66}

$=\mathrm{e}^{-3.66}$

p = Pr (Y > 5.2593) + Pr (Y < 0,025732) = 0,048457 + 0.00012611 = 0,04858.

$p=\Pr(Y>5.2593) +\Pr(Y<0.025732)=0.048457+0.00012611=0.04858.$

\begin{aligned} p = 2 t & = 2 min (Pr (X < 1,66), Pr (X > 1,66)) \\ = 2 min (Pr (Y < 5.2593), Pr (Y > 5.2593)) \\ = 2 min (0,048457, 0.951543) \\ = 2 \times 0,048457 = 0,09691. \end{aligned}

$\begin{align}p=2t&=2\min(\Pr(X<1.66),\Pr(X>1.66))\\&=2\min(\Pr(Y<5.2593),\Pr(Y>5.2593))\\&=2\min(0.048457,0.951543)\\&=2\times 0.048457=0.09691.\end{align}$

Um tipo de sequência desta resposta, discutindo alguns princípios de construção de testes nos quais a hipótese alternativa é explicitamente declarada, pode ser encontrada aqui .

$S$

p_{eu} = \underset{H_{0 0}}{Pr} (S \leq s)

$p_\mathrm{L} = \Pr_{H_0}(S\leq s)$

p_{você} = \underset{H_{0 0}}{Pr} (S \geq s)

$p_\mathrm{U} = \Pr_{H_0}(S\geq s)$

para os valores p inferior e superior unilateral, o valor p bicaudal é dado por

Pr (T \leq t) = {\begin{cases} p_{eu} + \underset{H_{0 0}}{Pr} (P_{você} \leq p_{eu}) & quando p_{eu} \leq p_{você} \\ p_{você} + \underset{H_{0 0}}{Pr} (P_{eu} \leq p_{você}) & de outra forma \end{cases}

$\Pr(T\leq t) = \begin{cases} p_\mathrm{L} + \Pr_{H_0}(P_\mathrm{U} \leq p_\mathrm{L}) & \text{when}\ p_\mathrm{L} \leq p_\mathrm{U}\\ p_\mathrm{U} + \Pr_{H_0}(P_\mathrm{L} \leq p_\mathrm{U}) & \text{otherwise} \end{cases}$

$2t$

— Scortchi - Restabelecer Monica
fonte

Oh uau. Este é um ponto muito bom, +1. Qual é o seu conselho então? Além disso, posso interpretar essa discrepância como correspondendo a diferentes (neste caso implícitas) escolhas da estatística de teste?

— Ameba diz Reinstate Monica

@amoeba: Não é um erro de digitação! E quando você observa 1,66, obtém o mínimo de 0,952 e 0,048. Se você realmente observasse -3,66, seria o mínimo de 0,0001 e 0,9999.

— Scortchi - Restabelece Monica

@ Scortchi Acabei de aceitar a resposta de Glen_b porque era mais "útil" para mim no sentido estrito. Mas a sua me ajudou a evitar a armadilha de pensar que "é tudo o que existe", que é uma excelente apólice de seguro para riscos futuros. Obrigado novamente.

— Alecos Papadopoulos

@ Scortchi eu tenho que concordar; minha resposta adotou uma visão bastante simplista e unilateral, e devo qualificar, estender e justificar a resposta. Provavelmente vou fazer isso em várias etapas.

— Glen_b -Reinstala Monica 22/03

@Glen_b: Obrigado, estou ansioso por isso. Também quero estender o meu para mostrar como os testes de pontuação e os testes de razão de verossimilhança generalizada dão respostas diferentes (em geral); e certamente vale a pena mencionar a teoria dos testes imparciais neste contexto (mas mal consigo me lembrar).

— Scortchi - Restabelecer Monica