Por que o erro padrão de uma proporção, para um dado n, é maior para 0,5?

10

O erro padrão de uma proporção será o maior que pode ser para um dado N quando a proporção em questão for 0,5 e fica menor quanto mais a proporção for de 0,5. Eu posso ver por que isso acontece quando olho para a equação para o erro padrão de uma proporção, mas não posso explicar mais isso.

Existe uma explicação além das propriedades matemáticas da fórmula? Se sim, por que há menos incerteza em torno das proporções estimadas (para um dado N) à medida que elas se aproximam de 0 ou 1?

standard-error proportion intuition

— edstatsuser
fonte

8

Antecedentes e Terminologia

Para ser perfeitamente claro o que estamos discutindo, vamos estabelecer alguns conceitos e terminologia. Um bom modelo para proporções é a urna binária: contém bolas coloridas de prata ("sucesso") ou fúcsia ("falha"). A proporção de bolas de prata na urna é (mas essa não é a "proporção" sobre a qual falaremos). $p$

Essa urna fornece uma maneira de modelar um julgamento de Bernoulli . Para obter uma realização, misture bem as bolas e desenhe cegamente, observando sua cor. Para obter realizações adicionais, primeiro reconstitua a caixa retornando a bola sacada e repita o procedimento um número predeterminado de vezes. A sequência de realizações podem ser resumidos pela contagem do seu sucesso, . É uma variável aleatória cujas propriedades são completamente determinadas por e . A distribuição de é chamada de distribuição binomial . A proporção (experimental ou "amostra") é a razão $n$ $X$ $n$ $p$ $X$ $(n,p)$ $X/n$ .

Esses números são gráficos de barras de distribuições de probabilidade para várias proporções binomiais . O mais notável é um padrão consistente, independentemente de , no qual as distribuições se tornam mais estreitas (e as barras correspondentemente mais altas) à medida que se move de em diante. $X/n$ $n$ $p$ $1/2$

O desvio padrão de é o erro padrão de proporção mencionado na pergunta. Para qualquer dado , essa quantidade pode depender apenas da . Vamos chamar de . Ao mudar os papéis das bolas - chame os de prata de "fracassos" e os de fúcsia de "sucessos" - é fácil ver que . Assim, a situação em que - ou seja, deve ser especial. A questão diz respeito à forma como varia conforme se afasta de direção a um valor mais extremo, como $X/n$ $n$ $p$ $\operatorname{se}(p)$ $\operatorname{se}(p) = \operatorname{se}(1-p)$ $p=1-p$ $p=1/2$ $\operatorname{se}(p)$ $p$ $1/2$ $0$ .

Conhecimento x compreensão

Como todos foram mostrados figuras como essas no início de sua educação, todos "conhecem" as larguras das parcelas - que são medidas por devem diminuir à medida que se afasta de . Mas esse conhecimento é realmente apenas experiência, enquanto a pergunta busca um entendimento mais profundo. Esse entendimento está disponível em uma análise cuidadosa das distribuições binomiais, como Abraham de Moivre, realizada há cerca de 300 anos. (Eles eram parecidos em espírito aos que apresentei em uma discussão do Teorema do Limite Central .) Penso, porém, que algumas considerações relativamente simples podem ser suficientes para mostrar que as larguras devem ser mais largas perto de . $\operatorname{se}(p)$ $p$ $1/2$ $p=1/2$

Uma análise intuitiva simples

É claro que devemos esperar que a proporção de sucessos no experimento seja próxima de . O erro padrão diz respeito a que distância dessa expectativa podemos razoavelmente supor que o resultado real estará. Supondo, sem nenhuma perda de generalidade, que esteja entre e , o que seria necessário para aumentar de ? Normalmente, cerca de das bolas desenhadas em um experimento eram de prata e (portanto) cerca de eram fúcsia. Para obter mais bolas de prata, algumas dessas $p$ $X/n$ $p$ $0$ $1/2$ $X/n$ $p$ $pn$ $(1-p)n$ $p n$ os resultados fúcsia tinham que ter diferido. Qual a probabilidade de que o acaso funcione dessa maneira? A resposta óbvia é que, quando é pequeno, nunca é muito provável que desenhemos uma bola de prata. Assim, nossas chances de desenhar bolas de prata em vez de fúcsia são sempre baixas. Podemos razoavelmente esperar que, por pura sorte, uma proporção dos resultados fúcsia possa ter sido diferente, mas parece improvável que muito mais do que isso tenha mudado. Assim, é plausível que não varie muito mais do que . Equivalentemente, não variaria muito mais do que . $p$ $p$ $X$ $p\times (1-p)n$ $X/n$ $p(1-p)n/n = p(1-p)$

O desenlace

Assim, a combinação mágica aparece. $p(1-p)$ Isso praticamente resolve a questão: obviamente, essa quantidade atinge o pico em e diminui para zero em ou . Ele fornece uma justificativa intuitiva, mas quantitativa, para afirmações de que "um extremo é mais limitador que o outro" ou outros esforços para descrever o que sabemos. $p=1/2$ $p=0$ $p=1$

No entanto, não é exatamente o valor correto: ele apenas aponta o caminho, dizendo-nos o que quantidade deve importa para estimar a propagação de . Ignoramos o fato de que a sorte também tende a agir contra nós: assim como algumas das bolas fúcsia poderiam ser prateadas, algumas das bolas prateadas poderiam ser fúcsia. A contabilização rigorosa de todas as possibilidades pode ser complicada, mas o resultado é que, em vez de usar como um limite razoável de quanto poderia se desviar de sua expectativa , para dar conta de todos os resultados possíveis adequadamente , temos pegar a raiz quadrada $p(1-p)$ $X$ $p(1-p)n$ $X$ $pn$ $\sqrt{p(1-p)n}$ . (Para uma explicação mais cuidadosa do motivo, visite ( https://stats.stackexchange.com/a/3904 .) Dividindo por , aprendemos que variações aleatórias da proporção devem estar na ordem de que é o erro padrão de . $n$ $X/n$ $\sqrt{p(1-p)n}/n = \sqrt{\frac{p(1-p)}{n}},$ $X/n$

— whuber
fonte

3

Considere a função p (1-p) para 0 <= p <= 1. Usando o cálculo, você pode ver que em p = 1/2, é 1/4, que é o valor máximo. Se você pode ver que isso é para o binômio relacionado ao desvio padrão da estimativa da proporção que é sqrt (p (1-p) / n), então p = 1/2 é o máximo. Quando p = 1 ou 0, o erro padrão é 0 porque você sempre receberá todos os 1s ou todos os 0s, respectivamente. Portanto, à medida que você se aproxima de 0 ou 1, um argumento de continuidade diz que o erro padrão se aproxima de 0 quando p se aproxima de 0 ou 1. De fato, diminui monotonicamente quando p se aproxima de 0 ou 1. Para n grande, a proporção estimada deve estar próxima da real proporção.

— Michael R. Chernick
fonte

3

O OP já observou que "eu posso ver por que isso acontece quando olho para a equação para o erro padrão de uma proporção". Portanto, acredito que eles estão pedindo não uma análise da fórmula , mas sim uma compreensão mais profunda de por que a fórmula - seja ela qual for - deve realmente ser maximizada em .

p (1 - p)

$p(1-p)$

p = 1 / 2

$p=1/2$

— whuber

11

@whuber Respondi da maneira que respondi, porque vejo que a fórmula é fundamental para entender por que a variância é maior em p = 1/2 e muito pequena quando p está perto de 0 ou 1. Talvez seja melhor dizer que existe Não há explicação completamente desprovida da fórmula.

— Michael R. Chernick 8/17

1

A distribuição binomial tende a ser aproximadamente simétrica (para grande , é aproximadamente normal ). $n$

Como a razão deve estar entre 0 e 1, a incerteza será restringida por esses limites. A menos que a proporção média esteja exatamente no meio, um desses limites será mais limitador que o outro.

Para que uma curva simétrica de campainha unimodal centralizada em se encaixe no intervalo da unidade, sua meia largura deve ser menor que . $p$ $\min[\,p\,,1-p\,]$

— GeoMatt22
fonte

Sim - mas o outro limite será menos limitante! Por que os dois efeitos não são cancelados?

— whuber

@whuber eu estava discutindo por simetria (ou seja, no caso simples "grande ", a curva de sino simétrica deve se encaixar no intervalo, de modo que sua meia largura é restringida pelo lado mais apertado, )

n

$n$

min [p, 1 - p]

$\min[p,1-p]$

— precisa saber é o seguinte