Qual é a diferença entre N e N-1 no cálculo da variação populacional?


50

Não entendi o porquê Ne N-1ao calcular a variação da população. Quando usamos Ne quando usamos N-1?

insira a descrição da imagem aqui
Clique aqui para uma versão maior

Diz que quando a população é muito grande, não há diferença entre N e N-1, mas não diz por que existe N-1 no início.

Edit: Por favor, não confunda com ne n-1que são usados ​​na estimativa.

Edit2: Eu não estou falando sobre estimativa de população.


5
Você pode encontrar uma resposta lá: stats.stackexchange.com/questions/16008/… . Basicamente, você deve usar N-1 ao estimar uma variação e N ao calculá- la exatamente.
Ocram

@ram, tanto quanto sei quando estimamos uma variação, usamos n ou n-1.
ilhan

Se você deseja que seu estimador seja imparcial, use n-1. Observe que quando n é grande, isso não é um problema.
Ocram

2
Nenhuma das respostas abaixo é escrita em termos de inferência finita de população. A palavra finito é absolutamente crucial aqui; é disso que trata o livro de Kish (e quem estava dizendo "O livro está errado" simplesmente não sabe o suficiente sobre pesquisas e amostras de população finita). O quociente , em vez de só faz cálculos mais agradáveis e obvia a necessidade de transportar em torno de factores como . A resposta completa para esta pergunta teria que introduzir a inferência de amostragem onde os indicadores da amostra são aleatórios e os valores das características observadas são FIXOS. Não aleatório. Gravada na pedra. N 1 - 1 / N yN1N11/Ny
StasK

2
Isso realmente não contribui para as outras respostas. Que diferentes divisores dão respostas diferentes, ou mesmo que a diferença diminua com N, não está em questão. A questão é quando e por que usar um dos divisores.
Nick Cox

Respostas:


26

n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N é o tamanho da população e é o tamanho da amostra. A questão pergunta por que a variação populacional é o desvio médio quadrático da média, em vez de vezes. Por falar nisso, por que parar por aí? Por que não multiplicar o desvio médio quadrático por ou ou , por exemplo?n(N1)/N=1(1/N)12/N117/Nexp(1/N)

Na verdade, há uma boa razão para não fazê-lo. Qualquer uma dessas figuras que acabei de mencionar serviria como uma maneira de quantificar uma "propagação típica" dentro da população. No entanto, sem o conhecimento prévio do tamanho da população, seria impossível usar uma amostra aleatória para encontrar um estimador imparcial de tal figura. Sabemos que a variação da amostra , que multiplica o desvio médio quadrático da média da amostra por , é um estimador imparcial da variação usual da população ao amostrar com substituição. (Não há problema em fazer essa correção, porque sabemos que !). A variação da amostra seria, portanto, um estimador tendencioso de qualquer múltiplo da variação da população em que esse múltiplo, comon 1 - 1 / N(n1)/nn11/N, não é exatamente conhecido de antemão.

Esse problema de uma quantidade desconhecida de viés se propagaria a todos os testes estatísticos que usam a variação da amostra, incluindo testes t e testes F. De fato, dividir por qualquer coisa diferente de na fórmula de variação populacional exigiria a alteração de todas as tabulações estatísticas das estatísticas t e estatística F (e muitas outras tabelas também), mas o ajuste dependeria do tamanho da população. Ninguém quer ter que fazer mesas para todos os possíveis ! Especialmente quando não é necessário.NNN

Como uma questão prática, quando é pequeno o suficiente que o uso de em vez de em fórmulas faz a diferença, você costuma fazer conhecer o tamanho da população (ou pode adivinhar com precisão) e você provavelmente iria recorrer a muito mais substancial pequeno-população correções ao trabalhar com amostras aleatórias (sem substituição) da população. Em todos os outros casos, quem se importa? A diferença não importa. Por esses motivos, guiados por considerações pedagógicas (ou seja, focar em detalhes importantes e encobrir detalhes que não importam), alguns excelentes textos introdutórios de estatísticas nem se importam em ensinar a diferença: eles simplesmente fornecem uma fórmula de variação única ( dividido porN - 1 N N nNN1NN ou conforme o caso).n


24

Em vez de entrar em matemática, tentarei colocá-lo em palavras simples. Se você tem toda a população à sua disposição, sua variação ( variação da população ) é calculada com o denominador N. Da mesma forma, se você tiver apenas amostra e quiser calcular a variação dessa amostra , use o denominador N(n da amostra, neste caso). Nos dois casos, observe que você não estima nada: a média que você mediu é a média verdadeira e a variação que você calculou dessa média é a variação verdadeira.

Agora, você tem apenas uma amostra e deseja inferir sobre a média e variação desconhecidas na população. Em outras palavras, você deseja estimativas . Você leva sua média amostral para a estimativa da média populacional (porque sua amostra é representativa), OK. Para obter uma estimativa da variação populacional, você deve fingir que essa média é realmente média populacional e, portanto, não depende mais da sua amostra desde quando a calculou. Para "mostrar" que agora você toma como fixo, você reserva uma (qualquer) observação da sua amostra para "apoiar" o valor da média: seja o que for que sua amostra possa ter acontecido, uma observação reservada sempre pode levar a média ao valor que você deseja " obtivemos e que acreditamos ser insensível a contingências amostrais. Uma observação reservada é "-1"N-1 na estimativa de variância computacional.

Imagine que você saiba de alguma forma a verdadeira média da população, mas deseja estimar a variação da amostra. Em seguida, você substituirá a média verdadeira na fórmula para variação e aplicará o denominador N: nenhum "-1" é necessário aqui, pois você conhece a média verdadeira e não a estimou nesta mesma amostra.


Mas minha pergunta não tem nada a ver com estimativa. Trata-se de calcular a variação populacional; com N e N-1. Não estou falando de n e n-1.
ilhan

11
@ilhan, na minha resposta, eu usei No N e o n. Né o tamanho de uma totalidade disponível, população ou amostra. Para calcular a variação populacional , você deve ter população à sua disposição. Se você tiver apenas uma amostra, poderá calcular a variação dessa amostra ou a variação da estimativa populacional . Não há outro caminho.
precisa saber é o seguinte

Eu tenho uma informação completa sobre minha população; todos os valores são conhecidos. Não estou interessado em estimativa.
ilhan

11
Se você tem sua população, use o N. N-1 seria ilógico de usar.
precisa saber é o seguinte

11
@ilhan - Não foi possível comentar diretamente no seu comentário para a publicação ttnphns, mas aqui está uma explicação do que você vê no livro e como deve inferir. O símbolo 'S' quando usado para implicar variação sempre se refere à variação da amostra. A letra grega sigma é usada para se referir à variação populacional. Essa é a razão pela qual você vê o livro mencionar S = N * sigma / (N-1)
Arvind

9

Geralmente, quando se tem apenas uma fração da população, ou seja, uma amostra, você deve dividir por n-1. Há uma boa razão para fazê-lo, sabemos que a variação da amostra, que multiplica o desvio médio quadrático da média da amostra por (n-1) / n, é um estimador imparcial da variação da população.

Você pode encontrar uma prova de que o estimador da variação da amostra é imparcial aqui: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Além disso, se alguém aplicasse o estimador da variação populacional, que é a versão do estimador de variação que divide por n, em uma amostra em vez da população, a estimativa obtida seria enviesada.


Isso parece responder a uma pergunta diferente em relação à estimativa da variação da população. Parece circular: essa resposta não se baseia em assumir uma convenção específica para definir a variação da população em primeiro lugar?
whuber

7

No passado, houve um argumento de que você deveria usar N para uma variação não inferencial, mas eu não recomendo mais isso. Você sempre deve usar N-1. À medida que o tamanho da amostra diminui, N-1 é uma correção muito boa, pois a variação da amostra diminui (é mais provável que você faça amostragens próximas ao pico da distribuição - veja a figura). Se o tamanho da amostra for realmente grande, não importa nenhuma quantidade significativa.

Uma explicação alternativa é que a população é uma construção teórica impossível de alcançar. Portanto, sempre use N-1, porque o que você estiver fazendo, na melhor das hipóteses, estimar a variação da população.

Além disso, você verá o N-1 para estimativas de variância daqui em diante. Você provavelmente nunca encontrará esse problema ... exceto em um teste em que seu professor poderá solicitar que você faça uma distinção entre uma inferencial e outra. medida de variância não inferencial. Nesse caso, não use a resposta do whuber ou a minha, consulte a resposta do ttnphns.

figura 1

Observe que, nesta figura, a variação deve ser próxima de 1. Observe o quanto isso varia com o tamanho da amostra quando você usa N para estimar a variação. (esse é o "viés" referido em outro lugar)


11
Por favor, diga-me por que N "não é mais recomendado" com a verdadeira população em mãos? A população nem sempre é uma construção teórica. Às vezes, sua amostra é uma população de boa-fé para você.
precisa saber é o seguinte

11
ilhan, N pode ser usado para sua amostra ou para o tamanho da população, se houver. Na maioria dos casos, a distinção entre N grande e n pequeno depende do tópico. Por exemplo, n pode ser o número de casos em cada condição de uma experiência, enquanto N pode ser o número da experiência. Ambos são amostras. Não há regra global.
John

11
Isso depende do que você quer dizer com população. Eu diria que, se toda a sua população é tão pequena que o N-1 é importante, é questionável se o cálculo de um desvio quadrado médio é remotamente útil. Mostre todos os valores, sua forma e alcance. Além disso, todo o argumento antigo de que você realmente tem N graus de liberdade se não estiver fazendo uma inferência é questionável. Você perdeu um ao calcular a média, que precisava calcular a variação.
John

11
@ John, se você calcular a média dentro da população, apenas declara o fato sobre o parâmetro, para não gastar graus de liberdade. Se você o calcula em amostra e deseja deduzir sobre a população, gasta uma. Além disso, eu posso ter uma população com N = 1. Com o denominador N-1, parece que esse parâmetro como variância não existe para ele. Isso é um absurdo.
precisa saber é o seguinte

3
@ilhan Por favor, considere atualizar sua pergunta (como você fez) e aponte para a versão atualizada em vez de deixar comentários não construtivos. Tudo é discutível, especialmente quando a pergunta em si não tem algum contexto. Aqui parece que o problema está em definir o que realmente é uma população.
chl

4

A variação populacional é a soma dos desvios quadrados de todos os valores da população divididos pelo número de valores na população. Porém, quando estimamos a variação de uma população de uma amostra, encontramos o problema de que os desvios dos valores da amostra em relação à média da amostra são, em média, um pouco menores que os desvios desses valores da amostra em relação a ( desconhecido) média populacional verdadeira. Isso resulta em uma variação calculada a partir da amostra um pouco menor que a variação real da população. O uso de um divisor n-1 em vez de n corrige essa subestimação.


@ Bunnenburg, se você respondeu à sua pergunta. Por favor, claro para mim agora, o que você tem? É uma grande confusão para mim também.
Bilal Para

para compensar a menor variação que obtemos, por que não se pode usar n-2, n-3 etc.? por que o n-1 em particular? por que não uma constante ... ???
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran A discrepância varia com o tamanho da amostra e, portanto, uma constante não será veiculada. A correção usando n-1 é mais próxima e funciona melhor do que as outras que você mencionou.
Michael Lew
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.