"Amostra aleatória" e "variável aleatória iid" são sinônimos?

18

Tenho enfrentado dificuldades para entender o significado de "amostra aleatória" e "variável aleatória iid". Tentei descobrir o significado de várias fontes, mas fiquei cada vez mais confuso. Estou postando aqui o que tentei e conheci:

A Probabilidade e Estatísticas de Degroot diz:

Amostras aleatórias / iid / tamanho da amostra: considere uma distribuição de probabilidade dada na linha real que pode ser representada por um pf ou um pdf $f$ . Diz-se que $n$ variáveis aleatórias $X_1 , . . . , X_n$ formará uma amostra aleatória dessa distribuição se essas variáveis aleatórias forem independentes e o marginal pf ou pdf de cada uma delas for $f$ . Também se diz que essas variáveis aleatórias são independentes e identicamente distribuídas, abreviadas iid. Referimos-se ao número n de variáveis aleatórias como o tamanho da amostra.

Mas um dos outros livros de estatísticas que tenho diz:

Em uma amostragem aleatória, garantimos que cada unidade individual da população tenha a mesma chance (probabilidade) de ser selecionada.

Então, sinto que os iids são elementos que constroem amostra aleatória, e o procedimento para obter amostra aleatória é amostragem aleatória. Estou certo?

PS: Estou muito confuso sobre esse tópico, então aprecio uma resposta elaborada. Obrigado.

sampling terminology iid

— Silencioso
fonte

6

A parte da independência é muito importante porque podemos ter uma amostra na qual todas as variáveis são identicamente distribuídas (têm a mesma distribuição marginal), mas não são independentes. Essa amostra ainda pode ser considerada uma amostra aleatória, mas não da experiência que você acha que é uma amostra aleatória. Veja esta pergunta .

— Dilip Sarwate

A questão não parece fazer sentido estatístico. A amostra iid e aleatória são conceitos claramente distintos estabelecidos pelos alfabetizados.

— Subhash C. Davar

2

@ subhashc.davar São eles? De acordo com uma definição: "Uma amostra aleatória é uma sequência de variáveis aleatórias independentes, identicamente distribuídas (IID)". Então parece que amostra iid e aleatória são a mesma coisa? O parágrafo citado em Probabilidade e Estatística da Degroot diz basicamente o mesmo. Acho confuso porque uma "amostra" às vezes é um indivíduo ou um conjunto de indivíduos, e algumas vezes uma sequência de variáveis aleatórias.

— Gary Chang

Gary Chang A definição que você citou refere-se ao pdf. A amostra de variáveis aleatórias tem sido popular na disciplina de psicometria. Geralmente, é usado com referência à estimativa de confiabilidade ou validade e para uma análise fatorial. A psicometria está interessada em estabelecer equivalência de testes para um domínio. O conceito iid parece ter origem na álgebra linear. Uma amostra pode ser de uma dada população de indivíduos e / ou de uma população de variáveis (aleatórias), dependendo da finalidade de um estudo. As estatísticas atuais parecem ter emprestado da teoria da medição.

— Subhash C. Davar

9

Você não diz qual é o outro livro de estatísticas, mas eu acho que é um livro (ou seção) sobre amostragem de população finita .

Ao amostrar variáveis aleatórias, ou seja, quando você considera um conjunto de variáveis aleatórias, você sabe que se elas são independentes, e distribuídos de forma idêntica , em particular e $X_1,\dots,X_n$ $n$ $f(x_1,\dots,x_n)=f(x_1)\cdots f(x_n)$ $E(X_i)=\mu$ para todos os , então: $\text{Var}(X_i)=\sigma^2$ $i$ ondeé o segundo momento central.

\bar{X} = \frac{\sum_{Eu} X_{Eu}}{n}, E (\bar{X}) = μ, Var (\bar{X}) = \frac{σ^{2}}{n}

$\overline{X}=\frac{\sum_i X_i}{n},\quad E(\overline{X})=\mu,\quad \text{Var}(\overline{X})=\frac{\sigma^2}{n}$

σ^{2}

$\sigma^2$

A amostragem de uma população finita é um pouco diferente. Se a população é do tamanho , na amostragem sem substituição existem $N$ possível, as amostrasde tamanhoe eles são equiprovável: $\binom{N}{n}$ $s_i$ $n$ Por exemplo, see, o espaço de amostragem é e as amostras possibile são:

p (s_{Eu}) = \frac{1}{(\binom{N}{n})} \forall Eu = 1, ..., (\binom{N}{n})

$p(s_i)=\frac{1}{\binom{N}{n}}\quad\forall i=1,\dots,\binom{N}{n}$

N = 5

$N=5$

n = 3

$n=3$

{s_{1}, \dots, s_{10}}

$\{s_1,\dots,s_{10}\}$

Se você contar o número de ocorrências de cada indivíduo, poderá ver que são seis, ou seja, cada indivíduo tem uma chance igual de ser selecionado (6/10). Portanto, cada

é uma amostra aleatória de acordo com a segunda definição. Grosso modo, não é uma amostra aleatória de IID porque os indivíduos não são variáveis aleatórias: é possível estimar consistentemente

por uma média da amostra, mas nunca saberá seu valor exato, mas vocêpoderásaber a média exata da população se

(deixe repito: aproximadamente.)

\begin{matrix} s_{1} = {1, 2, 3}, s_{2} = {1, 2, 4}, s_{3} = {1, 2, 5}, s_{4} = {1, 3, 4}, s_{5} = {1, 3, 5}, \\ s_{6} = {1, 4, 5}, s_{7} = {2, 3, 4}, s_{8} = {2, 3, 5}, s_{9} = {2, 4, 5}, s_{10} = {3, 4, 5} \end{matrix}

$\begin{gather}s_1=\{1,2,3\},s_2=\{1,2,4\},s_3=\{1,2,5\},s_4=\{1,3,4\},s_5=\{1,3,5\},\\ s_6=\{1,4,5\},s_7=\{2,3,4\},s_8=\{2,3,5\},s_9=\{2,4,5\},s_{10}=\{3,4,5\}\end{gather}$

s_{i}

$s_i$

E [X]

$E[X]$

n = N

$n=N$

^{1}

${}^1$

$\mu$ $n<N$ $\mu$

{\bar{y}}_{s} = \sum_{i = 1}^{n} y_{i}, E ({\bar{y}}_{s}) = μ

$\overline{y}_s=\sum_{i=1}^n y_i,\quad E(\overline{y}_s)=\mu$

Var ({\bar{y}}_{s}) = \frac{{\tilde{σ}}^{2}}{n} (1 - \frac{n}{N})

$\text{Var}(\overline{y}_s)=\frac{\tilde\sigma^2}{n}\left(1-\frac{n}{N}\right)$

{\tilde{σ}}^{2}

$\tilde\sigma^2$

\frac{\sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}}{N - 1}

$\frac{\sum_{i=1}^N(y_i-\overline{y})^2}{N-1}$

(1 - n / N)

$(1-n/N)$

Este é um exemplo rápido de como uma amostra aleatória iid (variável aleatória) e uma amostra aleatória (população finita) podem diferir. A inferência estatística é principalmente sobre amostragem aleatória de variáveis, a teoria da amostragem é sobre amostragem finita de população.

${}^1$ e interpretar um conjunto de lâmpadas como uma amostra (variável aleatória). Diga agora que você encontrou uma caixa com 1.000 lâmpadas e deseja saber a vida útil média. Você pode selecionar um pequeno conjunto de lâmpadas (uma amostra de população finita), mas pode selecionar todas elas. Se você selecionar uma amostra pequena, isso não transformará as lâmpadas em variáveis aleatórias: a variável aleatória é gerada por você, pois a escolha entre "todos" e "um conjunto pequeno" depende de você. No entanto, quando uma população finita é muito grande (digamos, a população do seu país), ao escolher "tudo" não é viável, a segunda situação é melhor tratada como a primeira.

— Sergio
fonte

1

O que você quer dizer com "indivíduos não são variáveis aleatórias?" Whuber tem algumas respostas muito boas aqui e aqui que usam amostragem de população finita para explicar o conceito de uma variável aleatória.

— jsk

n = N

$n=N$

n = N

$n=N$

Defensiva? Você não entendeu esses links. Como whubner diz, a) o modelo de tickets-in-a-box é apenas um exemplo de brinquedo para evitar que "isso é coisa de pós-graduação"; b) evita chamar de "população" os ingressos em uma caixa e explica o motivo. Portanto, não há contradição . Se alguém puder entender o que whubner disse. BTW, eu não sou uma variável aleatória, é você?

— Sergio

IMHO, é claro.

— Sergio

2

Não vou aborrecê-lo com definições e fórmulas probabilísticas, que você pode facilmente encontrar em qualquer livro (ou aqui é um bom lugar para começar)

$i.i.d.$ sample é um caso especial de amostra aleatória, de modo que todo valor vem da mesma distribuição que os outros e seu valor não tem influência sobre outros valores. Independência lida com $how$ os valores foram gerados

$i.i.d$ exemplo: compre uma carta aleatória de um baralho e devolva-a (faça isso 5 vezes). Você receberá 5 valores realizados (cartões). Cada um desses valores vem de uma distribuição uniforme (há probabilidade igual de obter cada um dos resultados) e cada empate é independente dos outros (ou seja, o fato de você ter um ás de espadas no primeiro empate não influencia de qualquer forma, o resultado que você pode obter em outros sorteios).

não $i.i.d.$ exemplo: Agora faça a mesma coisa, mas sem devolver a carta ao baralho (espero que você preencha a diferença agora). Novamente, você terá 5 valores realizados (cartões) depois de fazer isso. Mas claramente eles são dependentes (o fato de você empatar o ás de espadas no primeiro sorteio significa que você não terá chance de entrar no segundo sorteio).

— Alex Kreimer
fonte

1

Uma variável aleatória normalmente escrita X é uma variável cujos valores possíveis são resultados numéricos de um fenômeno aleatório. O fenômeno aleatório pode produzir resultados que tenham valores numéricos capturados pela variável aleatória - número de cabeças em 10 lançamentos de uma moeda ou renda / altura etc. em uma amostra - mas isso não é necessário.
Geralmente, uma variável aleatória é uma função que mapeia resultados aleatórios para valores numéricos. Por exemplo, cada dia pode estar ensolarado, nublado ou chuvoso. Podemos definir uma variável aleatória que assume o valor 1 se estiver chuvoso, 2 se estiver nublado e 3 se estiver ensolarado. O domínio de uma variável aleatória é o conjunto de resultados possíveis.
Para estabelecer uma variável aleatória, deve haver um processo ou experimento associado a possíveis resultados que não podem ser previstos com certeza.

Chegando agora à questão da independência. Duas variáveis aleatórias são independentes se o valor de uma delas não afetar o PDF da outra. Não revisamos nossas previsões em relação às probabilidades de diferentes valores de uma variável quando sabemos algo sobre a outra variável. Portanto, no caso de independência, os PDFs posteriores são idênticos aos PDFs anteriores. Por exemplo, quando jogamos uma moeda imparcial repetidamente, as informações que temos sobre o resultado dos 5 lançamentos anteriores não afetam nossa previsão sobre o lançamento atual, sempre será 0,5. No entanto, se o viés da moeda é desconhecido e é modelado como uma Variável aleatória, o resultado dos 5 lançamentos anteriores afeta nossas previsões sobre o sorteio atual, pois permite fazer inferências sobre o viés desconhecido da moeda.

Chegando agora à questão da amostragem. O objetivo do Sampling é nos informar sobre as propriedades de uma distribuição subjacente que não é conhecida e deve ser inferida. Lembre-se de que uma Distribuição se refere à probabilidade relativa de possíveis resultados no Espaço de Amostra (que também pode ser um Universo Condicional). Portanto, quando amostramos, escolhemos um número finito de resultados no espaço Amostra e reproduzimos o Espaço amostral em uma escala menor e mais gerenciável. Probabilidade igual refere-se ao processo de amostragem e não à probabilidade dos resultados da amostra. A amostragem com probabilidade igual implica que a amostra refletirá as proporções dos resultados no espaço amostral original. Por exemplo, se perguntarmos 10, 000 pessoas, se alguma vez foram presas, é provável que a amostra que acabamos não seja representativa da População - o Espaço da Amostra - já que as pessoas que teriam sido presas podem se recusar a responder, portanto, a proporção de possíveis resultados (preso - não preso) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra. portanto, a proporção de possíveis resultados (presos - não presos) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra. portanto, a proporção de possíveis resultados (presos - não presos) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra.

— rf7
fonte

-2

Uma amostra aleatória é a realização de uma sequência de variáveis aleatórias. Essas variáveis aleatórias podem ser iid ou não.

— mohsen
fonte