O que você conclui sobre se os dados são IID vem de informações externas, não dos dados em si. Você, como cientista, precisa determinar se é razoável assumir o IDI dos dados com base em como os dados foram coletados e outras informações externas.
Considere alguns exemplos.
Cenário 1: Geramos um conjunto de dados independentemente de uma única distribuição que é uma mistura de 2 normais.
Cenário 2: primeiro geramos uma variável de gênero a partir de uma distribuição binomial; depois, entre homens e mulheres, geramos dados independentemente de uma distribuição normal (mas os normais são diferentes para homens e mulheres); depois, excluímos ou perdemos as informações de gênero.
No cenário 1, os dados são IID e, no cenário 2, os dados claramente não são distribuídos de forma idêntica (distribuições diferentes para homens e mulheres), mas as 2 distribuições para os 2 cenários são indistinguíveis dos dados, você precisa saber sobre como os dados foi gerado para determinar a diferença.
Cenário 3: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas da cidade.
Cenário 4: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas no país.
No cenário 3, os sujeitos seriam considerados independentes (amostra aleatória simples da população de interesse), mas no cenário 4 eles não seriam considerados independentes porque foram selecionados de um pequeno subconjunto da população de interesse e a proximidade geográfica provavelmente imporia dependência. Mas os 2 conjuntos de dados são idênticos, é a maneira que pretendemos usar os dados que determinam se eles são independentes ou dependentes neste caso.
Portanto, não há como testar usando apenas os dados para mostrar que os dados são IDI, plotagens e outros diagnósticos podem mostrar alguns tipos de IDI, mas a falta deles não garante que os dados sejam IDI. Você também pode comparar com suposições específicas (o IDI normal é mais fácil de contestar do que apenas o IDI). Qualquer teste ainda é apenas uma regra, mas a falha em rejeitá-lo nunca prova que é um IDI.
É necessário tomar decisões sobre se você deseja assumir que as condições da IID são mantidas com base na ciência de como os dados foram coletados, como se relacionam com outras informações e como serão usados.
Editar% s:
Aqui está outro conjunto de exemplos para não idênticos.
Cenário 5: os dados são residuais de uma regressão em que há heterocedasticidade (as variações não são iguais).
Cenário 6: os dados são de uma mistura de normais com média 0, mas variâncias diferentes.
No cenário 5, podemos ver claramente que os resíduos não são distribuídos de forma idêntica se plotamos os resíduos contra valores ajustados ou outras variáveis (preditores ou preditores de potencial), mas os próprios resíduos (sem as informações externas) seriam indistinguíveis do cenário 6.