Avaliando o significado das diferenças nas distribuições


22

Eu tenho dois grupos de dados. Cada um com uma distribuição diferente de várias variáveis. Estou tentando determinar se as distribuições desses dois grupos são diferentes de uma maneira estatisticamente significativa. Eu tenho os dados na forma bruta e agrupados de maneira mais fácil para lidar com categorias discretas com contagens de frequência em cada uma.

Quais testes / procedimentos / métodos devo usar para determinar se esses dois grupos são ou não significativamente diferentes e como faço isso no SAS ou R (ou Orange)?


2
Você está interessado em saber se as distribuições são de uma forma diferente (por exemplo, normal, poisson etc.) ou se os parâmetros são diferentes (por exemplo, média ou sd de uma distribuição normal) ou ambos?
precisa saber é o seguinte

Respostas:


15

Acredito que isso exige um teste de duas amostras de Kolmogorov – Smirnov , ou algo semelhante. O teste Kolmogorov – Smirnov de duas amostras é baseado na comparação de diferenças nas funções de distribuição empírica (ECDF) de duas amostras, o que significa que é sensível à localização e ao formato das duas amostras. Também generaliza para um formulário multivariado.

Este teste é encontrado de várias formas em diferentes pacotes no R; portanto, se você é basicamente proficiente, tudo o que você precisa fazer é instalar um deles (por exemplo, fBasics ) e executá-lo nos dados de amostra.


5
Para R ks.test, o pacote "stats" padrão pode realizar o teste KS sem instalar pacotes adicionais.
russellpierce

No SAS, o teste KS está disponível em proc npar1way. Em R, além de ks.test(), há o nortestpacote que fornece vários outros testes de ajuste.
chl

8

Vou fazer a pergunta idiota do consultor. Por que você quer saber se essas distribuições são diferentes de maneira estatisticamente significativa?

Os dados que você está usando são amostras representativas de populações ou processos e você deseja avaliar a evidência de que essas populações ou processos diferem? Nesse caso, um teste estatístico é adequado para você. Mas isso parece uma pergunta estranha para mim.

Ou você está interessado em saber se realmente precisa se comportar como se essas populações ou processos fossem diferentes, independentemente da verdade? Então, será melhor determinar uma função de perda, idealmente uma que retorne unidades que sejam significativas para você, e prever a perda esperada quando você (a) trata as populações como diferentes e (b) as trata como iguais. Ou você pode escolher algum quantil da distribuição de perdas se quiser adotar uma posição mais ou menos conservadora.


Seu tom é um pouco sarcástico e condescendente ... mas você está certo, acho que realmente estava procurando se eu podia ou não assumir razoavelmente que as duas distribuições são iguais.
Jay Stevens

3
Desculpe por você não gostar do meu tom. Se você quiser saber se é razoável supor que as duas distribuições são iguais, o KS o enganará, porque testa a hipótese nula de que as duas distribuições são iguais.
Andrew Robinson

5

Você pode estar interessado em aplicar métodos de distribuição relativa. Chame um grupo para o grupo de referência e o outro para o grupo de comparação. De maneira semelhante à construção de um gráfico de probabilidade-probabilidade, é possível construir um CDF / PDF relativo, que é uma razão das densidades. Essa densidade relativa pode ser usada para inferência. Se as distribuições forem idênticas, você espera uma distribuição relativa uniforme. Existem ferramentas, gráficas e estatísticas, para explorar e examinar desvios da uniformidade.

Um bom ponto de partida para entender melhor é a aplicação de métodos de distribuição relativa em R e o pacote reldist em R. Para obter detalhes, você precisará consultar o livro Métodos de distribuição relativa em ciências sociais, de Handcock e Morris. Há também um artigo dos autores abordando as técnicas relevantes.


2

Uma medida da diferença entre duas distribuições é o critério de "máxima discrepância média máxima", que basicamente mede a diferença entre as médias empíricas das amostras das duas distribuições em um espaço de reprodução do núcleo de Hilbert (RKHS). Consulte este documento "Um método do kernel para o problema de duas amostras" .


Esse método é mais robusto na minha opinião, mas não é bem conhecido, pois funciona igualmente bem se você tiver amostra finita para sua distribuição (e, portanto, suas distribuições de amostra não são totalmente contínuas). Ele também trabalha com distribuições multinomiais que, para um teste KS, ainda são pesquisas ativas, tanto quanto eu sei
www3

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.