Teste de distribuição bimodal


30

Gostaria de saber se existe algum teste estatístico para "testar" o significado de uma distribuição bimodal. Quero dizer, quanto meus dados atendem à distribuição bimodal ou não? Em caso afirmativo, existe algum teste no programa R?


3
Você não encontrou uma resposta pesquisando em nosso site ? Se não, o que está faltando?
whuber

7
Existem testes de bimodalidade ou multimodalidade, mas eles tendem a ser unilaterais. Ou seja, você pode concluir coisas como "há mais de um modo", mas não pode dizer "há menos de três modos" - você pode obter limites mais baixos no número de modos, mas não pode realmente obter limites superiores porque pode ser encontrada uma distribuição multimodal com qualquer número de modos arbitrariamente próximo a uma distribuição com qualquer número menor de modos. Vou ver se consigo descobrir alguns testes ou referências explícitos.
Glen_b -Reinstala Monica

4
A página da wikipedia sobre distribuição bimodal lista oito testes de multimodalidade contra a unimodalidade e fornece referências para sete deles. Não tenho certeza se há algum em R. vou procurar.
Glen_b -Reinstala Monica

Respostas:


17

Outra abordagem possível para esse problema é pensar no que pode estar acontecendo nos bastidores que está gerando os dados que você vê. Ou seja, você pode pensar em termos de um modelo de mistura , por exemplo, um modelo de mistura gaussiano. Por exemplo, você pode acreditar que seus dados são extraídos de uma única população normal ou de uma mistura de duas distribuições normais (em alguma proporção), com diferentes médias e variações. Obviamente, você não precisa acreditar que existem apenas um ou dois, nem que as populações das quais os dados são extraídos precisam ser normais.

Existem (pelo menos) dois pacotes R que permitem estimar modelos de mistura. Um pacote é o flexmix e o outro é o mclust . Tendo estimado dois modelos candidatos, acredito que seja possível realizar um teste de razão de verossimilhança. Como alternativa, você pode usar o método de ajuste cruzado de inicialização paramétrica ( pdf ).


Oi @gung, para o método de ajuste cruzado de inicialização paramétrica, como você definiria o critério ideal em relação à distribuição bimodal? Pode haver um caso em que duas distribuições concorrentes se cruzam em dois pontos. O que deve ser feito nesse caso?
precisa saber é o seguinte

32

Como mencionado nos comentários, a página da Wikipedia sobre 'Distribuição bimodal' lista oito testes de multimodalidade contra a unimodalidade e fornece referências para sete deles.

Há pelo menos alguns em R. Por exemplo:

  1. O pacote diptestimplementa o teste de mergulho de Hartigan.

  2. Os stampdados no bootstrappacote foram usados ​​na Introdução ao Bootstrap de Efron e Tibshirani (o livro no qual o pacote se baseia) para fazer um exemplo relacionado ao bootstrap no número de modos; se você tiver acesso ao livro, poderá usar essa abordagem.

    Efron, B. e Tibshirani, R. (1993) Uma Introdução ao Bootstrap .
    Chapman e Hall, Nova York, Londres.

-

Há uma pergunta no CV que fala sobre identificar (ou seja, estimar em vez de testar) o número de modos que a pesquisa do @ whuber aparece. Vale a pena ler as respostas lá. Uma das respostas lá (a minha, por acaso) tem um link para uma pesquisa no Google que mostra este artigo de David Donoho sobre a construção de ICs unilaterais para o número de modos, que obviamente podem ser usados ​​como teste (por exemplo, , se o intervalo unilateral não incluir o caso unimodal, você poderá rejeitar a unimodalidade). Que eu saiba que não éum dos testes mencionados pela Wikipedia. Eu não acho que exista uma implementação R desse intervalo, mas (apesar do fato de Donoho tender a usar ferramentas bastante sofisticadas em sua discussão), na verdade, é uma idéia bastante simples de implementar. Essa ideia está diretamente relacionada à noção de uso da estimativa de densidade do kernel.


Esse é um trabalho valioso.
Rolando2
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.