Eu tenho alguns dados discrepantes nos meus dados e queria excluí-los para ver se isso altera os resultados. Na sua opinião, qual é o número máximo de discrepantes aos quais se deve restringir?
Obrigado!
Eu tenho alguns dados discrepantes nos meus dados e queria excluí-los para ver se isso altera os resultados. Na sua opinião, qual é o número máximo de discrepantes aos quais se deve restringir?
Obrigado!
Respostas:
Não há máximo ou mínimo. Os discrepantes devem ser removidos se forem dados incorretos ou se houver outras razões substanciais para removê-los. Se não houver razões substanciais, sugiro o uso de métodos robustos a discrepâncias. Eu não removeria valores discrepantes apenas porque estão um pouco longe de outros pontos.
Eu enfatizaria algo que foi dito em outra resposta e comentários (acho que as respostas de Peter Flom são precisas e que EdM está certo sobre as medidas, entre todas).
Analisar dados é algo que deve ser feito com cuidado. Você deve estar muito ciente do significado dos valores discrepantes no seu contato. Por exemplo, supondo que seu procedimento de medição tenha sido realizado "corretamente" (quero dizer, você não introduziu vieses, seu equipamento foi calibrado, a pessoa que estava lendo o instrumento fez isso corretamente etc.), alguns discrepantes podem dizer algo interessante e às vezes muito importante.
Aqui está um exemplo inventado, por favor, seja indulgente (aponte-os nos comentários) se não estiver 100% correto em todos os aspectos. ;)
Diga que alguém está testando o efeito de aplicar uma certa quantidade de uma substância em algumas culturas (populações) de bactérias. Agora, "em geral", o efeito é estabilizar o número de bactérias na população, mas existem alguns valores discrepantes entre as diferentes culturas.
Imagine todos os seus valores extremos indicam situações em que todas as bactérias estão mortas. Ou que todos os valores extremos representam culturas em que as populações de bactérias cresceram fora de controle.
O que quero salientar é que a natureza de seus discrepantes percebidos pode ser significativa e as consequências de cada um são diferentes. Você pode estar em uma situação em que é intolerável que o número de bactérias aumente ou diminua.
Obviamente, se você notou que algumas populações foram destruídas pela substância, provavelmente investigaria o assunto, pois é uma situação facilmente reconhecível. Mas nem todos os fenômenos são facilmente detectáveis.
Para finalizar, a noção de outliers é um tanto arbitrária, mas seus significados são múltiplos e de importância diferente. Espero que isso faça você pensar sobre o assunto ... :)