'Outlier' é um termo conveniente para a coleta de dados que não se encaixa no que você espera que seu processo pareça, a fim de remover da análise.
Eu sugeriria nunca (ressaltar mais tarde) remover os outliers. Minha formação é em controle estatístico de processos, geralmente lida com grandes volumes de dados de séries temporais gerados automaticamente, que são processados usando um gráfico de execução / gráfico de caixa móvel / etc., dependendo dos dados e da distribuição.
O problema dos outliers é que eles sempre fornecerão informações sobre o seu 'processo'. Muitas vezes, o que você pensa como um processo é na verdade muitos processos e é muito mais complexo do que você acredita.
Usando o exemplo da sua pergunta, eu sugeriria que poderia haver vários 'processos'. haverá variação devido a ...
- amostras colhidas por um dispositivo de condutância
- amostras colhidas entre dispositivos de condutância
- quando o sujeito removeu uma sonda
- quando o assunto mudou
- diferenças na pele de um indivíduo em todo o corpo ou entre diferentes dias de amostragem (cabelos, umidade, óleo, etc.)
- diferenças entre sujeitos
- o treinamento da pessoa que faz as medições e variações entre funcionários
Todos esses processos produzirão variações extras nos dados e provavelmente moverão a média e mudarão a forma da distribuição. Muitos deles não serão capazes de separar em processos distintos.
Então, com a idéia de remover pontos de dados como 'outliers' ... eu removeria apenas os pontos de dados, quando definitivamente puder atribuí-los a um 'processo' específico que não quero incluir na minha análise. Você precisa garantir que os motivos da não inclusão sejam registrados como parte de sua análise, por isso é óbvio. Não assuma a atribuição, é a coisa mais importante sobre como fazer anotações extras por meio da observação durante sua coleta de dados.
Eu desafiaria sua afirmação 'porque a maioria deles são erros de qualquer maneira', pois não são erros, mas apenas parte de um processo diferente que você identificou nas suas medidas como sendo diferente.
No seu exemplo, acho razoável excluir pontos de dados que você pode atribuir a um processo separado que não deseja analisar.