Essa é uma área em que há um pouco de inconsistência na terminologia que tem o efeito infeliz de confundir algumas discussões estatísticas. O conceito de " inlier ""é geralmente usado para se referir a um valor de dados que está com erro (isto é, sujeito a erro de medição), mas está no" interior "da distribuição dos valores medidos corretamente. Por essa definição, o interno tem dois aspectos: (1 ) está no interior da distribuição relevante de valores e (2) é um valor errôneo.Em contrapartida, a noção correspondente de um "outlier" geralmente é usada para se referir a qualquer valor de dados que esteja muito distante do resultado. distribuição, mas sem nenhum aspecto definitivo, assumindo que está errado. Essa terminologia gera uma inconsistência infeliz, em que um "inlier" é um ponto de dados incorreto (por definição), mas um "outlier" não é necessariamente um ponto de dados errôneo. sob essa terminologia, a união de "inliers" e "outliers"não corresponde a todos os dados ou mesmo a todos os dados errados.
Lidando com discrepantes: discuti sobre lidar com discrepantes em outras questões aqui e aqui , mas por conveniência, repetirei algumas dessas observações aqui. Outliers são pontos distantes da maioria dos outros pontos de uma distribuição, e o diagnóstico de um "outlier" é feito pela comparação do ponto de dados com alguma forma distributiva assumida. Embora ocasionalmente possa ser causado um erro de medição, os outliers também podem ocorrer quando os dados seguem uma distribuição com alta curtose (ou seja, caudas gordas), mas o analista compara os pontos de dados com uma forma distributiva assumida com baixa curtose (por exemplo, distribuição normal).
A sinalização de "outliers" em testes outlier realmente significa apenas que a distribuição do modelo que você está usando não possui caudas suficientemente gordas para representar com precisão os dados observados. Isso pode ocorrer porque alguns dos dados contêm erro de medição ou podem ser apenas de uma distribuição com caudas gordas. A menos que haja alguma razão para pensar que o desvio da forma de modelo assumida constitui evidência de erro de medição (o que exigiria uma base teórica para a suposição distributiva), a presença de discrepantes geralmente significa que você deve alterar seu modelo para usar uma distribuição mais caudas. É inerentemente difícil distinguir entre erro de medição e alta curtose que faz parte da distribuição subjacente.
Lidar com inliers (que geralmente geralmente não envolve lidar com eles): A menos que você tenha uma fonte de informação externa indicando erro de medição, é essencialmente impossível identificar "inliers". Por definição, esses são pontos de dados que estão no "interior" da distribuição, onde ocorre a maioria dos outros dados. Portanto, não é detectado por testes que procuram dados que são uma "aberração" dos outros pontos de dados. (Em alguns casos, é possível detectar "inliers" que parecem estar no interior de uma distribuição, mas na verdade são "outliers" quando usados em relação a uma representação mais complexa da distribuição. Nesse caso, o ponto é realmente um outlier,
Em alguns casos raros, você pode ter uma fonte externa de informações que identifica um subconjunto de seus dados como sujeito a erro de medição (por exemplo, se você estiver realizando uma grande pesquisa e descobrir que um de seus pesquisadores estava apenas inventando seus dados ) Nesse caso, quaisquer pontos de dados nesse subconjunto que estão no interior da distribuição são "inliers" e são conhecidos por informações externas por estarem sujeitos a erro de medição. Nesse caso, você geralmente removeria todos os dados errôneos, mesmo que alguns deles sejam "inliers" que estão no interior da distribuição onde você espera que estejam. O ponto aqui é que um ponto de dados pode estar errado, mesmo que não esteja nos detalhes da distribuição.