Fringeliers parece ser definido como um tipo menos extremo de discrepância. Ou seja, dados à margem da distribuição.
Por exemplo, se você definir um ponto de corte para os valores discrepantes, as franjas podem ser operacionalizadas para serem os valores que estão próximos aos lados do ponto de corte (por exemplo, para um ponto de corte de 3 pontos percentuais, entre 2,7 e 3,3 pontos da média).
Osborne e Overbay (2008) escrevem o seguinte:
Embora as definições variem, um outlier é geralmente considerado um ponto de dados que está muito fora da norma para uma variável ou população (por exemplo, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) descreveu um outlier como uma observação que "se desvia tanto de outras observações que suscita suspeitas de que ela foi gerada por um mecanismo diferente" (p. 1). Outliers também foram definidos como valores “duvidosos aos olhos do pesquisador” (Dixon, 1950, p. 488) e contaminantes (Wainer, 1976).
E então introduza o termo "fringelier" de Wainer (1976)
Wainer (1976) também introduziu o conceito de "fringelier", referindo-se a "eventos incomuns que ocorrem com mais frequência do que raramente" (p. 286). Esses pontos se aproximam de três desvios-padrão da média e, portanto, podem ter uma influência desproporcionalmente forte nas estimativas de parâmetros, mas não são tão óbvios ou facilmente identificados quanto os outliers comuns, devido à sua proximidade relativa ao centro de distribuição.
Alguns exemplos:
Em alguns contextos, os valores discrepantes sugerem que os dados são inválidos. Por exemplo, se a altura de um homem é registrada como 8 pés de altura (digamos, 6,5 DP acima da média), essa provavelmente é uma medida inválida. Por outro lado, se a altura de alguém é registrada como 6 pés 10 polegadas de altura (3 DP acima da média - uma franja), essa pode ser uma medida válida, mas igualmente, pode sugerir um problema com a medida, pois isso é bastante raro. A questão é que determinar se um valor é inválido fica mais difícil, menos extremo ele se torna.
Em outros contextos, os valores discrepantes são uma preocupação, pois exercem uma influência excessiva nas estimativas de parâmetros, principalmente ao usar métodos estatísticos padrão, usando mínimos quadrados e assim por diante. Assim, as franjas podem ter maior impacto do que na maioria dos casos, mas as decisões sobre a retenção ou não dos dados para fins de modelagem podem ser menos claras.
Referências
- Osborne, J. & Overbay, A. (2008). Práticas recomendadas para limpeza de dados: como os outliers e "franjas" podem aumentar as taxas de erro e diminuir a qualidade e a precisão dos seus resultados. Em Osborne, J. Melhores práticas em métodos quantitativos (pp. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
- Wainer, H.Robust statistics: Uma pesquisa e algumas prescrições1 (4) 285-312 (1976).