Resumo do CEO
A história é muito mais longa e mais complicada do que muitas pessoas pensam.
Sumário executivo
A história do que Tukey chamou de plotagem de caixas está complicada com a do que agora é chamado de plotagem de pontos ou faixas (dezenas de outros nomes) e com representações da função empírica quantil.
Os gráficos de caixas em formas amplamente atuais são mais conhecidos através do trabalho de John Wilder Tukey (1970, 1972, 1977).
Mas a idéia de mostrar a mediana e os quartis como resumos básicos - juntos, muitas vezes, mas nem sempre, com pontos mostrando todos os valores - remonta pelo menos aos diagramas de dispersão (muitos nomes de variantes) introduzidos pelo geógrafo Percy Robert Crowe (1933). Essas eram as receitas básicas dos geógrafos e usadas em muitos livros didáticos e em artigos de pesquisa a partir do final da década de 1930.
Bibby (1986, pp.56, 59) fez referências ainda anteriores a idéias semelhantes ensinadas por Arthur Lyon Bowley (mais tarde Sir Arthur) em suas palestras sobre 1897 e a sua recomendação (Bowley, 1910, p.62; 1952, p.73). ) para usar os valores mínimo e máximo e 10, 25, 50, 75 e 90% como base para o resumo gráfico.
Barras de alcance mostrando extremos e quartis são frequentemente atribuídos a Mary Eleanor Spear (1952), mas na minha leitura poucas pessoas citam Kenneth W. Haemer (1948). Os artigos de Haemer sobre gráficos estatísticos no Estatístico Americano, por volta de 1950, foram inventivos e têm mordida crítica e continuam valendo a pena reler. (Muitos leitores poderão acessá-los através do jstor.org.) Por outro lado, os livros de Spear (Spear 1969 é uma reformulação) eram acessíveis e sensatos, mas deliberadamente introdutórios, em vez de inovadores ou acadêmicos.
Variantes de gráficos de caixas nas quais os bigodes se estendem a percentis selecionados são mais comuns do que muitas pessoas parecem pensar. Novamente, parcelas equivalentes foram usadas pelos geógrafos a partir da década de 1930.
O que é mais original na versão de Tukey dos gráficos de caixas é, antes de tudo, critérios para identificar pontos nas caudas a serem plotadas separadamente e identificadas como merecedoras de consideração detalhada - e frequentemente sinalizando que uma variável deve ser analisada em uma escala transformada. Sua regra de ouro de 1,5 IQR surgiu apenas após muita experimentação. Em algumas mãos, ele sofreu uma regra rígida para excluir pontos de dados, que nunca foi a intenção de Tukey. Um nome enérgico e memorável - enredo de caixa - não causou danos ao garantir um impacto muito mais amplo dessas idéias. O diagrama de dispersão, ao contrário, é um termo monótono e sombrio.
A lista bastante longa de referências aqui é, possivelmente contrária às aparências, não pretendendo ser exaustiva. O objetivo é apenas fornecer documentação para alguns precursores e alternativas do gráfico da caixa. Referências específicas podem ser úteis para consultas detalhadas ou se estão perto do seu campo. Por outro lado, aprender sobre práticas em outros campos pode ser salutar. A experiência gráfica - e não apenas cartográfica - dos geógrafos tem sido subestimada.
Mais detalhes
As plotagens híbridas de caixas de pontos foram usadas por Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse e Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond e McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild e Seber (2000), Quinn e Keough (2002), Young et al. (2006) e Hendry e Nielsen (2007) e muitos outros. Veja também Miller (1953, 1964).
O desenho de bigodes para percentis específicos, em vez de para pontos de dados em tantos IQR dos quartis, foi enfatizado por Cleveland (1985), mas antecipado por Matthews (1936) e Grove (1956) que plotaram a faixa interótil, ou seja, entre o primeiro e o sétimo octil, bem como o alcance e o alcance interquartil. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt e Johnson (2009, 2011) e Davino et al. (2014) apresentaram médias e mínimos, quartis, mediana e máximo. Schmid (1954) mostrou gráficos resumidos com mediana, quartis e 5 e 95% pontos. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) e Motulsky (2010, 2014, 2018) plotaram os bigodes para 5 e 95%. Morgan e Henrion (1990, pp.221, 241), Spence (2001, p.36) e Gotelli e Ellison (2004, 2013, pp.72, 110, 213, 416) bigodes plotados para 10% e 90% pontos. Harris (1999) mostrou exemplos de 5 e 95% e 10 e 90% de pontos. Altman (1991, pp.34, 63) e Greenacre (2016) atribuíram os bigodes a 2,5% e 97,5%. Reimann et al. (2008, pp.46-47) plotaram os bigodes para 5% e 95% e 2% e 98% pontos.
Parzen (1979a, 1979b, 1982) caixa hibridizada e plotagens de quantis como plotagens de caixas de quantil. Veja também (por exemplo) Shera (1991), Militký e Meloun (1993), Meloun e Militký (1994). Note, no entanto, que o gráfico de caixa quantil de Keen (2010) é apenas um gráfico de caixa com bigodes que se estendem até os extremos. Em contraste, os gráficos de caixas quantílicas do JMP são evidentemente gráficos de caixas com marcas de 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: ver Sall et al. (2014, p.143-4).
Aqui estão algumas notas sobre variantes de gráficos de caixas quantílicas.
pp , 1 - p-p , 1 - p
p , 1 - p
Pela literatura vista por mim, parece que nenhum desses tópicos - gráficos de caixas quantílicas ou as variantes posteriores (A) (B) (C) - se citam.
!!! em 3 de outubro de 2018, é necessário fornecer detalhes para algumas referências na próxima edição.
Altman, DG 1991.
Estatística Prática em Pesquisa Médica.
Londres: Chapman e Hall.
Bentley, JL 1985. Programming pearls: Selection.
Comunicações do ACM 28: 1121-1127.
Bentley, JL 1988.
Mais pérolas de programação: Confissões de um codificador.
Reading, MA: Addison-Wesley.
Bibby, J. 1986.
Notas para uma história do ensino de estatística.
Edimburgo: John Bibby (Livros).
Bowley, AL 1910.
Um Manual Elementar de Estatística.
Londres: Macdonald e Evans. (sétima edição 1952)
Cleveland, WS 1985. Elementos de representação gráfica de dados.
Monterey, CA: Wadsworth.
Crowe, PR 1933. A análise da probabilidade de precipitação: Um método gráfico e sua aplicação a dados europeus.
Revista Geográfica Escocesa 49: 73-91.
Crowe, PR 1936. O regime de chuvas das planícies ocidentais.
Revisão Geográfica 26: 463-484.
Davis, JC 2002.
Estatística e Análise de Dados em Geologia.
Nova York: John Wiley.
Dickinson, GC 1963.
Mapeamento Estatístico e Apresentação de Estatística.
Londres: Edward Arnold. (segunda edição 1973)
Dury, GH 1963.
East Midlands e Peak.
Londres: Thomas Nelson.
Agricultor, BH 1956. Precipitação e abastecimento de água na Zona Seca do Ceilão. In Steel, RW e CA Fisher (eds)
Geographic Essays on British Tropical Lands.
Londres: George Philip, 227-268.
Gregory, S. 1963. Métodos Estatísticos e o Geógrafo.
Londres: Longmans. (edições posteriores 1968, 1973, 1978; editora posteriormente Longman)
Grove, AT 1956. Erosão do solo na Nigéria. In Steel, RW e CA Fisher (eds)
Geographic Essays on British Tropical Lands.
Londres: George Philip, 79-111.
Haemer, KW 1948. Gráfico de barras.
American Statistician 2 (2): 23.
Hendry, DF e B. Nielsen. 2007.
Modelagem Econométrica: Uma Abordagem de Verossimilhança.
Princeton, NJ: Princeton University Press.
Hogg, WH 1948. Diagramas de dispersão das chuvas: uma discussão sobre suas vantagens e desvantagens.
Geografia 33: 31-37.
Ibrekk, H. e MG Morgan. 1987. Comunicação gráfica de quantidades incertas a pessoas não técnicas.
Análise de risco 7: 519-529.
Johnson, BLC 1975.
Bangladesh. Londres: Heinemann Educational.
Keen, KJ 2010.
Gráficos para Estatística e Análise de Dados com R.
Boca Raton, FL: CRC Press. (2ª edição 2018)
Lewis, CR 1975. A análise das mudanças no status urbano: um estudo de caso em Mid-Wales e na média região de Gales.
Transações do Institute of British Geographers
64: 49-65.
Martinez, WL, AR Martinez e JL Solka. 2011.
Análise Exploratória de Dados com MATLAB.
Boca Raton, FL: CRC Press.
Matthews, HA 1936. Uma nova visão de algumas chuvas familiares indianas.
Revista Geográfica Escocesa 52: 84-97.
Matthews, JA 1981.
Abordagens quantitativas e estatísticas da geografia: um manual prático.
Oxford: Pergamon.
Meloun, M. e J. Militký. 1994. Tratamento de dados assistido por computador em quimiometria analítica. I. Análise exploratória de dados univariados.
Chemical Papers 48: 151-157.
Militký, J. e M. Meloun. 1993. Algumas ajudas gráficas para análise de dados exploratória univariada.
Analytica Chimica Acta 277: 215-221.
Miller, AA 1953.
A pele da terra.
Londres: Methuen. (2ª edição 1964)
Monkhouse, FJ e HR Wilkinson. 1952.
Mapas e diagramas: sua compilação e construção.
Londres: Methuen. (edições posteriores 1963, 1971)
Morgan, MG e M. Henrion. 1990.
Incerteza: Um guia para lidar com a incerteza na análise quantitativa de riscos e políticas.
Cambridge: Cambridge University Press.
Myatt, GJ 2007.
Compreendendo os dados: um guia prático para análise de dados exploratórios e mineração de dados.
Hoboken, NJ: John Wiley.
Myatt, GJ e Johnson, WP 2009.
Compreendendo os dados II: Um guia prático para visualização de dados, métodos avançados de mineração de dados e aplicativos.
Hoboken, NJ: John Wiley.
Myatt, GJ e Johnson, WP 2011.
Compreendendo os dados III: um guia prático para projetar visualizações interativas de dados.
Hoboken, NJ: John Wiley.
Ottaway, B. 1973. Diagramas de dispersão: uma nova abordagem para a exibição de datas de carbono-14.
Arqueometria 15: 5-12.
Parzen, E. 1979a. Modelagem de dados estatísticos não paramétricos.
Journal, American Statistical Association 74: 105-121.
Parzen, E. 1979b. Uma perspectiva de função quantil-densidade em estimativas robustas. Em Launer, RL e GN Wilkinson (eds) Robustness in Statistics.
Nova York: Academic Press, 237-258.
Parzen, E. 1982. Modelagem de dados usando funções quantil e densidade-quantil. Em Tiago de Oliveira, J. e Epstein, B. (eds)
Alguns Avanços Recentes em Estatística.Londres: Academic Press, 23-52.
Quinn, GP e MJ Keough. 2002.
Projeto Experimental e Análise de Dados para Biólogos.
Cambridge: Cambridge University Press.
Reimann, C., P. Filzmoser, RG Garrett e R. Dutter. 2008.
Análise Estatística de Dados Explicada: Estatística Ambiental Aplicada com R.
Chichester: John Wiley.
Sall, J., A. Lehman, M. Stephens e L. Creighton. 2014.
JMP Start Statistics: Um Guia para Estatística e Análise de Dados Usando o JMP.
Cary, NC: Instituto SAS.
Shera, DM 1991. Alguns usos de gráficos quantílicos para melhorar a apresentação dos dados.
Ciência da Computação e Estatística 23: 50-53.
Spear, ME 1952. Estatística de gráficos.
Nova York: McGraw-Hill.
Spear, ME 1969. Técnicas práticas de gráficos.
Nova York: McGraw-Hill.
Tukey, JW 1970.
Análise exploratória de dados. Edição Preliminar Limitada. Volume I.
Reading, MA: Addison-Wesley.
Tukey, JW 1972. Alguns displays gráficos e semi-gráficos. Em Bancroft, TA e Brown, SA (eds)
Statistical Papers, em homenagem a George W. Snedecor.
Ames, IA: Iowa State University Press, 293-316. (também acessível em http://www.edwardtufte.com/tufte/tukey )
Tukey, JW 1977.
Análise Exploratória de Dados.
Reading, MA: Addison-Wesley.
Wild, CJ e GAF Seber. 2000.
Chance Encounters: Um Primeiro Curso em Análise de Dados e Inferência.
Nova York: John Wiley.