Exemplos da vida real de distribuições com assimetria negativa


20

Inspirado em " exemplos da vida real de distribuições comuns ", pergunto-me que exemplos pedagógicos as pessoas usam para demonstrar distorção negativa? Existem muitos exemplos "canônicos" de distribuições simétricas ou normais usadas no ensino - mesmo que aqueles como altura e peso não sobrevivam a um exame biológico mais próximo! A pressão arterial pode estar mais próxima da normalidade. Gosto de erros de medição astronômicos - de interesse histórico, intuitivamente, eles não têm mais probabilidade de estar em uma direção do que em outra, com pequenos erros mais prováveis ​​que grandes.

Exemplos pedagógicos comuns para distorção positiva incluem a renda das pessoas; quilometragem em carros usados ​​para venda; tempos de reação em um experimento de psicologia; Preços de casas; número de sinistros por um cliente de seguro; número de filhos em uma família. Sua razoabilidade física geralmente decorre de ser delimitada abaixo (geralmente por zero), com valores baixos sendo plausíveis, até comuns, mas valores muito grandes (às vezes com ordens de magnitude mais altas) são bem conhecidos.

Para desvios negativos, acho mais difícil dar exemplos inequívocos e vívidos que um público mais jovem (estudantes do ensino médio) possa captar intuitivamente, talvez porque menos distribuições da vida real tenham um limite superior claro. Um exemplo de mau gosto que me ensinaram na escola foi "número de dedos". A maioria das pessoas tem dez, mas algumas perdem um ou mais em acidentes. O resultado foi "99% das pessoas têm um número de dedos acima da média"! Polidactilia complica a questão, pois dez não é um limite superior estrito; como dedos ausentes e extras são eventos raros, pode não ser claro para os alunos qual efeito predomina.

Eu costumo usar uma distribuição binomial com alta . Porém, os estudantes geralmente acham que "o número de componentes satisfatórios em um lote é inclinado negativamente" menos intuitivo do que o fato complementar de que "o número de componentes defeituosos em um lote é inclinado positivamente". (O livro é com tema industrial; prefiro ovos quebrados e intactos em uma caixa de doze.) Talvez os alunos achem que o "sucesso" deve ser raro.p

Outra opção é apontar que, se é inclinado positivamente, então é inclinado negativamente, mas colocá-lo em um contexto prático ("os preços negativos da casa são inclinados negativamente") parece condenado ao fracasso pedagógico. Embora haja benefícios em ensinar os efeitos das transformações de dados, parece aconselhável dar um exemplo concreto primeiro. Eu preferiria um que não pareça artificial, onde a inclinação negativa é bastante inequívoca e para a qual a experiência de vida dos alunos deve dar-lhes uma consciência da forma da distribuição.XX


4
Não é aparente que negar uma variável seja uma "falha pedagógica", porque existe a opção de adicionar uma constante sem alterar a forma da distribuição. Muitas distribuições distorcidas envolvem proporções por exemplo, e as proporções complementares são geralmente tão naturais e fáceis de interpretar quanto as proporções originais. Mesmo com os preços das casas os valores que é um preço máximo da casa na área podem ser interessantes e não são difíceis de entender. Considere também o uso de logs e transformações de energia negativa para criar inclinação negativa. X1XXCXC
whuber

2
Concordo que o no caso dos preços das casas seria um pouco artificial. ButCX1/X não o faria: seria "quantidade de casa que você pode comprar por dólar". Suspeito que em qualquer área razoavelmente homogênea isso tenha um forte desvio negativo. Tais exemplos podem ensinar a lição mais profunda de que a assimetria é uma função de como expressamos os dados.
whuber

3
@whuber Não seria de todo inventado. Os preços potenciais máximos e mínimos em um mercado surgem naturalmente como aqueles que refletem diferentes avaliações pelos participantes do mercado. Entre os compradores, existe um que pagaria o preço máximo por uma casa. E entre os vendedores, existe um que aceita o preço mínimo. Porém, essas informações não são públicas e, portanto, os preços reais das transações observadas são afetados pela existência de informações incompletas. (CONT'D)
Alecos Papadopoulos

1
CONTINUANDO ... O artigo a seguir de Kumbhakar e Parmeter (2010) modela exatamente isso (permitindo também o caso de simetria) e com uma aplicação no mercado imobiliário
Alecos Papadopoulos,

3
A idade da morte é negativamente distorcida nos países desenvolvidos.
Nick Cox

Respostas:


3

No Reino Unido, preço de um livro. Existe um "preço de varejo recomendado", que geralmente será o preço modal, e praticamente em nenhum lugar você teria que pagar mais. Mas algumas lojas terão descontos e algumas terão descontos consideráveis.

Além disso, idade de aposentadoria. A maioria das pessoas se aposenta aos 65-68 anos, quando a pensão do estado entra em ação, pouquíssimas pessoas trabalham mais, mas algumas se aposentam aos 50 e muitos anos.

Também o número de GCSEs que as pessoas recebem. A maioria das crianças entra 8-10 e, portanto, obtém 8-10. Um pequeno número faz mais. No entanto, algumas crianças não passam em todos os exames, por isso há um aumento constante de 0 a 7.


1
Talvez isso precise de uma explicação de que o GCSE é um exame nas escolas secundárias britânicas e em alguns sistemas relacionados, geralmente realizados aos 16 anos. O número é de disciplinas cursadas, por exemplo, a matemática é geralmente uma disciplina.
Nick Cox

18

Nick Cox comentou com precisão que "a idade da morte é negativamente distorcida nos países desenvolvidos", o que eu pensei que era um ótimo exemplo.

Descobri que os números mais convenientes em que pude colocar as mãos vieram do Australian Bureau of Statistics ( em particular, usei esta planilha do Excel ), já que as faixas etárias deles chegavam a 100 anos e o homem australiano mais velho tinha 111 anos , então eu sentiu-se confortável cortando a lixeira final aos 110 anos. Outras agências nacionais de estatística pareciam frequentemente parar aos 95 anos, o que tornava o escopo final desconfortavelmente amplo. O histograma resultante mostra uma distorção negativa muito clara, bem como algumas outras características interessantes, como um pequeno pico na taxa de mortalidade entre crianças pequenas, o que seria adequado para discussão e interpretação em classe.

Idade de morte de homens australianos em 2012

Seguindo o código R com dados brutos, o HistogramTools pacote se mostrou muito útil para plotagem com base em dados agregados! Obrigado a esta pergunta StackOverflow por sinalizá-la.

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

2
Um pouco relacionado a esse post, ouvi dizer que a idade da aposentadoria tem uma inclinação negativa: a maioria das pessoas se aposenta por volta da idade nominal (digamos, 65 ou 67 em muitos países), mas algumas (digamos, trabalhadores de minas de carvão) se aposentam muito mais cedo.
Christoph Hanck

A idade da morte segue alguma distribuição conhecida empiricamente?
StubbornAtom

11

Aqui estão os resultados para os quarenta atletas que concluíram com sucesso um salto legal na fase de qualificação do salto em distância olímpico masculino de 2012, apresentados em um gráfico de densidade de grãos com um gráfico de tapete embaixo.

Resultados da ronda de qualificação para homens em Jogos Olímpicos de Londres 2012, salto em comprimento

Parece ser muito mais fácil estar um metro atrás do principal grupo de concorrentes do que um metro à frente, o que explicaria a distorção negativa.

Suspeito que alguns dos grupos no topo se devam aos atletas que se qualificam para a qualificação (que exigiu um resultado entre os 12 primeiros ou um resultado de 8,10 metros ou mais), em vez de alcançar a maior distância possível. O fato de os dois primeiros resultados terem 8,11 metros, logo acima da marca de qualificação automática, é altamente sugestivo, assim como os saltos conquistados por medalhas na final foram mais longos e mais distribuídos em 8,31, 8,16 e 8,12 metros. Os resultados na final tiveram uma leve inclinação, não significativa e negativa.

Para efeitos de comparação, os resultados para o Heptathlon Olímpico em Seul 1988 estão disponíveis no heptathlonconjunto de dados no pacote de R HSAUR. Nessa competição, não houve rodada de qualificação, mas cada evento contribuiu com pontos para a classificação final; as competidoras apresentaram distorção negativa pronunciada nos resultados do salto em altura e distorção negativa no salto em distância. Curiosamente, isso não foi replicado nos eventos de lançamento (tiro e dardo), embora também sejam eventos nos quais um número maior corresponde a um resultado melhor. As pontuações dos pontos finais também foram distorcidas de maneira negativa.

Dados e código

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11

Pontuações em testes fáceis ou, alternativamente, pontuações em testes para os quais os alunos são especialmente motivados, tendem a ficar distorcidas.

Como resultado, as pontuações no SAT / ACT de estudantes que ingressam em faculdades procuradas (e mais ainda, seus GPAs) tendem a ficar desequilibradas. Há muitos exemplos em collegeapps.about.com, por exemplo, uma trama da Universidade de Chicago SAT / ACT e GPA está aqui .

Da mesma forma, os GPAs de graduados geralmente são desviados para a esquerda, por exemplo, os histogramas abaixo dos GPAs de graduados brancos e negros de uma universidade com fins lucrativos, extraídos da Fig. 5 de Gramling, Tim. " Como cinco características dos alunos preveem com precisão as chances de conclusão da universidade com fins lucrativos ". SAGE Open 3.3 (2013): 2158244013497026.

Histograma do GPA mostrando inclinação negativa

(Não é difícil encontrar outros exemplos semelhantes.)


2
Para uma aula de estatística introdutória, acho que este exemplo funciona bem pedagogicamente - é algo que os alunos provavelmente têm experiência na vida real, podem raciocinar intuitivamente e confirmar com base em conjuntos de dados amplamente disponíveis.
Silverfish

9

Na Análise de Fronteira Estocástica, e especificamente em seu foco historicamente inicial, a produção, a função de produção de uma empresa / unidade de produção em geral, é especificada estocamente como

q=f(x)+você-W

qf(x)xvocêWdevido a razões que o economista talvez não saiba, mas ele pode medir através dessa configuração. Essa variável aleatória é geralmente assumida como segue uma distribuição sem normal ou exponencial. Assumindo a metade normal (por uma razão), temos

vocêN(0 0,σvocê2),WHN(2πσ2,(1-2π)σ22)

σ2

ε=você-W

fε(ε)=2s2ϕ(ε/s2)Φ((-σ2σvocê)(ε/s2)),s22=σvocê2+σ22

0 0s2(-σ2σvocê)ϕΦσvocê=1,σ2=3insira a descrição da imagem aqui

Assim, a distorção negativa é, eu diria, a modelagem mais natural dos esforços da própria raça humana: sempre se desviando do ideal imaginado - na maioria dos casos, fica atrás dela (a parte negativa da densidade), enquanto em relativamente poucos casos, transcendendo seus limites percebidos (a parte positiva da densidade). Os próprios alunos podem ser modelados como uma função de produção. É simples mapear a perturbação simétrica e o erro unilateral para aspectos da vida real. Não consigo imaginar o quão mais intuitivo alguém pode ser sobre isso.


1
Esta resposta parece ecoar a sugestão de @ Glen_b de graduação GPA. O comportamento humano altamente motivado, voltado para um ideal ilusório, certamente se encaixa nesse cenário! Eficiência em geral é um ótimo exemplo.
Nick Stauner

2
@Nick Stauner O ponto importante aqui é que consideramos "alvo menos real" assinado, não a "distância" em valores absolutos. Mantemos a placa para saber se estamos acima ou abaixo da meta. A intuição aqui é, exatamente como você escreve, que o comportamento "altamente motivado" levará o "real" para mais perto do "alvo", criando assimetria.
Alecos Papadopoulos

1
@NickStauner fato, próprio posto de salto qualificação resultados a longo do Silverfish também se relaciona com 'comportamento altamente motivado' (considerando limites do que os seres humanos podem presentemente alcançar como uma espécie de informal 'ideal evasivo')
Glen_b -Reinstate Monica

6

A inclinação negativa é comum na hidrologia de inundação. Abaixo está um exemplo de uma curva de frequência de inundação (South Creek na Mulgoa Rd, lat -33.8783, lon 150.7683) que tirei de 'Australian Rainfall and Runoff' (ARR), o guia para estimativa de inundações desenvolvido por Engineers, Austrália.

Há um comentário no ARR:

Com inclinação negativa, que é comum com os valores logarítmicos de inundações na Austrália, a distribuição do log Pearson III tem um limite superior. Isso fornece um limite superior para inundações que podem ser extraídas da distribuição. Em alguns casos, isso pode causar problemas na estimativa de inundações de baixo PEA, mas geralmente não causa problemas na prática. [Extraído de chuva australiana e escoamento superficial - volume 1, livro IV, seção 2.]

Muitas vezes, as inundações, em um local específico, são consideradas como tendo um limite superior chamado 'Máxima provável de inundação' (PMF). Existem maneiras padrão de calcular um PMF.

insira a descrição da imagem aqui


7
+1 Este exemplo mostra de maneira bem arbitrária a questão: na verdade, quando você mede inundações em termos de pico de descarga, elas são inclinadas positivamente , mas medidas na descarga de log, elas (aparentemente) são inclinadas negativamente. Da mesma forma, qualquer variável positiva pode ser re-expressa de uma maneira simples que inclina sua distribuição negativamente (simplesmente tomando um parâmetro Box-Cox adequadamente negativo). Tudo se resume ao que se entende por "facilmente compreendido", suponho - mas essa é uma pergunta sobre os alunos, não sobre estatística.
whuber

5

As mudanças no preço dos ativos (retornos) geralmente têm uma inclinação negativa - muitos pequenos aumentos de preços com algumas grandes quedas de preço. A inclinação parece valer para quase todos os tipos de ativos: preços de ações, preços de commodities, etc. A inclinação negativa pode ser observada nas variações mensais de preços, mas é muito mais evidente quando você começa a observar as variações diárias ou a cada hora. Eu acho que esse seria um bom exemplo, porque você pode mostrar os efeitos da frequência na inclinação.

Mais detalhes: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/


Eu gosto muito deste exemplo! Existe uma maneira intuitiva de explicar isso - essencialmente, "choques negativos são mais prováveis ​​(ou pelo menos provavelmente mais graves) do que choques negativos"?
Silverfish

2
@ Silverfish Eu diria que resultados de mercado negativos extremos são mais prováveis ​​do que resultados de mercado positivos extremos. Os mercados também têm volatilidade assimétrica. A volatilidade do mercado geralmente aumenta mais após retornos negativos do que retornos positivos. Isso geralmente é modelado com modelos Garch, como o GJR-Garch (consulte a entrada da Wikipedia na Arch).
John

3
Também vi uma explicação de que más notícias são divulgadas em grupos. Eu não usei GJR-GARCH. Tentei usar o movimento browniano multifractal (Mandelbrot) para modelar a assimetria, mas não consegui fazê-lo funcionar.
precisa saber é o seguinte

4
Isso é, na melhor das hipóteses, simplista. Por exemplo, peguei apenas um conjunto de dados de retornos diários em 31 índices de ações. Mais da metade deles tem inclinação positiva (usando a inclinação de Pearson) e mais de 70% são positivos na medida 3 * (média - mediana) / stdev. Para as commodities, você tende a ter uma inclinação ainda mais positiva, pois os choques de oferta e demanda podem aumentar os preços rapidamente (por exemplo, petróleo, gás e milho nos últimos anos).
Chris Taylor

5

A idade gestacional no parto (especialmente para nascidos vivos) é deixada assimétrica. Os bebês podem nascer vivos muito cedo (embora as chances de sobrevivência continuada sejam pequenas quando muito cedo), atingem um pico entre 36 a 41 semanas e caem rapidamente. É típico que as mulheres nos EUA sejam induzidas se 41/42 semanas, portanto, geralmente não vemos muitos partos depois desse ponto.


4

Nas pescarias, existem frequentemente exemplos de distorção negativa devido a requisitos regulatórios. Por exemplo, a distribuição do comprimento dos peixes liberados na pesca recreativa; porque, às vezes, há um comprimento mínimo que um peixe deve ter para que seja retido; todos os peixes abaixo do limite são descartados. Porém, como as pessoas pescam em locais onde costumam existir peixes de comprimento legal, há uma inclinação e um modo negativos em relação ao limite superior legal. O comprimento legal não representa um corte rígido. Por causa dos limites da bolsa (ou do número de peixes que podem ser levados de volta à doca), as pessoas ainda descartam peixes de tamanho legal quando capturam peixes maiores.

por exemplo, Sauls, B. 2012. Um resumo dos dados sobre a distribuição de tamanho e as condições de liberação das devoluções do Red Snapper de pesquisas sobre pesca recreativa no Golfo do México. SEDAR31-DW11. SEDAR, Charleston do Norte, SC. 29 pp.


"Inclinar para tamanhos grandes" normalmente seria interpretado como inclinação positiva , não "negativa". Talvez você possa esclarecer esta resposta com uma ilustração de uma distribuição típica? Os mecanismos que você descreve - um limite superior regulatório e alguma tendência a excedê-lo - podem levar à inclinação negativa ou positiva, dependendo da distribuição truncada do peixe de tamanho pequeno (e dependendo de como o peixe é medido: a inclinação) de sua distribuição em massa não seria a mesma que a assimetria de sua distribuição em comprimento).
whuber

3

Algumas ótimas sugestões foram feitas neste tópico. No tema da mortalidade relacionada à idade, as taxas de falha da máquina são frequentemente uma função da idade da máquina e se enquadram nessa classe de distribuição. Além dos fatores financeiros já observados, as funções e distribuições de perdas financeiras se assemelham a essas formas, particularmente no caso de perdas de valor extremo, por exemplo, conforme encontrado nas estimativas do BIS III (Banco de Liquidação Internacional) do déficit esperado (ES), ou no BIS II, o valor em risco (VAR) como insumo para requisitos regulatórios para alocações de reservas de capital.


2

A idade da aposentadoria nos EUA é negativamente distorcida. A maioria dos aposentados é mais velha, com alguns se aposentando relativamente jovens.


2

Na teoria da matriz aleatória, a distribuição Tracy Widom é inclinada à direita. Essa é a distribuição do maior valor próprio de uma matriz aleatória. Por simetria, o menor autovalor tem distribuição negativa de Tracy Widom e, portanto, é inclinado para a esquerda.

Isso se deve basicamente ao fato de que os autovalores aleatórios são semelhantes a partículas carregadas que se repelem, e, portanto, o maior autovalor tende a ser empurrado para longe do resto. Aqui está uma foto exagerada (tirada daqui ):

insira a descrição da imagem aqui


As distribuições inclinadas à direita têm uma inclinação positiva e, portanto, não respondem à pergunta.
whuber

@whuber: destinado a usar o menor autovalor. Corrigido.
Alex R.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.