Que distribuição meus dados seguem?


31

Digamos que possuo 1000 componentes e coletei dados sobre quantas vezes eles registram uma falha e cada vez que registraram uma falha, também acompanho quanto tempo minha equipe levou para corrigir o problema. Em resumo, registrei o tempo de reparo (em segundos) para cada um desses 1000 componentes. Os dados são fornecidos no final desta pergunta.

Peguei todos esses valores e desenhei um gráfico de Cullen e Frey em R usando descdisto fitdistrpluspacote. Minha esperança era entender se o tempo de reparo segue uma distribuição específica. Aqui está o gráfico com boot=500para obter valores de inicialização:

insira a descrição da imagem aqui

Vejo que esse gráfico está me dizendo que a observação cai na distribuição beta (ou talvez não, nesse caso, o que é revelador?) Agora, considerando que eu sou um arquiteto de sistemas e não um estatístico, o que esse gráfico está revelando ? (Estou procurando uma intuição prática do mundo real por trás desses resultados).

EDITAR:

QQplot usando a qqPlotfunção no pacote car. Primeiro estimei os parâmetros de forma e escala usando a fitdistrfunção

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

Então, eu fiz isso:

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

insira a descrição da imagem aqui

EDIT 2:

Atualizando com um QQplot normal do log.

insira a descrição da imagem aqui

Aqui estão os meus dados:

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)

7
Esse diagrama não informa que sua distribuição é beta. Ele diz que a assimetria e a curtose são consistentes com um beta - poderia ser facilmente normal, por exemplo, mas provavelmente não é realmente nenhuma das distribuições nomeadas nesse diagrama.
Glen_b -Reinstate Monica

@Glen_b: Obrigado. Acabei de incluir também um qqplot para lognormal, mas mesmo isso não parece ser um bom ajuste. Você recomenda mais alguma coisa que eu experimente? Eu incluí meus dados na pergunta.
Legend

4
Estou curioso para saber por que você chama isso de "Cullen Frey", quando foi introduzido por Rhind em 1909 (e conhecido por gerações depois), 90 anos antes de Cullen e Frey escreverem alguma coisa juntos! Veja o artigo da Wikipedia sobre o sistema de distribuições Pearson .
whuber

3
Estamos vendo a Lei de Eponymy de Stigler em ação. :-)
whuber

3
@whuber É uma trama de Cullen e Frey, não a visualização de Rhind do espaço de Pearson. Possui características distintamente diferentes, como a representação de valores bloqueados, a sobreposição da distribuição uniforme, etc. Ele se baseia no gráfico de Rhind, mas tudo na ciência se baseia em algo antes dele (e não queremos ter que atribuir tudo aos inventores originais e desconhecidos do fogo e da roda ...).
Hack-R

Respostas:


34

O fato é que os dados reais não seguem necessariamente nenhuma distribuição específica que você possa nomear ... e, de fato, seria surpreendente se isso acontecesse.

Portanto, embora eu possa citar uma dúzia de possibilidades, o processo real de gerar essas observações provavelmente também não será nada que eu possa sugerir. À medida que o tamanho da amostra aumenta, você provavelmente poderá rejeitar qualquer distribuição conhecida.

Distribuições paramétricas são frequentemente uma ficção útil, não uma descrição perfeita.

Vamos pelo menos examinar os dados de log, primeiro em um qqplot normal e depois como uma estimativa de densidade do kernel para ver como eles aparecem:

log qqnorm (x)

Observe que em um gráfico de QQ feito dessa maneira, as seções mais planas da inclinação são onde você tende a ver picos. Isso tem uma sugestão clara de um pico próximo de 6 e outro de 12,3. A estimativa de densidade do kernel do log mostra a mesma coisa:

estimativa da densidade do núcleo

Nos dois casos, a indicação é que a distribuição do tempo do log está correta, mas não é claramente unimodal. Claramente, o pico principal está em torno da marca de 5 minutos. Pode ser que haja um segundo pequeno pico na densidade de tempo de log, que parece estar em algum lugar na região de talvez 60 horas. Talvez haja dois "tipos" qualitativamente diferentes de reparo e sua distribuição esteja refletindo uma mistura de dois tipos. Ou apenas uma vez que um reparo atinge um dia inteiro de trabalho, ele tende a demorar mais tempo (ou seja, em vez de refletir um pico em pouco mais de uma semana, pode refletir um anti-pico em pouco mais de um dia - uma vez se você demorar mais do que pouco menos de um dia para reparar, os empregos tendem a "desacelerar").

Até o log do log da época é um tanto distorcido. Vejamos uma transformação mais forte, onde o segundo pico é bastante claro - menos o inverso da quarta raiz do tempo:

hist de -1 / (x ^ 0,25)

As linhas marcadas são de 5 minutos (azul) e 60 horas (verde tracejado); como você vê, há um pico abaixo de 5 minutos e outro acima de 60 horas. Observe que o "pico" superior está no percentil 95 e não estará necessariamente perto de um pico na distribuição não transformada.

Há também a sugestão de outro mergulho em torno de 7,5 minutos, com um pico amplo entre 10 e 20 minutos, o que pode sugerir uma tendência muito pequena a se “arredondar” nessa região (não que exista necessariamente algo indesejável; mesmo se não houver mergulho) / pico no tempo de trabalho inerente lá, pode até ser algo tão simples quanto uma função da capacidade humana de se concentrar em um período ininterrupto por mais de alguns minutos.)

Parece-me que uma mistura de dois componentes (dois picos) ou talvez três componentes de distribuições com inclinação correta descreveria o processo razoavelmente bem, mas não seria uma descrição perfeita.

O pacote logsplineparece escolher quatro picos no log (tempo):

gráfico de logpsine

com picos próximos de 30, 270, 900 e 270K segundos (30s, 4.5m, 15m e 75h).

O uso do logpline com outras transformações geralmente encontra 4 picos, mas com centros ligeiramente diferentes (quando traduzidos para as unidades originais); isso é de se esperar com transformações.


2
+1 Esta é uma mina de ouro de informações minhas. Estou tentando digerir tudo o que você escreveu e até agora isso me ensinou como realmente abordar esse tipo de problema. Qual é o objetivo da transformação mais forte? Posso perguntar como você conseguiu isso? Isso é com experiência ou existe uma maneira mais formal de escolher uma transformação não convencional? Por favor, perdoe minha ignorância se isso é uma sabedoria comum na comunidade de estatísticas. Mas ficaria agradecido se você pudesse me indicar uma boa referência para aprender esse tipo de trabalho "detetive" que me parece incrível.
Legend

3
Referência apropriada à EDA: Tukey, JW (1977). Análise Exploratória de Dados . Addison-Wesley, Reading, MA.
Glen_b -Reinstala Monica

3
Como mencionado na resposta acima, você pode tentar ajustar uma distribuição de mistura. Aqui está um artigo que usa esses híbridos para a velocidade do vento - acho que algumas das distribuições são combinações de três outras distribuições. journal-ijeee.com/content/3/1/27
rbatt

2
Para uma mistura, é uma questão de descobrir quantos componentes você deseja, de quais distribuições ou distribuições você usará (que é o que você publicou originalmente originalmente) e como identificar os parâmetros dos componentes. e as proporções do componente. Há vários pacotes que podem ajudar nessas tarefas; Aqui está um artigo (pdf) sobre um deles. Alguns dos pacotes de modelagem de mistura são mencionados na exibição de tarefas Análise de Cluster e Modelagem de Mistura Finita ... (ctd)
Glen_b -Reinstate Monica

11
(ctd) ... Outro exemplo de pacote é rebmix . Minha própria análise acima foi baseada em abordagens exploratórias mais simples, mas, no momento, ainda não é um modelo de mistura totalmente identificado; sugere que uma mistura de 4 componentes pode ser necessária. A parte final da minha resposta - a parte com o log-spline é uma abordagem diferente (não paramétrica) para modelar densidades complicadas.
Glen_b -Reinstala Monica

12

A função descdist tem uma opção para inicializar sua distribuição para ter uma noção da precisão associada à estimativa plotada. Você pode tentar isso.

descdist(time_to_repair, boot=1000)

Meu palpite é que seus dados são consistentes com mais do que apenas a distribuição beta.

Em geral, a distribuição beta é a distribuição de proporções ou probabilidades contínuas. Por exemplo, a distribuição dos valores p de um teste t seria um caso específico de uma distribuição beta, dependendo se a hipótese nula é verdadeira e a quantidade de poder que sua análise possui.

Acho extremamente improvável que a distribuição dos seus tempos de reparo seja realmente beta. Observe que esse gráfico está apenas comparando a inclinação e curtose dos seus dados com a distribuição especificada. O beta é vinculado por 0 e 1; Aposto que seus dados não são, mas esse gráfico não está verificando esse fato.

Por outro lado, a distribuição Weibull é comum em tempos de atraso. Ao observar a figura (sem as amostras de botas plotadas para avaliar a incerteza), suspeito que seus dados sejam consistentes com um Weibull.

Você também pode verificar se os dados são Weibull, acredito, usando o qqPlot do pacote do carro para fazer um gráfico de qq .


2
+1 Obrigado. No momento em que entendo sua resposta, atualizei minha pergunta com o bootstrapparâmetro definido como 500 na descdistfunção. E sim, você está certo que meus valores não estão em [0,1]. Existe uma maneira de mostrar esse fato (pertencente ao weibull) usando este gráfico? Em breve, tentarei atualizar minha pergunta com um QQPlot.
Legend

Acabei de atualizar minha pergunta com um qqPlotdo carpacote.
Legend

Hummm. Bem, o qq-plot não faz parecer que a distribuição Weibull é uma boa opção.
gung - Restabelece Monica

11
E mais uma para a distribuição lognormal. Você recomenda algum pré-processamento que devo fazer com os dados? Ou existe uma maneira melhor de estimar o melhor ajuste? Ainda estou imaginando como posso utilizar o gráfico de Cullen / Frey no meu contexto.
Legend

Além disso, atualizei minha pergunta com os dados que estou usando no final, caso isso ajude.
Legend

3

Pelo que vale a pena, usando a rotina FindDistribution do Mathematica, os logaritmos são muito aproximadamente uma mistura de duas distribuições normais,

insira a descrição da imagem aqui

x=ln(data)

f(x)=0.0585522e0.33781(x11.7025)2+0.229776e0.245814(x6.66864)2

Usando 3 distribuições para fazer uma distribuição de mistura, isso pode ser

insira a descrição da imagem aqui

f(x)=0.560456 Laplace(5.85532,0.59296)+0.312384 LogNormal(2.08338,0.122309)+0.12716 Normal(11.6327,1.02011),
{0.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2x00.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)20<x<5.855320.472592e1.68646(x5.85532)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)2Otherwise

th

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.