Meu conjunto de dados contém duas variáveis (bastante correlacionadas) (tempo de execução do algoritmo) (número de nós examinados, qualquer que seja). Ambos são fortemente correlacionados pelo design, porque o algoritmo pode gerenciar aproximadamente nós por segundo.n
O algoritmo foi executado em vários problemas, mas foi finalizada se uma solução não foi encontrado depois de algum tempo de espera . Portanto, os dados são censurados à direita na variável de tempo.
Plotamos a função de densidade cumulativa estimada (ou a contagem acumulada) da variável para os casos em que o algoritmo terminou com . Isso mostra como muitos problemas poderiam ser resolvidos por meio da expansão no máximo nodos e é útil para comparar diferentes configurações do algoritmo. Mas no enredo para , existem aquelas caudas engraçadas no topo indo muito bem, como pode ser visto na imagem abaixo. Compare o ecdf para a variável , na qual a censura foi feita.t < T n n t
Contagem acumulada de
Contagem acumulada de
Simulação
Entendo por que isso acontece e posso reproduzir o efeito em uma simulação usando o seguinte código R. É causado pela censura em uma variável fortemente correlacionada, com a adição de algum ruído.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Como é chamado esse fenômeno? Eu preciso declarar em uma publicação que esses fãs são artefatos do experimento e não refletem a distribuição real.