Nome do fenômeno nas parcelas estimadas do CDF de dados censurados


8

Meu conjunto de dados contém duas variáveis ​​(bastante correlacionadas) (tempo de execução do algoritmo) (número de nós examinados, qualquer que seja). Ambos são fortemente correlacionados pelo design, porque o algoritmo pode gerenciar aproximadamente nós por segundo.ntnc

O algoritmo foi executado em vários problemas, mas foi finalizada se uma solução não foi encontrado depois de algum tempo de espera . Portanto, os dados são censurados à direita na variável de tempo.T

Plotamos a função de densidade cumulativa estimada (ou a contagem acumulada) da variável para os casos em que o algoritmo terminou com . Isso mostra como muitos problemas poderiam ser resolvidos por meio da expansão no máximo nodos e é útil para comparar diferentes configurações do algoritmo. Mas no enredo para , existem aquelas caudas engraçadas no topo indo muito bem, como pode ser visto na imagem abaixo. Compare o ecdf para a variável , na qual a censura foi feita.t < T n n tnt<Tnnt

Contagem acumulada den

ecdf de n

Contagem acumulada det

ecdf de t

Simulação

Entendo por que isso acontece e posso reproduzir o efeito em uma simulação usando o seguinte código R. É causado pela censura em uma variável fortemente correlacionada, com a adição de algum ruído.

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

dados sintéticos

Como é chamado esse fenômeno? Eu preciso declarar em uma publicação que esses fãs são artefatos do experimento e não refletem a distribuição real.


Isso se deve a rescisão antecipada?
Lcrmorin

Você pode modelar seus dados com uma distribuição paramétrica? Você pode tentar isso usando apenas os dados sem censura. Se funcionar, você poderá usar a probabilidade máxima em todo o conjunto de dados para obter uma estimativa do CDF verdadeiro e eliminar o comportamento em seu gráfico.
soakley

@soakly As amostras não são iis. O algoritmo é executado em um conjunto de problemas de benchmark, e esses basicamente definem o formato da curva (junto com as características das configurações do algoritmo).
Ziggystar

@ Lorin Eu não sei exatamente o que significa rescisão antecipada, mas os dados são claramente censurados à direita na variável tempo.
Ziggystar

1
As quantidades nas duas primeiras exibições não são realmente ECDFs, pois os valores obtidos pelos ECDFs estão em [0,1]. Seria melhor rotulá-los com um título mais preciso.
Glen_b -Reinstala Monica

Respostas:


1

Não sou especialista, mas acredito que o que você está vendo é análogo ao recorte suave .

Classificar recorte (obter compressão)

É um pouco diferente, porque seu recorte é causado por um processo não determinístico, em que seu sinal é cortado quando mais um ruído aleatório excede um limite, em vez de um dispositivo que reduz deterministicamente um sinal analógico. Eu tenho um pedal de guitarra que faz isso, suaviza o "soco" de tocar uma guitarra elétrica:

Keeyley Compressor Demo

Parece uma analogia decente. Não tenho certeza se existe um nome na comunidade estatística.


0

Eu suspeito que você se depara com a família de distribuições não simétricas estáveis.
Primeiro, plote seu ecdf em um gráfico de log-log. Adote uma abordagem paramétrica, assuma a Distribuição de Pareto, insira a descrição da imagem aqui

Ft(t)=1(tmint)a for t>tmintmin
α^


αα^=α^(T)T

O fenômeno das caudas pesadas é comum na ciência da computação, particularmente quando os nós competem contra recursos compartilhados de maneira aleatória, por exemplo, redes de computadores.


2
Não acho que meu problema esteja em encontrar o modelo correto. Você vê o segundo enredo na minha pergunta? A verdadeira distribuição seria exibida como uma linha, mas devido ao efeito de censura, ela se torna uma curva. Eu quero saber como chamar esse fenômeno.
Ziggystar

Seus nós compartilham um recurso comum, seu cpu, que indiretamente é refletido nas flutuações da conclusão do tempo, e esses pontos vermelhos e rosa que estão bem distantes da massa principal de sua respectiva distribuição é o que me deixa desconfiado. Os nós de processamento de longa duração afetarão os nós restantes, especulo que eles acabarão afastando a massa de seu centro.
aarsakian

2
Não sei se você entendeu o domínio corretamente: o problema é uma pesquisa. O algoritmo examina um nó de cada vez para encontrar um nó de solução. Um algoritmo melhor precisa examinar menos nós antes de encontrar uma solução (porque seleciona os nós de maneira mais inteligente). Observar um nó requer algum tempo e, portanto, o número de nós examinados e o tempo consumido devem estar fortemente correlacionados.
Ziggystar

-1

diga que sua distribuição está truncada , como normal truncada

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.