Gerando variáveis aleatórias causalmente dependentes

Estou tentando gerar conjuntos de variáveis aleatórias causalmente conectadas e comecei a fazer isso com uma abordagem de monte carlo.

A linha de base é um histograma medido bidimensional a partir do qual eu desenho valores aleatórios.

Nos meus exemplos concretos destas variáveis são a aceleração e velocidade - então obviamente tem que segurar. $\bf{a}$ $\bf{v}$ $v_{i+1} = v_{i} + a_i * dt$

Minha atual abordagem ingênua é:

Eu começo com um pouco de . Então eu gere um aleatório de acordo com a probabilidade medida de para o valor de . Usando este , posso calcular a e todo o procedimento é iniciado novamente. $v_0$ $a_0$ $\bf{a}$ $v_0$ $a_0$ $v_1$

Então, quando eu checo as acelerações geradas nos compartimentos de tudo está bem. Mas eu obviamente isso não respeita a distribuição marginal de . $\bf{a}$ $\bf{v}$ $\bf{v}$

Eu estou familiarizado com os métodos básicos de monte carlo, embora não possua uma base teórica, como você pode imaginar. Eu ficaria bem se as duas variáveis fossem conectadas apenas por alguma matriz de correlação, mas a conexão causal entre as duas me desse dor de cabeça.

Não consegui encontrar um exemplo para esse tipo de problema em algum lugar - posso estar pesquisando os termos errados. Ficaria satisfeito se alguém pudesse me indicar alguma literatura / exemplo ou método promissor para entender isso.

(Ou me diga que isso não é realmente possível, dadas as minhas informações - é o que eu acho que ocasionalmente ...)

EDITAR:

O objetivo real de todo esse procedimento: eu tenho um conjunto de medidas e , representadas em um histograma bidimensional . Dada essa entrada, gostaria de gerar conjuntos aleatórios de e que reproduzem a distribuição medida. $\bf{a}$ $\bf{v}$ $N(a,v)$ $\bf{a_r}$ $\bf{v_r}$

monte-carlo random-generation

— sebastiano
fonte

Uma pergunta interessante. No entanto, o segundo "obviamente" (sobre não respeitar a distribuição marginal) não está nada claro para mim. Por que isso é óbvio? A distribuição de , refletida no seu "histograma bidimensional", depende de como você amostrou essas variáveis; Gostaria de saber se isso pode explicar possíveis diferenças. Que tipo de dado é representado por esse histograma e como exatamente você "extrai valores" dele?

(v, a)

$(v,a)$

— whuber

Bem, para mim, é meio óbvio, porque as distribuições são praticamente simétricas em torno de zero. Portanto, ao gerar o não há dependência do . Quando o atual está na borda superior da distribuição marginal , você supõe que deve haver um viés em direção a negativo . "desenhar valores" refere-se a: pegue a distribuição de probabilidade 1-dim, construa a distribuição cumulativa, jogue um número aleatório entre 0 e 1, encontre que cum. distribuição tem o valor . Este é o meu "valor sorteado"

a

$\bf{a}$

a_{i}

$a_i$

v

$v$

v

$v$

v

$\bf{v}$

a_{i}

$a_i$

r

$r$

x

$x$

r

$r$

x

$x$

— sebastian

Para ser completo: os dados se originam do registro de GPS. Eu tenho um conjunto de viagens registradas em carros, que registram a velocidade com 1Hz. Então seu um par de e para cada datapoint. Estes são preenchidos no histograma.

v

$v$

a

$a$

— sebastian

Seus comentários indicam que você está assumindo que e são independentes. Isso não pode ser possível, porque existem limitações físicas às velocidades: isso significa que muitas acelerações não serão experimentadas nas velocidades mais extremas. No entanto, não é fácil fornecer conselhos mais detalhados, porque você não articulou o que está tentando realizar; em vez disso, você descreveu uma abordagem para resolver um problema não declarado. Por que você não muda essa pergunta e pergunta sobre o problema que precisa resolver, em vez de como implementar uma solução que parece inválida?

a

$\mathbf{a}$

v

$\mathbf{v}$

— whuber

Respostas:

Parece que, para reproduzir a distribuição conjunta , você deve selecionar new não apenas com base em , mas com base na antiga também: $\rho(a,v)$ $a$ $v$ $a$

$a_{i+1} \sim \rho'(a_{i+1}|a_i, v_i)$

A questão (para a qual ainda não sei a resposta) é como encontrar que produz . $\rho'$ $\rho$

UPD: Você deve resolver a seguinte equação integral:

ρ (a, v) = \int d a^{'} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t)

$\rho(a, v) = \int da' \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t)$

Aproximando a função com um histograma, você transforma isso em um sistema de equações lineares: $\rho$

{\begin{cases} ρ (a, v) = \sum_{a^{'}} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t) \\ \sum_{a} ρ^{'} (a | a^{'}, v^{'}) = 1 \end{cases}

$\cases{ \rho(a, v) = \sum_{a'} \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t) \\ \sum_a \rho'\left(a|a', v'\right) = 1}$

Este sistema é subdeterminado. Você pode aplicar uma penalidade de suavidade para obter uma solução.

— user31264
fonte

Os dados do GPS não contêm a posição ? Eu pensaria que, não só depende de e mas também depende de . Considere: em qualquer rede de estradas, existem gargalos, limites de velocidade, sinais, cruzamentos, declives acentuados etc. que são geolocalizados. Então, algo como um conjunto (distribuição) definido por: $p$ $v_{i+1}$ $v_{i}$ $a_{i}$ $a_{i+1}$ $p_{i}$

$F_{a} = Pr ( A_{i+1} \le a_{i+1}\ |\ a_{i},v_{i},p_{i} )$
$v_{i+1} = v_{i} + a_{i}dt$

Para esse conjunto, a dificuldade estará na natureza dos dados. É provável que a população real seja assimétrica, não linear (por partes) e pode não ter momentos definidos. Essas características podem não ser evidentes na amostra que você tem em mãos.

Como o @whuber afirmou, o problema, ou seja, exatamente o que você está procurando produzir, ainda não parece completo e claramente definido. Não está claro se você está interessado no conjunto ou mais do que nos indivíduos.

— AsymLabs
fonte

Acho que meu problema é bastante claro - tenho a distribuição medida de e e, a partir disso, gostaria de experimentar um pseudo-aleatório , que finalmente se reproduz a entrada. Estou bem ciente de seu ponto sobre se o que vem de fora, é realista, mas isso é uma questão diferente ...

v

$\bf{v}$

a

$\bf{a}$

v_{r a n d}

$\bf{v_{rand}}$

— sebastian

No mínimo, como indicado na equação acima, isso não seria um efeito estacionário. Eu pensaria que o primeiro passo seria agrupar as leituras de acordo com o intervalo de tempo e depois compará-las. Não sei quantas leituras você tem, mas essa comparação pode ser executada com algo como Distribuição de Pearson como ponto de partida - para tentar classificar a natureza da distribuição.

— AsymLabs

Gerando variáveis ​​aleatórias causalmente dependentes

Gerando variáveis aleatórias causalmente dependentes