Atravesse a postar minha pergunta de mathoverflow para encontrar algumas estatísticas ajuda específica.
Estou estudando um processo físico que gera dados que se projetam bem em duas dimensões com valores não negativos. Cada processo possui uma faixa (projetada) de pontos - - veja a imagem abaixo.
As trilhas de amostra são azuis, um tipo problemático de pista foi desenhado à mão em verde e uma região preocupante em vermelho:
Cada faixa é o resultado de um experimento independente. Vinte milhões de experimentos foram realizados ao longo de vários anos, mas desses apenas dois mil exibem a característica que traçamos como uma trilha. Estamos preocupados apenas com as experiências que geram uma trilha, portanto nosso conjunto de dados é (aproximadamente) duas mil trilhas.
É possível que uma faixa entre na região de preocupação, e esperamos que da ordem de em faixas o faça. Estimar esse número é a questão em questão:
Como podemos calcular a probabilidade de uma faixa arbitrária entrar na região de preocupação?
Não é possível realizar experimentos com rapidez suficiente para ver com que frequência as faixas são geradas que entram na região de preocupação, por isso precisamos extrapolar a partir dos dados disponíveis.
, por exemplo, valores dados , mas isso não lida com dados como a trilha verde - parece necessário ter um modelo que englobe as duas dimensões.
Ajustamos a distância mínima de cada pista à região de preocupação, mas não estamos convencidos de que isso esteja produzindo um resultado justificável.
1) Existe uma maneira conhecida de ajustar uma distribuição a esse tipo de dados para extrapolação?
-ou-
2) Existe uma maneira óbvia de usar esses dados para criar um modelo para gerar trilhas? Por exemplo, use a análise de componentes principais nas trilhas como pontos em um espaço grande e, em seguida, ajuste uma distribuição (Pearson?) Às trilhas projetadas nesses componentes.