Estou examinando alguns dados de cobertura genômica, que são basicamente uma longa lista (alguns milhões de valores) de números inteiros, cada um dizendo quão bem (ou "profunda") essa posição no genoma é coberta.
Gostaria de procurar "vales" nesses dados, ou seja, regiões que são significativamente "mais baixas" do que o ambiente circundante.
Observe que o tamanho dos vales que estou procurando pode variar de 50 bases a alguns milhares.
Que tipo de paradigma você recomendaria usar para encontrar esses vales?
ATUALIZAR
Alguns exemplos gráficos para os dados:
ATUALIZAÇÃO 2
Definir o que é um vale é, obviamente, uma das questões com as quais estou lutando. Estes são óbvios para mim:
mas há algumas situações mais complexas. Em geral, existem três critérios que considero: 1. A cobertura (média? Máxima?) Na janela em relação à média global. 2. A (...) cobertura na janela em relação ao seu entorno imediato. 3. Qual é o tamanho da janela: se vejo uma cobertura muito baixa por um curto período, é interessante; se vejo uma cobertura muito baixa por um longo período, também é interessante; se vejo uma cobertura levemente baixa por um curto período, não é realmente interessante. , mas se eu vir uma cobertura levemente baixa por um longo período - é .. Portanto, é uma combinação do comprimento do sapn e da cobertura. Quanto mais tempo, mais alto deixo a cobertura e ainda a considero um vale.
Obrigado,
Dave