Aqui está um exemplo simples de brinquedo que ilustra o efeito da dimensão em um problema de discriminação, por exemplo, o problema que você enfrenta quando deseja dizer se algo é observado ou se apenas um efeito aleatório é observado (esse problema é um clássico da ciência).
Heurística. A questão principal aqui é que a norma euclidiana dá a mesma importância a qualquer direção. Isso constitui uma falta de prévia, e como você certamente sabe em alta dimensão, não há almoço grátis (ou seja, se você não tem idéia prévia do que está procurando, não há razão para que algum ruído não pareça o que você é procurando, isso é tautologia ...).
Eu diria que, para qualquer problema, há um limite de informações necessárias para encontrar algo além de ruído. Esse limite está relacionado de alguma forma ao "tamanho" da área que você está tentando explorar em relação ao nível de "ruído" (ou seja, nível de conteúdo não informativo).
Em alta dimensão, se você tem o prévio de que seu sinal é escasso, pode remover (ou seja, penalizar) o vetor não esparso com uma métrica que preenche o espaço com o vetor esparso ou usando uma técnica de limiar.
Estrutura Assuma que é um vetor gaussiano com média e covariância diagonal ( é conhecido) e que você deseja testar a hipótese simplesν σ I d σξνσEudσ
θ ∈ R n θ
H0 0:ν= 0 ,VsHθ:ν= θ
(para um determinado ) não é necessariamente conhecido antecipadamente.
θ ∈ Rnθ
Estatística de teste com energia . A intuição que você certamente tem é que é uma boa ideia avaliar a norma / energia de sua observação para criar uma estatística de teste. Na verdade, você pode construir uma versão centralizada e padronizada (sob ) da energia . Isso uma região crítica no nível do formato para uma bem escolhida ξH0TnTn=∑iξ 2 i -σ2En= 1n∑ni = 1ξ2EuξH0 0Tn α{Tn≥v1-α}v1-αTn= ∑Euξ2Eu- σ22 n σ4√α{ Tn≥ v1 - α}v1 - α
Poder do teste e dimensão. Nesse caso, é um exercício fácil de probabilidade mostrar a seguinte fórmula para o poder do seu teste:
ZnE[Z]=0Vumr(Z)=1
Pθ( T≤ v1 - α) = P⎛⎝⎜Z≤ v1 - α1 + 2 ∥ q ∥22/ (n σ2)-------------√- ∥ θ ∥222 n σ4+ 2 σ2∥ θ ∥22/ (n σ2)------------------√⎞⎠⎟
com uma soma de iid variáveis aleatórias com e .ZnE [Z] = 0Va r ( Z) = 1
Isso significa que o poder do seu teste é aumentado pela energia do seu sinal e diminuído em . Na prática, isso significa que, quando você aumenta o tamanho do seu problema, se ele não aumenta a força do sinal ao mesmo tempo, você adiciona informações não informativas à sua observação (ou reduz a proporção de informações úteis nas informações). você tem): isso é como adicionar ruído e reduzir o poder do teste (ou seja, é mais provável que você diga que nada é observado enquanto realmente há algo). n n∥ θ ∥22nn
Em direção a um teste com uma estatística de limite. Se você não possui muita energia em seu sinal, mas se conhece uma transformação linear que pode ajudá-lo a concentrar essa energia em uma pequena parte do sinal, é possível criar uma estatística de teste que avaliará apenas a energia para os pequenos parte do seu sinal. Se você soube antecipadamente onde está concentrado (por exemplo, você sabia que não pode haver altas frequências no seu sinal), poderá obter uma potência no teste anterior com substituído por um número pequeno e quase o mesmo ... Se você não o conhece com antecedência, é necessário calculá-lo, isso leva a testes de limiares bem conhecidos.‖ θ ‖ 2 2n∥ θ ∥22
Observe que esse argumento está exatamente na raiz de muitos trabalhos, como
- A. Antoniadis, F. Abramovich, T. Sapatinas e B. Vidakovic. Métodos Wavelet para teste em análise funcional de modelos de variância. International Journal on Wavelets e suas aplicações, 93: 1007-1021, 2004.
- MV Burnashef e Begmatov. Em um problema de detecção de sinal levando a distribuição estável. Teoria da probabilidade e suas aplicações, 35 (3): 556-560, 1990.
- Y. Baraud. Taxa minimax não assintótica de teste na detecção de sinal. Bernoulli, 8: 577–606, 2002.
- J Fan. Teste de significância baseado no limiar de wavelets e no truncamento de neyman. JASA, 91: 674-688, 1996.
- J. Fan e SK Lin. Teste de significância quando os dados são curvas. JASA, 93: 1007-1021, 1998.
- V. Spokoiny. Teste de hipótese adaptativa usando wavelets. Annals of Statistics, 24 (6): 2477-2498, dezembro de 1996.