Agora que a pergunta convergiu para uma formulação mais precisa do problema de interesse, encontrei uma solução para o caso 1 (parâmetro conhecido da crista). Isso também deve ajudar no caso 2 (não exatamente uma solução analítica, mas uma fórmula simples e algumas restrições).
Resumo: Nenhuma das duas formulações inversas de problemas tem uma resposta única. No caso 2 , onde o parâmetro cume é desconhecido, existem infinitas soluções , para . No caso 1, onde é fornecido, há um número finito de soluções para , devido à ambiguidade no espectro de valor singular.X ω ω ∈ [ 0 , ω max ] ω X ωμ ≡ ω2Xωω ∈ [ 0 , ωmax]ωXω
(A derivação é um pouco demorada, portanto, TL, DR: existe um código Matlab em funcionamento no final.)
Caso sub-determinado ("OLS")
O problema de encaminhamento é
que , e . X∈ R n × p B∈ R p x q Y∈ R n × q
minB∥ XB - Y∥2
X∈ Rn × pB ∈ Rp × qY∈ Rn × q
Com base na pergunta actualizado, vamos assumir , então é sob determinadas dada e . Como no questão, vamos supor que o "padrão" (mínimo -norm) solução
onde é a pseudo-inversa de .B X Y L 2 B = X + Y X + Xn < p < qBXYeu2
B = X+Y
X+X
A partir do valor singular decomposição ( SVD ) de , dado por *
o pseudoinverse pode ser calculado como **
(* As primeiras expressões usam o SVD completo, enquanto as segundas expressões usam o SVD reduzido. ** Por uma questão de simplicidade, presumo que tenha uma classificação completa, ou seja, existe.)X = U S V T = U S 0 V T 0 X + = V S + U T = V 0 S - 1 0 U T X S - 1 0X
X= USVT= US0 0VT0 0
X+= VS+vocêT= V0 0S- 10 0vocêT
XS- 10 0
Portanto, o problema de encaminhamento tem a solução
Para referência futura, observe que , em que é o vetor de valores singulares.S 0 = d i a g ( σ 0 ) σ 0 > 0
B ≡ X+Y= ( V0 0S- 10 0vocêT) Y
S0 0= d i a g ( σ0 0)σ0 0> 0
No problema inverso, que são dados e . Sabemos que veio do processo acima, mas não sabemos . A tarefa é determinar o apropriado .B B X XYBBXX
Como observado na pergunta actualizado, neste caso, pode recuperar utilizando essencialmente a mesma abordagem, isto é,
agora usando o pseudoinverse de .X 0 = Y B + BX
X0 0= YB+
B
Caso sobredeterminado (estimador de Ridge)
No caso "OLS", o problema sub-determinado foi resolvido escolhendo a solução de norma mínima , ou seja, nossa solução "única" foi implicitamente regularizada .
Em vez de escolher a solução de norma mínima , aqui apresentamos um parâmetro para controlar "quão pequena" a norma deve ser, ou seja, usamos regressão de crista .ω
Nesse caso, temos uma série de problemas avançados para , , dados por
Coletando os diferentes vetores do lado esquerdo e direito em
nesta coleção de os problemas podem ser reduzidos para o seguinte problema "OLS"
onde introduzimos as matrizes aumentadas
k = 1 , ... , q min β ‖ X β - y k ‖ 2 + ω 2 ‖ β ‖ 2 B ω = [ β 1 , ... , β k ]βkk = 1 , ... , q
minβ∥ Xβ- yk∥2+ ω2∥ β∥2
min B ² X ω B - Y ″ 2 X ω = [ X ω I ]Bω= [ β1, ... , βk],Y= [ y1, … , Yk]
minB∥ XωB - Y ∥2
Xω= [ Xω eu],Y = [ Y0 0]
Nesse caso sobredeterminado, a solução ainda é dada pelo pseudo-inverso
mas o pseudo-inverso agora é alterado, resultando em *
onde a nova matriz "espectro de singularidade" possui diagonal (inversa) **
(* O cálculo um tanto envolvido necessário para derivar isso foi omitido por uma questão de brevidade. É semelhante à exposição aqui para o caso . ** Aqui as entradas do vetor é expresso em termos do vetor , onde todas as operações são iniciantes.)
Bω= X+Y
Bω= ( V0 0S- 2ωvocêT) Y
σ2ω= σ20 0+ ω2σ0 0
p ≤ nσωσ0 0
Agora, nesse problema, ainda podemos recuperar formalmente uma "solução base" como
mas essa não é mais uma solução verdadeira.
Xω= YB+ω
No entanto, a analogia ainda se mantém em que essa "solução" possui SVD
com os valores singulares dados acima.
Xω= US2ωVT0 0
σ2ω
Portanto, podemos derivar uma equação quadrática relacionando os valores singulares desejados aos valores singulares recuperáveis e o parâmetro de regularização . A solução é então
σ0 0σ2ωω
σ0 0= σ¯± Δ σ,σ¯= 12σ2ω,Δ σ= ( σ¯+ ω ) ( σ¯- ω )------------√
A demonstração do Matlab abaixo (testada on-line via Octave ) mostra que esse método de solução parece funcionar tanto na prática quanto na teoria. A última linha mostra que todos os valores singulares de estão na reconstrução , mas ainda não descobri completamente qual raiz usar ( = vs. ). Para , será sempre a raiz . Isso geralmente é consistente com as "pequenas" , enquanto que para "grande" da raiz parece assumir. (A demonstração abaixo está atualmente definida como "grande".Xσ¯± Δ σsgn
+-ω = 0+ωω-
% Matlab demo of "Reverse Ridge Regression"
n = 3; p = 5; q = 8; w = 1*sqrt(1e+1); sgn = -1;
Y = rand(n,q); X = rand(n,p);
I = eye(p); Z = zeros(p,q);
err = @(a,b)norm(a(:)-b(:),Inf);
B = pinv([X;w*I])*[Y;Z];
Xhat0 = Y*pinv(B);
dBres0 = err( pinv([Xhat0;w*I])*[Y;Z] , B )
[Uw,Sw2,Vw0] = svd(Xhat0, 'econ');
sw2 = diag(Sw2); s0mid = sw2/2;
ds0 = sqrt(max( 0 , s0mid.^2 - w^2 ));
s0 = s0mid + sgn * ds0;
Xhat = Uw*diag(s0)*Vw0';
dBres = err( pinv([Xhat;w*I])*[Y;Z] , B )
dXerr = err( Xhat , X )
sigX = svd(X)', sigHat = [s0mid+ds0,s0mid-ds0]' % all there, but which sign?
Não posso dizer quão robusta é essa solução, pois os problemas inversos geralmente são mal colocados e as soluções analíticas podem ser muito frágeis. Contudo, experimentos superficiais poluindo com ruído gaussiano (isto é, para que ele tenha uma classificação completa vs. uma classificação reduzida ) parecem indicar que o método é razoavelmente bem comportado.Bpn
Quanto ao problema 2 (isto é, desconhecido), o acima fornece pelo menos um limite superior em . Para que o discriminante quadrático seja não negativo, precisamos ter
ωω
ω ≤ ωmax=σ¯n= min [ 12σ2ω]
Para a ambiguidade do sinal da raiz quadrática, o seguinte trecho de código mostra que, independentemente do sinal, qualquer fornecerá a mesma solução cume direta , mesmo quando diferente de .X^Bσ0 0S V D [X]
Xrnd=Uw*diag(s0mid+sign(randn(n,1)).*ds0)*Vw0'; % random signs
dBrnd=err(pinv([Xrnd;w*I])*[Y;Z],B) % B is always consistent ...
dXrnd=err(Xrnd,X) % ... even when X is not