Definição e Convergência dos Mínimos Quadrados Iterativamente Retrabalhados

Eu tenho usado IRLS (mínimos quadrados ponderados) iterativamente para minimizar as funções do seguinte formulário,

$J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right)$

onde é o número de instâncias de , é a estimativa robusta que eu quero e é uma função de penalidade robusta adequada. Digamos que seja convexo (embora não necessariamente estritamente) e diferenciável por enquanto. Um bom exemplo de tal um é a função de perda Huber . $N$ $x_i \in \mathbb{R}$ $m \in \mathbb{R}$ $\rho$ $\rho$

O que tenho feito é diferenciar $J(m)$ em relação a $m$ (e manipular) para obter,

$\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right)$

e resolvendo iterativamente, definindo-o igual a 0 e fixando pesos na iteração $k$ para $w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}$ (observe que a singularidade percebida em $x_i=m{(k)}$ é realmente uma singularidade removível em todos os $\rho$ eu possa me interessar). Então eu obtenho,

$\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0$

e resolvo obter, $m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ \sum_{i=1}^{N} w_i(k)}$ .

Repito esse algoritmo de ponto fixo até "convergência". Observarei que, se você chegar a um ponto fixo, é ótimo, pois sua derivada é 0 e é uma função convexa.

Eu tenho duas perguntas sobre este procedimento:

Esse é o algoritmo IRLS padrão? Depois de ler vários artigos sobre o tópico (e eles foram muito dispersos e vagos sobre o que é o IRLS), essa é a definição mais consistente do algoritmo que posso encontrar. Posso postar os papéis se as pessoas quiserem, mas na verdade não queria influenciar ninguém aqui. Obviamente, você pode generalizar essa técnica básica para muitos outros tipos de problemas envolvendo o vetor $x_i$ e argumentos diferentes de $\left|x_i-m{(k)}\right|$ , fornecer o argumento é uma norma de uma função afim de seus parâmetros. Qualquer ajuda ou insight seria ótimo nisso.
A convergência parece funcionar na prática, mas tenho algumas preocupações. Ainda estou para ver uma prova disso. Depois de algumas simples Matlab simulações vejo que uma iteração deste é não um mapeamento contração (I gerou dois casos aleatórios de e computação e viu que isso ocasionalmente é maior que 1). Além disso, o mapeamento definido por várias iterações consecutivas não é estritamente um mapeamento de contração, mas a probabilidade da constante de Lipschitz estar acima de 1 fica muito baixa. Então, existe a noção de um mapeamento de contração em probabilidade ? Qual é o mecanismo que eu usaria para provar que isso converge? Isso converge mesmo? $m$ $\frac{\left|m_1(k+1) - m_2(k+1)\right|}{\left|m_1(k)-m_2(k)\right|}$

Qualquer orientação é útil.

Edit: Gosto do artigo sobre o IRLS para recuperação esparsa / sensoriamento por Daubechies et al. 2008 "Minimização de mínimos quadrados reponderada iterativamente para recuperação esparsa" no arXiv. Mas parece focar principalmente pesos para problemas não-convexos. Meu caso é consideravelmente mais simples.

— Chris A.
fonte

Observando a página wiki do IRWLS , luto para a diferença entre o procedimento que você descreve e o IRWLS (eles apenas usam como sua função específica). Você pode explicar de que maneira você acha que o algoritmo que você propõe é diferente do IRWLS?

| y_{i} - x x_{i}^{'} β β |^{2}

$|y_i-\pmb x_i'\pmb\beta|^2$

ρ

$\rho$

— User603

Eu nunca afirmei que era diferente e, se eu implicasse, não pretendia.

— Chris A.

Quanto à sua primeira pergunta, deve-se definir "padrão" ou reconhecer que um "modelo canônico" foi gradualmente estabelecido. Como um comentário indicado, parece pelo menos que a maneira como você usa o IRWLS é bastante padrão.

Quanto à sua segunda pergunta, o "mapeamento de contração em probabilidade" pode estar ligado (embora informalmente) à convergência de "algoritmos estocásticos recursivos". Pelo que li, há uma enorme literatura sobre o assunto, principalmente em Engenharia. Em Economia, usamos um pouco disso, especialmente os trabalhos seminais de Lennart Ljung - o primeiro artigo foi Ljung (1977) - que mostrou que a convergência (ou não) de um algoritmo estocástico recursivo pode ser determinada pela estabilidade (ou not) de uma equação diferencial ordinária relacionada.

(o que se segue foi reformulado após uma discussão proveitosa com o OP nos comentários)

Convergência

Vou usar como referência Saber Elaydi "Uma Introdução às Equações das Diferenças", 2005, 3d ed. A análise é condicional em algumas amostras de dados, portanto os são tratados como fixos. $x's$

A condição de primeira ordem para a minimização da função objetivo, vista como uma função recursiva em , $m$

m (k + 1) = \sum_{i = 1}^{N} v_{i} [m (k)] x_{i}, v_{i} [m (k)] \equiv \frac{w_{i} [m (k)]}{\sum_{i = 1}^{N} w_{i} [m (k)]} [1]

$m(k+1) = \sum_{i=1}^{N} v_i[m(k)] x_i, \;\; v_i[m(k)] \equiv \frac{w_i[m(k)]}{ \sum_{i=1}^{N} w_i[m(k)]} \qquad [1]$

tem um ponto fixo (o argumento da função objetivo). Pelo Teorema 1.13 pp 27-28 de Elaydi, se a primeira derivada em relação a do RHS de , avaliada no ponto fixo , denota-o , é menor que a unidade em valor absoluto, então é assintoticamente estável (AS). Mais adiante, pelo Teorema 4.3 p.179, temos que isso também implica que o ponto fixo é uniformemente AS (UAS). "Assintoticamente estável" significa que, para alguma faixa de valores em torno do ponto fixo, uma vizinhança , não necessariamente pequena em tamanho, o ponto fixo é atraente $m$ $[1]$ $m^*$ $A'(m^*)$ $m^*$
$(m^* \pm \gamma)$ e, portanto, se o algoritmo fornecer valores nesse bairro, ele convergirá. A propriedade sendo "uniforme" significa que o limite dessa vizinhança e, portanto, seu tamanho, é independente do valor inicial do algoritmo. O ponto fixo torna-se UAS globalmente , se . Então, no nosso caso, se provarmos que $\gamma = \infty$

| A^{'} (m^{*}) | \equiv | \sum_{i = 1}^{N} \frac{\partial v_{i} (m^{*})}{\partial m} x_{i} | < 1 [2]

$|A'(m^*)|\equiv \left|\sum_{i=1}^{N} \frac{\partial v_i(m^*)}{\partial m}x_i\right| <1 \qquad [2]$

provamos a propriedade UAS, mas sem convergência global. Em seguida, podemos tentar estabelecer que a vizinhança da atração é de fato todo o número real estendido ou que o valor inicial específico que o OP usa conforme mencionado nos comentários (e é padrão na metodologia IRLS), ou seja, a média da amostra dos 's, , sempre pertence ao bairro de atração do ponto fixo. $x$ $\bar x$

Calculamos a derivada

\frac{\partial v_{i} (m^{*})}{\partial m} = \frac{\frac{\partial w_{i} (m^{*})}{\partial m} \sum_{i = 1}^{N} w_{i} (m^{*}) - w_{i} (m^{*}) \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}}{{(\sum_{i = 1}^{N} w_{i} (m^{*}))}^{2}}

$\frac{\partial v_i(m^*)}{\partial m} = \frac {\frac{\partial w_i(m^*)}{\partial m}\sum_{i=1}^{N} w_i(m^*)-w_i(m^*)\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}}{\left(\sum_{i=1}^{N} w_i(m^*)\right)^2}$

= \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\frac{\partial w_{i} (m^{*})}{\partial m} - v_{i} (m^{*}) \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}]

$=\frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\frac{\partial w_i(m^*)}{\partial m}-v_i(m^*)\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right]$ Então

A^{'} (m^{*}) = \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} x_{i} - (\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}) \sum_{i = 1}^{N} v_{i} (m^{*}) x_{i}]

$A'(m^*) = \frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}x_i-\left(\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right)\sum_{i=1}^{N}v_i(m^*)x_i\right]$

= \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} x_{i} - (\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}) m^{*}]

$=\frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}x_i-\left(\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right)m^*\right]$

| A^{'} (m^{*}) | < 1 \Rightarrow | \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} (x_{i} - m^{*}) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) | [3]

$|A'(m^*)| <1 \Rightarrow \left|\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}(x_i-m^*)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right| \qquad [3]$

temos

\begin{aligned} \frac{\partial w_{i} (m^{*})}{\partial m} = & \frac{- ρ^{″} (| x_{i} - m^{*} |) \cdot \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |} | x_{i} - m^{*} | + \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |} ρ^{'} (| x_{i} - m^{*} |)}{| x_{i} - m^{*} |^{2}} \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{3}} ρ^{'} (| x_{i} - m^{*} |) - ρ^{″} (| x_{i} - m^{*} |) \cdot \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [\frac{ρ^{'} (| x_{i} - m^{*} |)}{| x_{i} - m^{*} |} - ρ^{″} (| x_{i} - m^{*} |)] \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [w_{i} (m^{*}) - ρ^{″} (| x_{i} - m^{*} |)] \end{aligned}

$\begin{align}\frac{\partial w_i(m^*)}{\partial m} = &\frac{-\rho''(|x_i-m^*|)\cdot \frac {x_i-m^*}{|x_i-m^*|}|x_i-m^*|+\frac {x_i-m^*}{|x_i-m^*|}\rho'(|x_i-m^*|)}{|x_i-m^*|^2} \\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^3}\rho'(|x_i-m^*|) - \rho''(|x_i-m^*|)\cdot \frac {x_i-m^*}{|x_i-m^*|^2} \\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[\frac {\rho'(|x_i-m^*|)}{|x_i-m^*|}-\rho''(|x_i-m^*|)\right]\\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[w_i(m^*)-\rho''(|x_i-m^*|)\right] \end{align}$

Inserindo isso em , temos $[3]$

| \sum_{i = 1}^{N} \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [w_{i} (m^{*}) - ρ^{″} (| x_{i} - m^{*} |)] (x_{i} - m^{*}) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) |

$\left|\sum_{i=1}^{N}\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[w_i(m^*)-\rho''(|x_i-m^*|)\right](x_i-m^*)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right|$

\Rightarrow | \sum_{i = 1}^{N} w_{i} (m^{*}) - \sum_{i = 1}^{N} ρ^{″} (| x_{i} - m^{*} |) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) | [4]

$\Rightarrow \left|\sum_{i=1}^{N}w_i(m^*)-\sum_{i=1}^{N}\rho''(|x_i-m^*|)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right| \qquad [4]$

Essa é a condição que deve ser atendida para que o ponto fixo seja UAS. Como no nosso caso a função de penalidade é convexa, as somas envolvidas são positivas. Portanto, a condição é equivalente a $[4]$

\sum_{i = 1}^{N} ρ^{″} (| x_{i} - m^{*} |) < 2 \sum_{i = 1}^{N} w_{i} (m^{*}) [5]

$\sum_{i=1}^{N}\rho''(|x_i-m^*|) < 2\sum_{i=1}^{N}w_i(m^*) \qquad [5]$

Se é a função de perda de Hubert, temos um ramo quadrático ( ) e linear ( ), $\rho(|x_i-m|)$ $q$ $l$

ρ (| x_{i} - m |) = {\begin{cases} (1 / 2) | x_{i} - m |^{2} | x_{i} - m | \leq δ \\ δ (| x_{i} - m | - δ / 2) | x_{i} - m | > δ \end{cases}

$\rho(|x_i-m|)=\cases{ (1/2)|x_i- m|^2 \qquad\;\;\;\; |x_i-m|\leq \delta \\ \\ \delta\big(|x_i-m|-\delta/2\big) \qquad |x_i-m|> \delta}$

ρ^{'} (| x_{i} - m |) = {\begin{cases} | x_{i} - m | | x_{i} - m | \leq δ \\ δ | x_{i} - m | > δ \end{cases}

$\rho'(|x_i-m|)=\cases{ |x_i- m| \qquad |x_i-m|\leq \delta \\ \\ \delta \qquad \qquad \;\;\;\; |x_i-m|> \delta}$

ρ^{″} (| x_{i} - m |) = {\begin{cases} 1 | x_{i} - m | \leq δ \\ 0 | x_{i} - m | > δ \end{cases}

$\rho''(|x_i-m|)=\cases{ 1\qquad |x_i-m|\leq \delta \\ \\ 0 \qquad |x_i-m|> \delta}$

{\begin{cases} w_{i, q} (m) = 1 | x_{i} - m | \leq δ \\ w_{i, l} (m) = \frac{δ}{| x_{i} - m |} < 1 | x_{i} - m | > δ \end{cases}

$\cases{ w_{i,q}(m) =1\qquad \qquad \qquad |x_i-m|\leq \delta \\ \\ w_{i,l}(m) =\frac {\delta}{|x_i-m|} <1 \qquad |x_i-m|> \delta}$

Como não sabemos quantos dosnos coloca no ramo quadrático e quantos no linear, decompomos a condição como ( ) $|x_i-m^*|$ $[5]$ $N_q + N_l = N$

\sum_{i = 1}^{N_{q}} ρ_{q}^{″} + \sum_{i = 1}^{N_{l}} ρ_{l}^{″} < 2 [\sum_{i = 1}^{N_{q}} w_{i, q} + \sum_{i = 1}^{N_{l}} w_{i, l}]

$\sum_{i=1}^{N_q}\rho_q''+\sum_{i=1}^{N_l}\rho_l'' < 2\left[\sum_{i=1}^{N_q}w_{i,q} +\sum_{i=1}^{N_l}w_{i,l}\right]$

\Rightarrow N_{q} + 0 < 2 [N_{q} + \sum_{i = 1}^{N_{l}} w_{i, l}] \Rightarrow 0 < N_{q} + 2 \sum_{i = 1}^{N_{l}} w_{i, l}

$\Rightarrow N_q + 0 < 2\left[N_q +\sum_{i=1}^{N_l}w_{i,l}\right] \Rightarrow 0 < N_q+2\sum_{i=1}^{N_l}w_{i,l}$

que vale. Portanto, para a função de perda de Huber, o ponto fixo do algoritmo é uniformemente assintoticamente estável, independentemente dos 's. Observamos que a primeira derivada é menor que a unidade em valor absoluto para qualquer , não apenas o ponto fixo. $x$ $m$

O que devemos fazer agora é provar que a propriedade UAS também é global ou que, se então pertence ao bairro de atração de . $m(0) = \bar x$ $m(0)$ $m^*$

— Alecos Papadopoulos
fonte

Obrigado pela resposta. Dê-me algum tempo para analisar esta resposta.

— Chris A.

Certamente. Afinal, a pergunta esperou 20 meses.

— Alecos Papadopoulos

Sim, lembrei-me do problema e decidi oferecer uma recompensa. :)

— Chris A.

Sorte minha. Eu não estava lá há 20 meses - eu teria aceitado essa pergunta, generosamente ou não.

— Alecos Papadopoulos

Muito obrigado por esta resposta. Até agora, parece que você ganhou a recompensa. BTW, sua indexação na derivada de wrt é estranha. As somas na segunda linha disso não poderiam usar outra variável, como ?

v_{i}

$v_i$

m

$m$

j

$j$

— Chris A.