Quanto à sua primeira pergunta, deve-se definir "padrão" ou reconhecer que um "modelo canônico" foi gradualmente estabelecido. Como um comentário indicado, parece pelo menos que a maneira como você usa o IRWLS é bastante padrão.
Quanto à sua segunda pergunta, o "mapeamento de contração em probabilidade" pode estar ligado (embora informalmente) à convergência de "algoritmos estocásticos recursivos". Pelo que li, há uma enorme literatura sobre o assunto, principalmente em Engenharia. Em Economia, usamos um pouco disso, especialmente os trabalhos seminais de Lennart Ljung - o primeiro artigo foi Ljung (1977) - que mostrou que a convergência (ou não) de um algoritmo estocástico recursivo pode ser determinada pela estabilidade (ou not) de uma equação diferencial ordinária relacionada.
(o que se segue foi reformulado após uma discussão proveitosa com o OP nos comentários)
Convergência
Vou usar como referência Saber Elaydi "Uma Introdução às Equações das Diferenças", 2005, 3d ed.
A análise é condicional em algumas amostras de dados, portanto os são tratados como fixos. x′s
A condição de primeira ordem para a minimização da função objetivo, vista como uma função recursiva em ,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
tem um ponto fixo (o argumento da função objetivo). Pelo Teorema 1.13 pp 27-28 de Elaydi, se a primeira derivada em relação a do RHS de , avaliada no ponto fixo , denota-o , é menor que a unidade em valor absoluto, então é assintoticamente estável (AS). Mais adiante, pelo Teorema 4.3 p.179, temos que isso também implica que o ponto fixo é uniformemente AS (UAS).
"Assintoticamente estável" significa que, para alguma faixa de valores em torno do ponto fixo, uma vizinhança , não necessariamente pequena em tamanho, o ponto fixo é atraente[ 1 ] m ∗ A ′ ( m ∗ ) m ∗ ( m ∗ ± γ ) γ = ∞m[1]m∗A′(m∗)m∗
(m∗±γ)e, portanto, se o algoritmo fornecer valores nesse bairro, ele convergirá. A propriedade sendo "uniforme" significa que o limite dessa vizinhança e, portanto, seu tamanho, é independente do valor inicial do algoritmo. O ponto fixo torna-se UAS globalmente , se .
Então, no nosso caso, se provarmos queγ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
provamos a propriedade UAS, mas sem convergência global. Em seguida, podemos tentar estabelecer que a vizinhança da atração é de fato todo o número real estendido ou que o valor inicial específico que o OP usa conforme mencionado nos comentários (e é padrão na metodologia IRLS), ou seja, a média da amostra dos 's, , sempre pertence ao bairro de atração do ponto fixo.ˉ xxx¯
Calculamos a derivada
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
Então
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
e
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
temos
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserindo isso em , temos[3]
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
Essa é a condição que deve ser atendida para que o ponto fixo seja UAS. Como no nosso caso a função de penalidade é convexa, as somas envolvidas são positivas. Portanto, a condição é equivalente a[4]
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
Se é a função de perda de Hubert, temos um ramo quadrático ( ) e linear ( ),ρ(|xi−m|)ql
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
e
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Como não sabemos quantos dosnos coloca no ramo quadrático e quantos no linear, decompomos a condição como ( )|xi−m∗|[5]Nq+Nl=N
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
que vale. Portanto, para a função de perda de Huber, o ponto fixo do algoritmo é uniformemente assintoticamente estável, independentemente dos 's. Observamos que a primeira derivada é menor que a unidade em valor absoluto para qualquer , não apenas o ponto fixo. xm
O que devemos fazer agora é provar que a propriedade UAS também é global ou que, se então pertence ao bairro de atração de .m(0)=x¯m(0)m∗