Depois de simplificar o problema por meio de procedimentos de rotina, ele pode ser resolvido convertendo-o em um programa de minimização duplo, que possui uma resposta bem conhecida com uma prova elementar. Talvez essa dualização seja o "passo sutil" mencionado na pergunta. A desigualdade também pode ser estabelecida de maneira puramente mecânica, maximizandovia multiplicadores Lagrange.|Ti|
Primeiro, porém, ofereço uma solução mais elegante com base na geometria dos mínimos quadrados. Não requer simplificação preliminar e é quase imediato, fornecendo intuição direta ao resultado. Como sugerido na pergunta, o problema se reduz à desigualdade de Cauchy-Schwarz.
Solução geométrica
Considere como um vetor dimensional no espaço euclidiano com o produto pontual usual. Seja seja o vetor base e . Escreva e para as projeções ortogonais de e no complemento ortogonal de . (Na terminologia estatística, eles são os resíduos com relação às médias.) Então, como ex=(X1,X2,…,Xn)ny=(0,0,…,0,1,0,…,0)ith1=(1,1,…,1)x^y^xy1Xi−X¯=x^⋅yS=||x^||/n−1−−−−−√ ,
|Ti|=n−1−−−−−√|x^⋅y|||x^||=n−1−−−−−√|x^⋅y^|||x^||
é o componente de na direção . Por Cauchy-Schwarz, ele é maximizado exatamente quando é paralelo a , para o qual QED.y^x^x^y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Ti=±n−1−−−−−√y^⋅y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
Aliás, esta solução fornece uma caracterização exaustiva de todos os casos em queé maximizado: eles têm todas as formas|Ti|
x=σy^+μ1=σ(−1,−1,…,−1,n−1,−1,−1,…,−1)+μ(1,1,…,1)
para todo real .μ,σ
Essa análise generaliza facilmente para o caso em que é substituído por qualquer conjunto de regressores. Evidentemente, o máximo de é proporcional ao comprimento do resíduo de ,.{1}Tiy||y^||
Simplificação
Como é invariável sob mudanças de localização e escala, podemos assumir, sem perda de generalidade, que soma zero e seus quadrados somam . Isso identificacom, uma vez que (o quadrado médio) é . Maximizar isso equivale a maximizar . Nenhuma generalidade é perdida ao considerar , pois os são permutáveis.TiXin−1|Ti||Xi|S1|Ti|2=T2i=X2ii=1Xi
Solução através de uma formulação dupla
Um problema duplo é fixar o valor de e perguntar quais valores do restante são necessários para minimizar a soma dos quadrados considerando que . Como é fornecido, esse é o problema de minimizar considerando que .X21Xj,j≠1∑nj=1X2j∑nj=1Xj=0X1∑nj=2X2j∑nj=2Xj=−X1
A solução é facilmente encontrada de várias maneiras. Um dos mais elementares é escrever
Xj=−X1n−1+εj, j=2,3,…,n
para o qual . Expandir a função objetivo e usar essa identidade de soma para zero para simplificá-la produz∑nj=2εj=0
∑j=2nX2j=∑j=2n(−X1n−1+εj)2=∑(−X1n−1)2−2X1n−1∑εj+∑ε2j=Constant+∑ε2j,
mostrar imediatamente a solução exclusiva é para todos os . Para esta solução,εj=0j
(n−1)S2=X21+(n−1)(−X1n−1)2=(1+1n−1)X21=nn−1X21
e
|Ti|=|X1|S=|X1|n(n−1)2X21−−−−−−−√=n−1n−−√,
QED .
Solução através de máquinas
Retorne ao programa simplificado com o qual começamos:
Maximize X21
sujeito a
∑i=1nXi=0 and ∑i=1nX2i−(n−1)=0.
O método dos multiplicadores de Lagrange (que é quase puramente mecânico e direto) iguala a uma combinação linear não trivial dos gradientes dessas três funções para zero:
(0,0,…,0)=λ1D(X21)+λ2D(∑i=1nXi)+λ3D(∑i=1nX2i−(n−1)).
Componente por componente, essas equações sãon
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
O último deles implica ou . (Podemos descartar o último caso, porque a primeira equação implica , banalizando a combinação linear.) A restrição de soma para zero produz . A restrição da soma dos quadrados fornece as duas soluçõesn−1X2=X3=⋯=Xn=−λ2/(2λ3)λ2=λ3=0λ1=0X1=−(n−1)X2
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Ambos produzem
|Ti|=|X1|≤|±n−1n−−√|=n−1n−−√.