Eles são realmente equivalentes, já que você sempre pode redimensionar (consulte também o comentário do @ whuber). Do ponto de vista teórico, é uma questão de conveniência, mas até onde eu sei, não é necessário. De uma perspectiva computacional, na verdade, eu acho o bastante irritante, então geralmente uso a primeira formulação se estiver projetando um algoritmo que usa regularização.λ1/(2n)
Um pouco da história: quando comecei a aprender sobre métodos penalizados, fiquei aborrecido ao carregar o em todos os lugares do meu trabalho, então preferi ignorá-lo - até simplificou alguns dos meus cálculos. Naquela época, meu trabalho era principalmente computacional. Mais recentemente, tenho realizado um trabalho teórico e achei o indispensável (mesmo vs., digamos, ).1/(2n)1/(2n)1/n
Mais detalhes: Quando você tenta analisar o comportamento do Lasso em função do tamanho da amostra , freqüentemente precisa lidar com somas de variáveis aleatórias iid e, na prática, geralmente é mais conveniente analisar tais somas após a normalização por - - pense na lei do grande número / teorema do limite central (ou se você deseja obter uma fantasia, concentração de medida e teoria empírica do processo). Se você não possui o termo antes da perda, acaba por redimensionar algo no final da análise, por isso é geralmente melhor tê-lo lá para começar. O é conveniente porque cancela alguns fatores irritantes denn1/n1/22 na análise (por exemplo, quando você toma a derivada do termo da perda ao quadrado).
Outra maneira de pensar sobre isso é que, ao fazer a teoria, geralmente estamos interessados no comportamento das soluções à medida que aumenta - ou seja, não é uma quantidade fixa. Na prática, quando executamos o Lasso em algum conjunto de dados fixo, é de fato fixo da perspectiva do algoritmo / computação. Portanto, ter o fator de normalização extra na frente não é tão útil.nnn
Isso pode parecer um assunto irritante de conveniência, mas depois de gastar tempo suficiente manipulando esses tipos de desigualdades, aprendi a amar o .1/(2n)