Estou curioso para por que geralmente há apenas regularização de normas e . Existem provas de por que estas são melhores?L 2
Estou curioso para por que geralmente há apenas regularização de normas e . Existem provas de por que estas são melhores?L 2
Respostas:
Além dos comentários do @ whuber (*).
O livro de Hastie et al. Aprendizado estatístico com Sparsity discute isso. Eles também usam o que é chamado de "norma" (aspas porque essa não é uma norma no sentido matemático estrito (**)), que simplesmente conta o número de componentes diferentes de zero de um vetor.
Nesse sentido, a norma é usada para seleção de variáveis, mas, juntamente com as normas com não é convexa, sendo difícil de otimizar. Eles argumentam (um argumento que acho que vem de Donohoe no sensor comprimido) que a norma , ou seja, o laço, é a melhor convexificação da "norma" ("o relaxamento convexo mais próximo da melhor seleção de subconjunto"). Esse livro também faz referência a alguns usos de outras normas . A bola unitária na -norm com parece com issol q q < 1 L 1 L 0 L q l q q q < 1
(imagem da wikipedia), enquanto uma explicação pictórica de por que o laço pode fornecer seleção de variáveis é
Esta imagem é do livro mencionado acima. Você pode ver que, no caso do laço (a bola unitária desenhada como um diamante), é muito mais provável que os contornos elipsoidais (soma dos quadrados) tocem primeiro o diamante em um dos cantos. No caso não convexo (figura da primeira bola unitária), é ainda mais provável que o primeiro toque entre o elipsóide e a bola unitária esteja em um dos cantos, de modo que o caso enfatize a seleção de variáveis ainda mais que o laço.
Se você tentar esse "laço com penalidade não convexa" no google, você receberá muitos trabalhos com problemas semelhantes ao laço com penalidade não convexa, como com . q < 1
(*) Para completar, copio aqui os comentários da whuber:
Não investiguei essa questão especificamente, mas a experiência com situações semelhantes sugere que pode haver uma boa resposta qualitativa: todas as normas que são segundo diferenciáveis na origem serão localmente equivalentes entre si, das quais a norma é o padrão. Todas as outras normas não serão diferenciáveis na origem e reproduz qualitativamente seu comportamento. Isso abrange toda a gama. Com efeito, uma combinação linear de um e norma aproxima qualquer norma de segunda ordem na origem - e isso é o que mais importa na regressão sem resíduos periféricas.L 1 L 1 L 2
(**) O - "norma" não possui homogeneidade, que é um dos axiomas para as normas. Homogeneidade significa para que. α ≥ 0 " α x " = α " x "
Eu acho que a resposta para a pergunta depende muito de como você define "melhor". Se estou interpretando bem, você quer saber por que essas normas aparecem com tanta frequência em comparação com outras opções. Nesse caso, a resposta é simplicidade. A intuição por trás da regularização é que eu tenho algum vetor e gostaria que esse vetor fosse "pequeno" em algum sentido. Como você descreve o tamanho de um vetor? Bem, você tem opções:
Você pode empregar normas alternativas como , mas elas não têm interpretações físicas amigáveis como as acima.
Dentro dessa lista, a norma apresenta soluções analíticas agradáveis de forma fechada para problemas como mínimos quadrados. Antes que você tivesse poder computacional ilimitado, não seria possível avançar muito de outra maneira. Eu especularia que o visual do "comprimento da flecha" também é mais atraente para as pessoas do que outras medidas de tamanho. Embora a norma escolhida para a regularização tenha impacto nos tipos de resíduos obtidos com uma solução ideal, não acho que a maioria das pessoas a) esteja ciente disso ou b) considere isso profundamente ao formular seu problema. Neste ponto, espero que a maioria das pessoas continue usando porque é "o que todos fazem".L 2
Uma analogia seria a função exponencial, - isso aparece literalmente em toda parte na física, economia, estatísticas, aprendizado de máquina ou qualquer outro campo matematicamente orientado. Sempre me perguntei por que tudo na vida parecia ser descrito por exponenciais, até que percebi que nós, humanos, simplesmente não temos muitos truques na manga. Os exponenciais têm propriedades muito úteis para fazer álgebra e cálculo e, portanto, acabam sendo a principal função na caixa de ferramentas de qualquer matemático ao tentar modelar algo no mundo real. Pode ser que coisas como tempo de descoerência sejam "melhores" descritas por um polinômio de alta ordem, mas essas são relativamente mais difíceis de fazer álgebra e, no final do dia, o que importa é que sua empresa está lucrando - o exponencial é mais simples e bom o suficiente.
Caso contrário, a escolha da norma terá efeitos muito subjetivos, e cabe a você, como pessoa que indica o problema, definir o que você prefere em uma solução ideal. Você se importa mais com o fato de todos os componentes em seu vetor de solução serem similares em magnitude ou com o tamanho do maior componente o menor possível? Essa escolha dependerá do problema específico que você está resolvendo.
A principal razão para ver principalmente e normas é que eles cobrem a maioria das aplicações atuais. Por exemplo, a norma também chamada de norma de táxi , uma norma de conexão reticulada em rede, inclui a norma de valor absoluto . L 2 L 1
n ‖ Um x - b ‖ 2 + ‖ Γ x ‖ 2 L 2 normas são, além dos mínimos quadrados, as distâncias euclidianas no espaço , bem como a norma variável complexa . Além disso, a regularização de Tikhonov e a regressão de cume , ou seja, aplicativos que minimizam , são frequentemente consideradas normas .
A Wikipedia fornece informações sobre essas e outras normas . Vale mencionar . A norma generalizada , a norma também denominada norma uniforme .L ∞