História:
Minha avó caminha, mas não sobe. Algumas avós fazem. Uma avó era famosa por escalar o Kilimanjaro .
Aquele vulcão adormecido é grande. É 16.000 pés acima de sua base. (Não odeie minhas unidades imperiais.) Às vezes também tem geleiras no topo.
Se você subir em um ano em que não há geleira e chegar ao topo, é o mesmo topo como se houvesse uma geleira? A altitude é diferente. O caminho que você deve seguir é diferente. E se você for ao topo quando a espessura da geleira for maior? Isso torna mais uma conquista? Cerca de 35.000 pessoas tentam escalá- lo todos os anos, mas apenas 16.000 são bem-sucedidos.
Aplicação:
Então, eu explicaria o controle de pesos (também conhecido como minimizar a complexidade do modelo) para minha avó, da seguinte maneira:
Avó, seu cérebro é um pensador incrível, sabendo ou não. Se eu perguntar a você quantos dos 16.000 que pensam que chegaram ao topo realmente o fizeram, você diria "todos eles".
Se eu colocasse sensores nos sapatos de todos os 30.000 alpinistas e medisse a altura acima do nível do mar, algumas dessas pessoas não ficariam tão altas quanto as outras e talvez não se qualificassem. Quando faço isso, vou para um modelo constante - estou dizendo que, se a altura não for igual a algum percentil das alturas máximas medidas, não será o topo. Algumas pessoas pulam no topo. Algumas pessoas simplesmente cruzam a linha e se sentam.
Eu poderia adicionar latitude e longitude ao sensor e ajustar algumas equações de ordem superior e talvez eu pudesse ter um ajuste melhor e ter mais pessoas, talvez até exatamente 45% do total de pessoas que tentam.
Então, digamos que o próximo ano seja um ano de "grande geleira" ou um ano de "não geleira" porque algum vulcão realmente transforma o albedo da terra. Se eu pegar meu modelo complexo e exigente deste ano e aplicá-lo às pessoas que escalam no próximo ano, o modelo terá resultados estranhos. Talvez todos "passem" ou até estejam muito altos para passar. Talvez ninguém passe e ache que ninguém completou a subida. Especialmente quando o modelo é complexo, ele tenderá a não generalizar bem. Ele pode se encaixar exatamente nos dados de "treinamento" deste ano, mas quando novos dados chegam, ele se comporta mal.
Discussão:
Quando você limita a complexidade do modelo, geralmente pode ter uma melhor generalização sem ajustar demais. O uso de modelos mais simples, mais construídos para acomodar as variações do mundo real, tende a fornecer melhores resultados, sendo o restante igual.
Agora você tem uma topologia de rede fixa e está dizendo "minha contagem de parâmetros está corrigida" - não posso ter variação na complexidade do modelo. Absurdo. Meça a entropia nos pesos. Quando a entropia é mais alta, significa que alguns coeficientes carregam substancialmente mais "informatividade" do que outros. Se você tem uma entropia muito baixa, significa que, em geral, os coeficientes apresentam níveis semelhantes de "informatividade". Informatividade não é necessariamente uma coisa boa. Numa democracia, você deseja que todas as pessoas sejam iguais, e coisas como George Orwell "mais iguais que outras" são uma medida das falhas do sistema. Se você não tiver um ótimo motivo, deseja que os pesos sejam bastante semelhantes entre si.
Em uma observação pessoal: em vez de usar vodu ou heurísticas, prefiro coisas como "critérios de informação" porque elas me permitem obter resultados confiáveis e consistentes. AIC , AICc e BIC são alguns pontos de partida comuns e úteis. Repetir a análise para determinar a estabilidade da solução ou os resultados dos critérios de informações é uma abordagem comum. Pode-se considerar colocar um teto na entropia nos pesos.