Identificabilidade de modelos de redes neurais

É bastante intuitivo que a maioria das arquiteturas / topologias de redes neurais não seja identificável. Mas quais são alguns resultados bem conhecidos no campo? Existem condições simples que permitem / impedem a identificação? Por exemplo,

todas as redes com funções de ativação não lineares e mais de uma camada oculta não são identificáveis
todas as redes com mais de duas unidades ocultas não são identificáveis

Ou coisas assim. NOTA : Não estou dizendo que essas condições impedem a identificabilidade (embora elas me pareçam boas candidatas). Eles são apenas exemplos do que quero dizer com "condições simples".

Se ajudar a refinar a questão, fique à vontade para considerar apenas as arquiteturas de feed-forward e recorrentes. Se isso ainda não for suficiente, eu ficaria satisfeito com uma resposta que abrange pelo menos uma arquitetura entre MLP, CNN e RNN. Eu dei uma olhada rápida na Web, mas parece que a única discussão que pude encontrar foi no Reddit. Vamos lá pessoal, podemos fazer melhor que o Reddit ;-)

— DeltaIV
fonte

qual é o objetivo deste exercício acadêmico?

— Aksakal

Posso perguntar o que você considerou / examinou da literatura existente? Esta parece ser uma questão muito específica; as poucas referências relevantes que eu vi associadas na literatura de identificação do sistema em vez do ML padrão (por exemplo , 1 , 2 , 3 ). Você pode definir sua pergunta um pouco mais no contexto da ML? A identificabilidade é principalmente um aspecto dos sistemas de controle; você está "apenas" se referindo à relação 1-1?

— usεr11852

Eu acho que você deve poder facilmente provar esses resultados usando o teorema da função implícita.

— Alex R.

@ Aksakal, qual é o propósito de calcular a probabilidade de a urna estar vazia ao meio-dia, depois de infinitas etapas nas quais 10 bolas são adicionadas e uma removida? . Ninguém, mas ainda assim a pergunta foi divertida. Nem todas as perguntas precisam ter relevância prática, para valer a pena responder. Ou você poderia dizer que a falta de identificabilidade o impede de fazer inferência precisas sobre os pesos NN, mas isso seria uma falsa justificação porque quase ninguém está interessado ...

— DeltaIV

@ DeltaIV, é uma pergunta válida para o CV. O problema é que ninguém se importa em pensar nessas coisas, receio. Todo mundo está construindo modelos ocupados e ganhar dinheiro, quando os modelos parar de trabalhar que é quando desempregados pensadores AI vai refletir sobre o identifyability

— Aksakal

Respostas:

Os FFNs lineares de camada única não são identificados

A pergunta como foi editada para excluir este caso; Eu mantenho aqui porque entender o caso linear é um exemplo simples do fenômeno de interesse.

Considere uma rede neural avançada com 1 camada oculta e todas as ativações lineares. A tarefa é uma tarefa de regressão OLS simples.

$\hat{y}=X A B$

min_{A, B} \frac{1}{2} | | y - X A B | |_{2}^{2}

$\min_{A,B} \frac{1}{2}|| y - X A B ||_2^2$

para alguma escolha de de forma apropriada. são os pesos de entrada para ocultos e são os pesos de ocultos para saída. $A, B$ $A$ $B$

Claramente, os elementos das matrizes de peso não são identificáveis em geral, uma vez que existem inúmeras configurações possíveis para as quais dois pares de matrizes têm o mesmo produto. $A,B$

Os FFNs de camada única não linear ainda não foram identificados

Construindo a partir do FFN linear de camada única, também podemos observar a não identificação no FFN não linear de camada única.

Como exemplo, adicionar uma não linearidade a qualquer uma das ativações lineares cria uma rede não linear. Essa rede ainda não foi identificada porque, para qualquer valor de perda, uma permutação dos pesos de dois (ou mais) neurônios em uma camada e seus neurônios correspondentes na próxima camada também resultará no mesmo valor de perda. $\tanh$

Em geral, redes neurais não são identificadas

Podemos usar o mesmo raciocínio para mostrar que as redes neurais não são identificadas em todas, exceto em parametrizações muito particulares.

Por exemplo, não há nenhuma razão específica para que filtros convolucionais devam ocorrer em qualquer ordem específica. Também não é necessário que os filtros convolucionais possuam qualquer sinal específico, uma vez que os pesos subsequentes podem ter o sinal oposto para "inverter" essa escolha.

Da mesma forma, as unidades em uma RNN podem ser permutadas para obter a mesma perda.

Veja também: Podemos usar o MLE para estimar os pesos da rede neural?

— Sycorax diz restabelecer Monica
fonte

Eu estava especificamente excluindo esse caso (funções de ativação linear) nos comentários da minha pergunta, porque é trivial obter um modelo identificável, partindo deste, que fornece exatamente as mesmas previsões , com uma simples reparametrização. Não é "intrinsecamente não identificável", por assim dizer. Então, eu estava me referindo especificamente a funções de ativação não lineares. Mas acho que devo incluí-lo na minha pergunta, não apenas deixá-lo em comentários. Dentro de algumas horas, modificarei minha pergunta de acordo.

— DeltaIV

É uma prática recomendada editar sua pergunta para esclarecer o que você está interessado em saber.

— Sycorax diz Reinstate Monica

você está certo, eu costumo fazer, mas desta vez eu esqueci. Foi mal.

— DeltaIV

$n!$ $n$

— RUser4512
fonte