Quando lemos um livro, a compreensão das notações desempenha um papel muito importante na compreensão do conteúdo. Infelizmente, comunidades diferentes têm convenções de notação diferentes para a formulação do modelo e o problema de otimização. Alguém poderia resumir algumas notações de formulação aqui e fornecer possíveis razões?
Vou dar um exemplo aqui: Na literatura de álgebra linear, o livro clássico é a introdução de Strang à álgebra linear . A notação mais usada no livro é
Onde é uma matriz de coeficientes , é as variáveis a serem resolvidos e é um vector no lado direito da equação . A razão pela qual o livro escolhe essa notação é o principal objetivo da álgebra linear é resolver um sistema linear e descobrir o que é o vetor . Dada essa formulação, o problema de otimização do OLS éx
Em estatística ou alfabetizado em machine learning (do livro Elements of Statistical Learning ), as pessoas usam notações diferentes para representar a mesma coisa:
Onde é a matriz de dados , são os coeficientes ou pesos a serem aprendidos na aprendizagem , é a resposta. A razão pela qual as pessoas usam isso é porque as pessoas na comunidade de estatística ou de aprendizado de máquina são orientadas por dados ; portanto, dados e resposta são a coisa mais interessante para eles, onde usam e para representar.
Agora podemos ver toda a confusão possível: na primeira equação é igual a na segunda equação. E na segunda equação não é algo que precisa ser resolvido. Também para os termos: é a matriz do coeficiente na álgebra linear, mas são dados em estatística. também é chamado de "coeficiente".
Além disso, mencionei que não é exatamente o que as pessoas costumam usar no aprendizado de máquina; as pessoas usam uma versão meio vetorizada que resume todos os pontos de dados. Tal como
Penso que a razão para isto é que é bom quando se fala da descida do gradiente estocástico e de outras funções de perda diferentes. Além disso, a notação concisa da matriz desaparece para outros problemas além da regressão linear.
Notação matricial para regressão logística
Alguém poderia dar mais resumos sobre as notações cruzando literatura diferente? Espero que respostas inteligentes para essa pergunta possam ser usadas como uma boa referência para quem lê livros cruzar literatura diferente.
por favor, não ser limitado por meu exemplo e . Existem muitos outros. Tal como
Por que existem duas formulações / notações de perda logística diferentes?