Uma unidade maxout pode aprender uma função convexa linear, por partes, com até k peças. 1
Portanto, quando k é 2, é possível implementar a ReLU, ReLU absoluta, ReLU com vazamento etc., ou pode aprender a implementar uma nova função. Se k for digamos 10, você pode aprender aproximadamente a função convexa.
Quando k é 2:
o neurônio Maxout calcula a função . ReLU e Leaky ReLU são um caso especial desse formulário (por exemplo, para ReLU, temos ). Portanto, o neurônio Maxout desfruta de todos os benefícios de uma unidade ReLU (regime linear de operação, sem saturação) e não possui suas desvantagens (ReLU moribundo).max(wT1x+b1,wT2x+b2)w1,b1=0
No entanto, diferentemente dos neurônios da ReLU, ele duplica o número de parâmetros para cada neurônio, levando a um número total alto de parâmetros. 2
Você pode ler os detalhes aqui:
1. livro DL
2. http://cs231n.github.io/neural-networks-1