é possível fazer uma estimativa geral sobre o tamanho das redes neurais treináveis em GPUs comuns para consumidores ? Por exemplo:
O artigo Emergence of Locomotion (Reforcement) treina uma rede usando a ativação tanh dos neurônios. Eles têm um NN de 3 camadas com 300.200.100 unidades para o Planar Walker . Mas eles não informam o hardware e o tempo ...
Mas poderia uma regra prática ser desenvolvida? Também apenas com base nos resultados empíricos atuais, por exemplo:
Unidades X que usam ativação sigmóide podem executar iterações de aprendizado Y por h em um 1060.
Ou usar a função de ativação a em vez de b causa uma diminuição no desempenho.
Se um aluno / pesquisador / mente curiosa vai comprar uma GPU para brincar com essas redes, como você decide o que recebe? Aparentemente, um 1060 é a opção de orçamento de nível de entrada, mas como você pode avaliar se não é mais inteligente obter apenas um netbook de baixa qualidade em vez de criar um desktop de alta potência e gastar os $ economizados sob infraestrutura de nuvem sob demanda.
Motivação para a pergunta: Acabei de comprar um 1060 e (inteligente, para fazer a pergunta depois, hein), me pergunto se eu deveria apenas manter o dólar e criar uma conta no Google Cloud. E se eu puder executar minha simulação de tese de mestrado na GPU.