Respostas:
Sim você pode. Não há regras rígidas contra ter funções de ativação diferentes em qualquer camada, e a combinação desses dois tipos não deve apresentar dificuldades numéricas.
De fato, pode ser uma boa opção ter tanh em camadas ocultas e sigmóide na última camada, se seu objetivo é prever a associação de uma única classe ou probabilidades de classes múltiplas não exclusivas. A saída sigmóide se presta bem a prever uma probabilidade independente (usando, por exemplo, uma função objetiva de perda de log (também conhecida como entropia cruzada)).
Se é melhor ou não o uso do sigmoide em todas as camadas, dependerá de outros recursos da sua rede, dos dados e do problema que você está tentando resolver. Geralmente, a melhor maneira de descobrir qual é o melhor - pelo menos em termos de precisão - é experimentar algumas variações e ver quais são as melhores pontuações em um conjunto de dados de validação cruzada. Na minha experiência, geralmente há uma pequena diferença entre o uso de tanh ou sigmóide nas camadas ocultas.