Ambas são grandes famílias de algoritmos, por isso é difícil dar uma resposta precisa, mas ...
A subida de gradiente (ou descida) é útil quando você deseja encontrar um máximo (ou mínimo). Por exemplo, você pode encontrar o modo de uma distribuição de probabilidade ou uma combinação de parâmetros que minimizam alguma função de perda. O "caminho" necessário para encontrar esses extremos pode falar um pouco sobre a forma geral da função, mas não se destina; de fato, quanto melhor funciona, menos você saberá sobre tudo, exceto os extremos.
Os métodos de Monte Carlo são nomeados após o cassino de Monte Carlo, porque eles, como o cassino, dependem de randomização. Pode ser usado de muitas maneiras diferentes, mas a maioria delas se concentra na aproximação de distribuições. Os algoritmos de Markov Chain Monte Carlo, por exemplo, encontram maneiras de amostrar eficientemente a partir de distribuições de probabilidade complicadas. Outras simulações de Monte Carlo podem gerar distribuições sobre possíveis resultados.