Para obter melhores resultados no reforço positivo a longo prazo, você deve fornecer recompensas de valor variável, de alto valor a valor médio a valor baixo, sem recompensa. Inicialmente, você deseja usar recompensas de alto valor quando o comportamento (ou reforço positivo em geral) for novo. Em seguida, você deve mudar aleatoriamente para fornecer recompensas de alto valor ou baixo valor, passando gradualmente para nenhuma ou geralmente uma recompensa de baixo valor para comportamentos estabelecidos. Deve ser como uma máquina caça-níqueis, geralmente você não recebe nada ou apenas algumas moedas, mas de vez em quando você recebe um grande jackpot e isso evita que seja entediante.
Não sei dizer onde, na escala de recompensa, 'bom cachorro' se encaixa no seu cão. Eu tinha um cachorro para quem essa era uma das recompensas de maior valor e outro para quem era apenas o marcador de que poderia haver uma recompensa (ou seja, como as rodas da fenda girando). Mas o importante é o reforço variável.
Há muitas informações boas sobre treinamento positivo na página de treinamento de Escoteiros da América