Reforço negativo: como substituir um objeto?

18

Meu Beauce Shepherd agora tem 9 meses, seguimos algumas aulas de educação comportamental com um personal trainer e tudo correu muito bem. Antes que o cão fizesse o que queria e agora, ele apenas ouve muito bem!

Por sugestão do treinador, alguns comportamentos foram reforçados positivamente e outros negativamente. O problema que estamos enfrentando agora é com os comportamentos que reforçamos negativamente. Estamos usando uma caixa de metal para emitir um som, o cachorro odeia e obedece. É sempre usado após um "não" como uma segunda sanção. Tudo funciona perfeitamente, e agora não precisamos mais usar a caixa, pois ele se comporta corretamente.

O problema é que achamos que precisaremos substituir a caixa por outra coisa, pois ele agora aprendeu que, se não tivermos a caixa, não haverá som e, portanto, ele se envolverá no comportamento indesejado. Está começando a ser um problema, pois precisamos levar a caixa para todos os lugares agora, porque, se não a tivermos, ele usará a oportunidade.

Existe uma maneira de corrigir isso, substituindo a caixa por nosso corpo ou algo assim?

Nota: Ele foi desexado há um mês e está enfrentando um pouco menos, mas ainda o faz quando não temos a caixa à mão.

Obrigado

dogs behavior training

— Salketer
fonte

11

Provavelmente, você deve fazer essa pergunta ao seu treinador, mas uma vez que o reforço negativo (caixa de metal) funcionou para conter o comportamento indesejado, você não deveria agora começar a reforçar o bom comportamento? Como exemplo, se meu cachorro continuasse subindo no sofá, eu poderia (1) sacudir a caixa de metal para desencorajá-la e, depois que ele soubesse que ir para o sofá era indesejado, eu (2) elogiaria e trataria generosamente sempre que ele deitado no chão perto do sofá ou similar.

— Steve D

11

:) Adoro como os cães podem aprender essas coisas sozinhos, depois de algumas observações ... "sem caixa, ei, eu posso fazer o que eu quiser!" :) :) :)

— woliveirajr 10/10

10

Sempre que discutir o condicionamento operante, é útil falar o mesmo idioma:

Reforço: Uma ação projetada para aumentar a frequência de um comportamento
Punição: uma ação projetada para diminuir a frequência de um comportamento
Positivo: Presença de um estímulo
Negativo: Ausência de um estímulo

Esses termos podem formar quatro combinações diferentes ( Nota: exemplos entre colchetes são exemplos, não conselhos!):

Reforço positivo: apresente um estímulo para aumentar a frequência de um comportamento (por exemplo, faça um tratamento quando o cão estiver sob comando)
Reforço negativo: remova um estímulo para aumentar a frequência de um comportamento (por exemplo, o carteiro vai embora depois que o cachorro late)
Punição positiva: apresente um estímulo para diminuir a frequência de um comportamento (por exemplo, bata no cachorro quando ele for urinar no tapete)
Punição negativa: remova um estímulo para diminuir a frequência de um comportamento (por exemplo, saia da sala quando o cachorro pula em você)

Na prática, estes podem ficar confusos. Por exemplo, fazer barulho com a caixa é um estímulo projetado para diminuir a frequência de um comportamento, por isso é tecnicamente um exemplo de punição positiva, mas se você interrompe o barulho depois que o cão executa o comportamento correto, você também remove um estímulo para aumentar a frequência do comportamento correto, ei presto !, reforço negativo.

Mas isso pressupõe que exista um comportamento correto para o seu cão. Você não especifica qual é o comportamento indesejado ou se existe um comportamento alternativo desejado que você está tentando reforçar. Se tudo o que você faz com o barulho é tentar impedi-lo de fazer alguma coisa, então você está fornecendo punição em vez de reforço negativo.

Em ambos os casos, parte do seu problema provavelmente é que você está usando apenas reforços e punidores primários , ou seja, aqueles que o cão não precisa aprender. A comida, por exemplo, é um reforço primário. O cão sabe que a comida é uma coisa boa sem ter que aprender. Por extensão, o ruído é o principal castigador, pois é desconfortável para o cão ouvir. Os reforçadores e punidores secundários , por outro lado, são aqueles que o cão aprendeu.

O exemplo clássico é o sino de Pavlov, que ele tocava toda vez que fornecia comida ao cachorro. Ao emparelhar consistentemente um reforçador primário com um estímulo, o estímulo pode começar a atuar como um reforçador secundário. Ou seja, o cão aprende que o sino sinaliza a chegada dos alimentos e reagirá de acordo.

Você menciona que usa a palavra "não" (esperançosamente em uma voz severa, os cães são bastante hábeis em entonações exigentes) ao repreender seu cão, junto com o barulho. O "não" deve atuar como punidor secundário, da mesma forma que os elogios podem funcionar como reforçador secundário. Mas você provavelmente falhou em eliminar gradualmente o ruído real, começando a dizer apenas "não", mas não o ruído.

O problema é que, a essa altura, seu cão percebeu o fato de que "não" sem caixa ao redor significa que não há punidor primário, ou seja, os dois não são parentes, e, portanto, ele é salvo quando não está por perto.

Sugiro que você abra uma nova pergunta descrevendo o (s) comportamento (s) real (is) que deseja desencorajar, e poderemos ajudá-lo a encontrar uma maneira de usar todo o espectro da condição operante para que seu cão aprenda o que deseja. façam.

— ThomasH
fonte

5

O @ThomasH é uma excelente resposta e aborda a questão de usar punidores secundários de uma maneira muito precisa.

Aqui, estou apenas adicionando alguns comentários sobre dois aspectos do problema.

Punir o comportamento errado vs. reforçar o comportamento correto

Mesmo que a "teoria" funcione da mesma forma no "lado do reforçador" e no "lado do punidor" e os efeitos possam ser tão eficazes, não devemos esquecer que suprimir um comportamento não ensina o cão o que fazer e, principalmente, a parte "não" do treinamento leva à microgestão : você sempre precisa ensinar ao cão o que ele não deve fazer. Mesmo que o cão aprenda que ele não deve fazer X em uma determinada situação, ele ainda está livre para executar Y, Z etc. Se você o ensinar positivamente (reforçá-lo) a fazer W, isso provavelmente interromperá algum tipo de círculo vicioso e faça todo mundo feliz.

Reforço / punição de taxa variável

@ThomasH explicou o conceito de reforçador secundário ou punição.

Um aspecto a ter em mente é que, ao contrário dos reforçadores / punições primários, os secundários devem ser recompensados (de uma maneira ou de outra) usando um cronograma variável .

A comida é um reforço primário. Cada vez que o cão recebe um pedaço de comida, ele é reforçado.

Mas uma palavra-chave como "sim" ou um clique pode se tornar um reforçador secundário. Está ligado a um reforçador primário subsequente. O ponto principal é que funciona porque o cão aprendeu que o reforço secundário é recompensado pelo reforço primário. Uma vez que isso é aprendido, o link deve ser mantido com recompensas reais. No início (durante o treinamento), a recompensa virá toda vez, e poderá ser recompensada com um horário variável. O cronograma variável está realmente fortalecendo o vínculo, já que o cão não pode prever quando a recompensa principal virá.

Observe que isso geralmente é aplicado aos reforçadores terciários : a sugestão "sentar" é na verdade um reforçador, pois pode levar a outro reforçador (um clique, por exemplo), que leva a uma recompensa real.

Em geral, nunca dissociamos o reforçador secundário (o clique) do reforçador primário (por exemplo, a recompensa alimentar). Isso mantém o vínculo entre os dois extremamente forte, e a taxa variável é aplicada entre a sugestão (reforço terciário) e o clique.

No entanto, no caso das punições, você não possui uma "punição terciária" real; portanto, a taxa variável de "reforço" (entendida como punição neste caso) fica entre a punição secundária ("não") e a punição real ( a Caixa).

— Cedric H.
fonte