Por que a letra Q foi escolhida no Q-learning?


17

Por que a letra Q foi escolhida em nome do Q-learning?

A maioria das letras é escolhida como uma abreviação, como π política e v significa valor. Mas não acho que Q seja uma abreviação de nenhuma palavra.


1
No meu entendimento metafórico, Q é uma função que associa uma quantidade (chame de recompensa, custo ou qualquer outra coisa que esteja sendo otimizada) para uma ação em um determinado estado.
knk

1
@ sycorax a pergunta original formulada implicava uma compreensão do Q-learning e, para oferecer uma explicação, ajudaria a adicionar contexto. O OP seria perdido com qualquer explicação sem estabelecer um fundamento.
KNK

A metafórica Q = Quantidade ajuda? Penso nele como uma quantificação dos estados de ação dada
KNK

Respostas:


35

Lamento decepcionar a todos, mas Q não significa nada :)

O aprendizado de Q foi proposto por Watkins em sua tese de doutorado em 1989, ver p.96. O Q na equação nessa página é atualizado de certa maneira a cada etapa. OQ é o retorno esperado da ação em um determinado estado; veja a definição de Q na p.46. O retorno é no sentido econômico ou da teoria dos jogos, isto é, recompensas ponderadas com probabilidade reduzida, e não um termo de ciência da computação como o retorno de uma função.

Observe como ele já usou P para probabilidade e R para recompensa, então ele pegou Q pelo retorno. É isso aí. Não há significado mais profundo para a escolha de uma letra Q.


3
Sem significado mais profundo, mas é um significado (que Q se encaixa com P e R no alfabeto) e representa alguma coisa .
Sextus Empiricus

2
@MartijnWeterings Não é um significado. É uma escolha puramente sintática da letra, sem considerações semânticas.
David Richerby

Certamente, pode haver poucas considerações semânticas (e isso pode ser debatido porque diferenças entre letras latinas ou gregas, letras em posições diferentes do alfabeto ou maiúsculas versus minúsculas podem formar uma área cinza entre sintáticas e semânticas). Considero a escolha de Q como "significativa" porque a forma da letra (que é um tanto arbitrária) expressa, de certa forma, o significado da variável / parâmetro. O significado está relacionado à escolha da letra. Não haveria uma boa escolha quando u ou v teria sido escolhido, ou i, j, k ou x, y, z ou . α,β,γ
Sextus Empiricus

@MartijnWeterings, Q também soa como uma fila , que traz conotações um tanto relevantes também
Aksakal

@ Aksakal, isso pode ter reforçado o uso de Q. Mas não acho que seja forte. Eu não sei muito sobre este tema, mas em uma rápida visão geral de que a tese me parece muito plausível que a letra tem sido usado para uma quantidade como Σ i R i P i ou Σ i V i P i . Eventualmente, um "nome" como "valor da ação" foi dado a ele, mas as letras usadas nessa tese parecem aderir muito mais ao alfabeto. Por exemplo, f g h para funções x y para variáveis V U para função de valor e é aproximado. , etc.QEuREuPEuEuVEuPEuf g hx yV você
Sextus Empiricus

0

Q(st,umat)Q(st,umat)+α(rt+γ×maxumaQ(st+1,uma)-Q(st,umat))

Q


2
Leia essa tese e me diga como "qualidade" faz sentido no contexto do retorno esperado
Aksakal

Embora eu concorde com você, a tese foi escrita depois que Watkins consultou Andy sobre várias coisas. Andy pode ter tido uma ideia melhor do que você pensa.
Ameet Deshpande

Qualidade nem existe como um conceito distinto no aprendizado. Você pode usar a palavra no sentido usual do inglês, é claro. O retorno esperado, por outro lado, é muito bem definido na teoria dos jogos, não há necessidade de diluí-lo anexando conceitos vagos, como qualidade. Você não está maximizando a qualidade, mas maximizando as recompensas com desconto na medida de probabilidade adequada. Se você quiser ser um pouco mais amplo, poderá maximizar o utilitário.
Aksakal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.