Suponha que você queira pescar no lago das 8h às 20h. Devido à sobrepesca, foi instituída uma lei que diz que você só pode pescar um peixe por dia. Quando você captura um peixe, pode optar por mantê-lo (e, assim, voltar para casa com esse peixe) ou jogá-lo de volta no lago e continuar pescando (mas corre o risco de se instalar com um peixe menor ou nenhum peixe). Você quer pegar o maior peixe possível; especificamente, você deseja maximizar a massa esperada de peixe que leva para casa.
Formalmente, podemos configurar esse problema da seguinte forma: os peixes são capturados em uma determinada taxa (portanto, o tempo necessário para capturar o próximo peixe segue uma distribuição exponencial conhecida) e o tamanho do peixe capturado segue alguma distribuição (também conhecida) . Queremos um processo de decisão que, dado o tempo atual e o tamanho de um peixe que você acabou de capturar, decida manter ou não o peixe.
Portanto, a pergunta é: como essa decisão deve ser tomada? Existe alguma maneira simples (ou complicada) de decidir quando parar de pescar? Penso que o problema é equivalente a determinar, por um determinado período t, qual a massa esperada de peixes que um pescador ideal levaria para casa se eles iniciassem no período t; o processo de decisão ideal manteria um peixe se, e somente se, fosse mais pesado que a massa esperada. Mas isso parece meio auto-referencial; estamos definindo a estratégia de pesca ideal em termos de um pescador ideal e não tenho muita certeza de como proceder.