0%

Prioritized Experience Replay(PER)

待更新……

Hindsight Experience Replay(HER)

Sparse Reward问题

举例:Bit-Flipping游戏

状态空间就是0,1组成的$N$位数据串,动作$i$就是将数据串中的第$i$位翻转,最终是希望通过若干次翻转,能够让这个数据串和这个target的数据串是一样的。

reward:当前数据串和target一样时reward=0,不一样时reward=-1。

阅读全文 »

蜀葵花歌

岑参 唐代

昨日一花开,今日一花开。

今日花正好,昨日花已老。

始知人老不如花,可惜落花君莫扫。

人生不得长少年,莫惜床头沽酒钱。

请君有钱向酒家,君不见,蜀葵花。

阅读全文 »