(资料图片)
无模型的强化学习中q-learning、SARSA,从教学内容上看,只是用于教学
拿Q-Table,学习后的Q表格只是反应了学习时的环境的情况,如果环境变化(奖励函数、状态转移等改变)了,这张Q表格就无效了,需要重新学习
来看看深度强化学习会如何,能否从学术走向应用落地?
(待续,继续学习去)