强化学习中rollouts和episodes的区别
正文:
正在随机环境中只要数质有限的样原会被不雅察看到,大概模型通过泛化才华较差的函数来近似的,又大概仅仅因为环境发作扭转且新的动态特性尚未被不雅察看到,模型都可能不准确,从而招致布局历程中获得次劣的战略。某些状况下,布局计较出的次劣战略会使咱们很快发现并修正模型舛错。那种状况往往比较“乐不雅观”,模型就会倾向于预测出比真正在可能状况更大的支益或更好的形态转移,布局得出的战略会检验测验开发那些机缘,那样智能体就很快发现那些机缘根基不存正在,于是感知到模型的舛错,继而修正舛错。 摸索和开发之间的矛盾。正在“布局”语境中,“试探”意味着检验测验
2024-10-03 15:39 阅读量:77