您好!我是一名研究生,最近看到您的“智能化大数据平台打造实践”这篇文章,我对大数据平台的参数优化问题很感兴趣。我从文中了解到你们使用DQN来处理参数优化的问题,我有个问题想请教您。假如强化学习的奖励设置为作业的完成时间,那不是要作业运行之后才能获取到奖励值吗,是不是可以理解成需要提前多次运行作业以获取不同参数值对应的奖励,也就是作业完成时间呢?
相似问题