Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用DQN解决大数据平台参数优化问题怎么定义奖励?

使用DQN解决大数据平台参数优化问题怎么定义奖励?

提问于 2019-02-27 05:25:03
回答 1关注 0查看 564

您好!我是一名研究生,最近看到您的“智能化大数据平台打造实践”这篇文章,我对大数据平台的参数优化问题很感兴趣。我从文中了解到你们使用DQN来处理参数优化的问题,我有个问题想请教您。假如强化学习的奖励设置为作业的完成时间,那不是要作业运行之后才能获取到奖励值吗,是不是可以理解成需要提前多次运行作业以获取不同参数值对应的奖励,也就是作业完成时间呢?

已邀请
等1人回答

回答 1

天使的炫翼

发布于 2019-02-27 06:33:45

这个建议去作者专栏留言喔~

和开发者交流更多问题细节吧,去 写回答
相关文章
Double DQN——解决DQN中的过估计问题
本篇教程是基于Deep Q network(DQN)的教程,缩减了在DQN方面的介绍,着重强调Double DQN和DQN的不同之处。
CristianoC
2020/06/02
2K0
DQN三大改进(一)-Double DQN
Double-DQN原文:https://arxiv.org/pdf/1509.06461v3.pdf 代码地址:https://github.com/princewen/tensorflow_practice/tree/master/Double-DQN-demo 1、背景 这篇文章我们会默认大家已经了解了DQN的相关知识,如果大家对于DQN还不是很了解,可以参考文章https://www.jianshu.com/p/10930c371cac。 我们简单回顾一下DQN的过程(这里是2015版的DQN):
石晓文
2018/04/11
3K0
DQN三大改进(一)-Double DQN
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。
数据科学人工智能
2022/03/31
1.9K0
深度强化学习智能交通 (I) :深度强化学习概述
【综述翻译】Deep Learning for Video Game Playing
原文来源:https://arxiv.org/pdf/1708.07902.pdf
深度强化学习实验室
2020/12/16
1.1K0
【综述翻译】Deep Learning for Video Game Playing
强化学习在黄页商家智能聊天助手中的探索实践
本地服务(黄页)微聊代运营模式是指人工客服代替58平台上的商家与C端用户IM沟通聊天以获取商机(如用户联系方式、细粒度需求信息等),再将商机转交给商家,促进商家成单。我们基于58AI Lab自研的灵犀智能语音语义平台构建了智能客服商家版,将其应用在微聊代运营场景下,通过人机协作模式提高商机获取效率,打造了黄页商家智能聊天助手。这里的人机协作模式先后经历了三个阶段:在早期机器人效果较一般时,机器人和人工客服分时工作,即人工客服不上班时才由机器人接待用户咨询。在经过优化机器人效果较优时,先机器人再人工,即当用户来咨询商家时,白天先由机器人接待,若机器人能够聊出商机则结束会话,若不能再转接人工客服,晚上使用纯机器人接待。在机器人效果和人工很接近甚至超过人工时,使用纯机器人接待,人工客服去从事其他更复杂的工作。2021年年初,黄页商家智能聊天助手被商业化,以“微聊管家”命名随会员套餐一起打包售卖给商家,全年共计服务了数万个商家,为公司创造收入超过五千万元。当前,机器人的商机转化率(聊出商机的会话数/总会话数)已达到了人工客服的98%水平,我们实现了纯机器人接待,节省了数十名客服人力。
从大数据到人工智能
2022/06/27
1K0
强化学习在黄页商家智能聊天助手中的探索实践
强化学习读后感
此学习笔记基础来源于zhoubolei RL(https://github.com/zhoubolei/introRL),以基本概念,基本定理,问题建模,代码实现,新论文的阅读为逻辑展开写的。学习强化学习的过程,会相对漫长。比如:一个假想的学习过程,可能会包含sutton的 complete draft;一些RL基础课程,David Silver,伯克利RL或周博磊等;经典算法的复现;核心研究部门的学术文章(openAI,DeepMind,...);靠谱博士写的博文;会遇见公式符号,上下标,算法实现细节,问题优化,具体问题建模等问题。这里,只是个开始,代码框架可参考PARL。不太懂wx格式,建议wx对latex支持更友好,不要搞什么其他幺蛾子语法。
BBuf
2021/10/08
7960
[量化]夏普比率3.27,通过DQN算法进行上证指数择时强化学习策略
本文完整展示了一个将强化学习用于股票投资的案例,呈现了大量算法细节和实验分析,非常值得收藏深研。
核桃量化
2023/01/18
1.8K0
强化学习在智能对话上的应用
TEG数据平台部联合AiLab、Ai平台部,结合语音合成、语音识别、机器人问答、大数据能力等前沿性、高复用性的功能模块构建腾讯小知智能机器人产品,支持问答、业务办理、营销推广、回访调研、通知提醒等应用场景,降低人工服务成本、提升服务质量和转化效率,目前已在多个领域落地,如公安、零售、教育和地产等。
腾讯大数据
2019/05/16
5180
强化学习在智能对话上的应用
强化学习在智能对话上的应用
TEG数据平台部联合AiLab、Ai平台部,结合语音合成、语音识别、机器人问答、大数据能力等前沿性、高复用性的功能模块构建腾讯小知智能语音机器人产品,支持问答、业务办理、营销推广、回访调研、通知提醒等应用场景,降低人工服务成本、提升服务质量和转化效率,目前已在多个领域落地,如公安、零售、教育和地产等。
腾讯技术工程官方号
2019/05/16
1.2K0
强化学习在智能对话上的应用
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
如今,将人工智能技术应用到游戏中已经是一个成熟的研究领域,有许多会议和专门的期刊对此进行讨论。来自哥本哈根大学和纽约大学的几位研究人员近期发布的一篇综述文章中,梳理并回顾了视频游戏深度学习领域的最新进展,详细介绍了各种游戏研究平台及相关深度学习方法的演化历史,同时讨论了重要的开放性挑战。据作者介绍,其撰写该论文旨在从不同类型游戏的视角来回顾这个研究领域,指出它们对深度学习的挑战,以及如何利用深度学习来玩这些游戏。
机器之心
2019/03/12
7340
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
解决使用ptlib库编译"realloc"参数不足问题
解决使用ptlib库导致的编译错误qlist.h(98): warning C4003: 类函数宏的调用“realloc”参数不足的问题。 编译错误 D:\Qt\Qt5.12.1\5.12.1\msvc2017\include\QtCore/qlist.h(98): warning C4003: 类函数宏的调用“realloc”参数不足D:\Qt\Qt5.12.1\5.12.1\msvc2017\include\QtCore/qlist.h(98): error C2059: 语法错误:“,”D:\Qt\Q
Qt君
2019/07/15
1.3K0
《Scikit-Learn、Keras与TensorFlow机器学习实用指南(第二版)》第18章 强化学习
(第二部分:深度学习) 第10章 使用Keras搭建人工神经网络 第11章 训练深度神经网络 第12章 使用TensorFlow自定义模型并训练 第13章 使用TensorFlow加载和预处理数据 第14章 使用卷积神经网络实现深度计算机视觉 第15章 使用RNN和CNN处理序列 第16章 使用RNN和注意力机制进行自然语言处理 第17章 使用自编码器和GAN做表征学习和生成式学习 第18章 强化学习 [第19章 规模化训练和部署TensorFlow模型]
SeanCheney
2020/02/13
1.9K0
实战深度强化学习DQN-理论和实践
1、Q-learning回顾 Q-learning 的 算法过程如下图所示: 在Q-learning中,我们维护一张Q值表,表的维数为:状态数S * 动作数A,表中每个数代表在当前状态S下可以采用动作
石晓文
2018/04/11
2.9K0
实战深度强化学习DQN-理论和实践
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
如今,将人工智能技术应用到游戏中已经是一个成熟的研究领域,有许多会议和专门的期刊对此进行讨论。来自哥本哈根大学和纽约大学的几位研究人员近期发布的一篇综述文章中,梳理并回顾了视频游戏深度学习领域的最新进展,详细介绍了各种游戏研究平台及相关深度学习方法的演化历史,同时讨论了重要的开放性挑战。据作者介绍,其撰写该论文旨在从不同类型游戏的视角来回顾这个研究领域,指出它们对深度学习的挑战,以及如何利用深度学习来玩这些游戏。
刀刀老高
2019/05/05
8440
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
作者:Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song
机器之心
2019/06/10
9750
ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
深入机器学习系列之强化学习
强化学习(reinforcement learning),又称再励学习,评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。本文将介绍强化学习的相关概念、算法及其应用实例。
数据猿
2019/07/31
1.2K0
深入机器学习系列之强化学习
论文结果难复现?本文教你完美实现深度强化学习算法DQN
选自arXiv 作者:Melrose Roderick等 机器之心编译 论文的复现一直是很多研究者和开发者关注的重点,近日有研究者详细论述了他们在复现深度 Q 网络所踩过的坑与训练技巧。本论文不仅重点标注了实现过程中的终止条件和优化算法等关键点,同时还讨论了实现的性能改进方案。机器之心简要介绍了该论文,更详细的实现细节请查看原论文。 过去几年来,深度强化学习逐渐流行,因为它在有超大状态空间(state-spaces)的领域上要比先前的方法有更好的表现。DQN 几乎在所有的游戏上超越了之前的强化学习方法,并在
机器之心
2018/05/10
1.6K0
推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!
之前学习了强化学习的一些内容以及推荐系统的一些内容,二者能否联系起来呢!今天阅读了一篇论文,题目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。该论文便是深度强化学习和推荐系统的一个结合,也算是提供了一个利用强化学习来做推荐的完整的思路和方法吧。本文便是对文章中的内容的一个简单的介绍,希望对大家有所启发。
石晓文
2018/07/25
2K0
推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!
深度强化学习-Policy Gradient基本实现
在之前的几篇文章中,我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种改进算法的原理和实现,可以参考之前的文章: 实战深度强化学习DQN-理论和实践: DQN三大改进(一)-Double DQN DQN三大改进(二)-Prioritised replay DQN三大改进(三)-Dueling Network 基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作,也
石晓文
2018/04/11
1.9K0
深度强化学习-Policy Gradient基本实现
强化学习入门
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户2794661
2022/05/30
1.2K0

相似问题

缺少位置参数怎么解决?

1210

express 跨域问题怎么解决 ?

0925

怎么解决以下问题呀?

0146

遇到鼠标使用 严重延时问题吗?怎么解决?

1234

请问这个问题怎么解决鸭?

2353
相关问答用户
某公司 | 程序员擅长1个领域
腾讯云TDP | 先锋会员擅长2个领域
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档