Loading [MathJax]/jax/output/CommonHTML/autoload/mtable.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >强化学习读后感

强化学习读后感

作者头像
BBuf
发布于 2021-10-08 06:52:04
发布于 2021-10-08 06:52:04
7960
举报
文章被收录于专栏:GiantPandaCVGiantPandaCV

说明

此学习笔记基础来源于zhoubolei RL(https://github.com/zhoubolei/introRL),以基本概念,基本定理,问题建模,代码实现,新论文的阅读为逻辑展开写的。学习强化学习的过程,会相对漫长。比如:一个假想的学习过程,可能会包含sutton的 complete draft;一些RL基础课程,David Silver,伯克利RL或周博磊等;经典算法的复现;核心研究部门的学术文章(openAI,DeepMind,...);靠谱博士写的博文;会遇见公式符号,上下标,算法实现细节,问题优化,具体问题建模等问题。这里,只是个开始,代码框架可参考PARL。不太懂wx格式,建议wx对latex支持更友好,不要搞什么其他幺蛾子语法。

基本认识

什么是强化学习

RL Prime

a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment. –Sutton and Barto

  • 基本要素:
    • Agent(智能体)
    • model(模型)
    • value(价值函数)
    • policy(策略函数)
  • 特点:
    • 试错探索
    • 延迟回报
    • 时间问题(序列数据,无既定分布)
    • Agent的动作会影响接下来的输入数据,并改变环境的状态
  • 例子:
    • 策略游戏,跑跑卡丁车,纸片游戏,围棋等
    • 机器人走路,穿衣,抓取东西,拧魔方
    • 路径规划,机器控制

符号定义

小技巧

增量平均:一个简单的变换将序列平均值的计算转化为前一个平均值和当前值与前平均值的“差”的和。

重要采样:分布

不好采样,用更好采样的

替换它,只是需要同时乘以

相对于

的权重因子。

对数求导:利用对数导数为其倒数的特点,可以将连乘函数的导数和化(注意其和重要采样的联合使用)。

重参数化:利用分布的映射关系,将复杂函数的采样转化为从简单分布采样,然后映射到复杂分布上去,从而达到 解决了复杂分布采样难问题。

共轭梯度:使梯度的方向保持共轭关系(垂直),极大加快优化速度, Conjugate gradient method(https://en.wikipedia.org/wiki/Conjugate_gradient_method)

基本定理

Markov Models

MRP

“Markov chain(https://en.wikipedia.org/wiki/Markov_chain)因俄国数学家安德烈·马尔可夫得名, 为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质: 下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。”

数学符号语言为: 历史状态:

,状态

为Markovian当且仅当

若状态转移过程中有奖励(reward),则称之为MRP(Markov Reward Process)。 其基本元素有:

: 有限状态集(

)

:状态转移概率

:奖励函数(reward)

:折扣因子

在实际的RL交互环境中,还需要定义三个变量:

Horizon: 不同 episode(一个探索周期)的时间步长的最大值 Return:时间

到Horizon的折扣回报和

状态价值函数:状态

时刻得到的回报的期望值

根据定义,对价值函数做变换:

容易得出Bellman equation

于是对于有限状态的MRP,有:

,其代数解为

。不过实际应用中因

过大, 求逆运算复杂度

过高,会选择迭代方式求解。包含动态规划,蒙特卡洛估计, Temporal-Difference 学习。

MDP

MDP:在MRP上增加一个动作项,可用

表示。其中

有限的动作集,

MDP是对决策过程的建模,目标是在决策集(Policies)中寻找最优决策。其中决策函数是动作在状态空间 的概率分布,用

表示状态

执行动作

的概率,决策 函数是时间独立的,即对任意

给定MDP(

) 以及决策

,状态序列

是一个马尔科夫 过程

, 状态、奖励序列

是马尔科夫奖励过程

其中

策略

下开始状态为

的状态价值函数

, 动作价值函数

, 表示在状态

执行动作

后,按照策略

执行下去的回报期望。 根据以上定义,容易得两者的关系:

其贝尔曼递归形式也容易写出:

分别把(4)带入(3),(3)带入(4)得到:

公式(7)的图(Backup Diagram)表示:

Q1

Q2

简言之,一个状态下可采取不同动作,得到状态动作价值; 一个状态下执行不同的动作,得到奖励,并进入不同的状态; 一个状态并执行了某一动作,得到即刻回报,进入不同状态,并执行不同动作。

建立好模型,并得到了一些关系式,问题:如何计算?

评估和优化

利用(2),(3)的关系式递推计算,如下迭代:

即能得到给定策略

下的价值函数。 这里递推关系和一般递关系比如Fibonacci数列顺序上 是相反的,在实际优化中会一次更新所有值(有限表格,和关键词bootstrapping吻合),效率虽慢,但能得到最优解。

策略的最优价值函数:

最优策略:

在求得最优状态价值函数或动作价值函数后,根据如上两条定义,很容易得到最优策略。 这个过程被称为值迭代。

这里还有另外一种方式得到最佳策略,一边policy evaluation(

值更新,划分不是很准确), 一边利用更新的价值函数计算出动作价值函数然后更新策略(greedy)。 即:

用图可表示为:

rl

一个MDP模型存在唯一的最优价值函数(证明见Sutton),但最优策略函数不唯一。

Table: Dynamic Programming Algorithms

一些存疑的地方:在RL中总是会存在各种分类,这对初学者不太友好。比如上面的总结,以及讲义中给出的 两种策略优化的方式,在第二种方式中为何不直接迭代

然后更新策略,以此迭代。另外policy evaluation 是对价值函数

的计算,和策略是隐含关系,为何不是值迭代?看上面的表格,就有一点错乱的感觉。中间2,3行是期望 方差,后列对应的却是评估和迭代,而末列3,4行为迭代,对应的中间却一个期望方程,一个最优方程。

简化:值迭代+最后求最值,值迭代+同时策略迭代。

理论补充说明(证明见Sutton):策略优化是一个保序的过程。 一轮优化得到的

,且

于是得到:

取名为最优Bellman方程

以上给出了图1的MDP建模过程,并给出了在MDP已知的情况下,如何做策略评估,策略迭代,价值迭代。 但现实世界中MDP模型不存在,或很难给出的情况很常见。 这种情况,可用图5来表示。

RL Free

学术界称其为Model-free。

问题:如何做Model-free 的预测(值估计)和控制(策略优化)?

Markov Models Free

Markov Models Free表示没有状态转移和奖励函数的RL模型,如上图所示。 此时采用让Agent与环境交互,搜集数据,以频率统计的方式来模拟MDP。于是定义trajectory/episode

,表示Agent从状态

开始做一个完整的(直到结束,terminal) 状态、动作、及时获得的采集链。

那么在策略

下,如何从利用这些trajectories来评估价值函数?

评估(预测)

对价值函数

的估计。

MC

表示状态

在trajectories出现过的次数(有一次tracjectory表示一次的理解误差), 根据

定义(gt),容易从trajectories算出状态

下的

,因

表示

的期望,在MC过程, 可用平均值替代,于是结合(Incremental:Mean),在一个episode/tracjectory中,容易得到

在不严格要求统计关系的模型中,也可以将其简化为:

MC方式的特点:

  • 必须等到一个episode结束才能更新,从完整的episode中学习
  • 只能在episodic(terminating,得结束)的环境中学习
  • 不需要模型具有Markov特性,在非Markov环境中效果更好

TD

Temporal-Difference Learning,克服了MC的必须实验到状态终结的问题(方差大), 将

替换为

即为

,于是有

其中

叫TD target,

叫 TD error。需要注意的是,

利用了

,bootstrapping方式,属于自举。

容易想出

即为MC。他们的关系可用下图刻画:

mcdptd

优化(控制)

策略优化:价值函数迭代+Arg Max或策略迭代(策略估计

+策略改进)。

回想上节的策略迭代,是知道

的,但这里未知,如何 在采样的过程中进行策略改进?已有答案是

探索法。

exploration是指以

的概率选择使当前动作价值函数 最大的动作,以

的概率选择其余动作,得到新策略:

以这种方式改进策略,有如下定理保证:

For any

policy

, the

policy

with respect

is an improvement,

.

证明见Sutton。

于是容易写出

版本的 MC Exploration算法流程:

mcepsion

Sarsa

策略改进中使用TD而不是MC即为Sarsa算法。 这和在价值更新中将MC改进为TD是同样的道理,且在一定程度上,能减少函数值的方差。 于是容易从(10)中写出

函数版本(值估计转化为策略优化)。

综合以上,容易写出one-step 的Sarsa算法流程:

sarsa

脑补一下n-step版本。

Q-Learning

Sarsa明显是自举的(bootstrapping),其在下一步状态所做的动作仍由当前

函数选出, 在策略控制上其被分类为On-Policy control,而本小节的Q-Learning为Off-Policy control,其在 下一个状态的动作选择不是由当前

选出。

重要采样的应用

策略

在优化过程中,其形式可能会变得复杂,不好采样,于是根据(Important:Sample), 可选择辅助策略

来生成episodes:

, 计算其

若Off-Policy 为Monte Carlo,由(Important:Sample)可得

的关系:

于是在采样策略

下的其价值更新变为:

若Off-Policy为TD,容易得到其价值更新为:

问题:离线策略Q-Learning为何不能使用重要采样?

因为Q-Learning不需要在策略分布上做价值的期望估计。 完整答案请看 这里(https://www.quora.com/Why-doesn-t-DQN-use-importance-sampling-Dont-we-always-use-this-method-to-correct-the-sampling-error-produced-by-the-off-policy)。

DP和TD的差异

函数参数化

前面提出的一些值估计,策略改进的方法,但都是以统计为基础,在和环境交互的同时,搜集状态 序列,计算统计量,进行价值,状态动作函数的更新(表格式计算)。经典的例子Cliff walk:

个状态;Mountain car:1600个状态; Tic-Tac-Toe:1000个状态。但当面对西洋棋(

),围棋(

),器械臂、直升机(连续状态)等情况, 就显得肌无力。使用带参数的函数,优化参数是可行的。数学上可表达如下:

这样做还有另一个好处,有了关于状态的具体函数,可计算所有状态的价值。

问题:怎么具体设计函数?参数如何更新?策略如何优化? 本小节回答前两问,第三问见节6.1(当采用可微函数时)。

func design

函数逼近的可选方案:

  • 特征的线性组合
  • 神经网络
  • 决策树
  • 最邻距离

这里只关心可微方式,输入输出参考上图。

线性组合

对于特征的线性组合,若用

表示状态特征向量,则价值函数可表示为:

, 若目标函数采用平方差,则优化目标:

其梯度更新:

,若把参数更新方式写成文字形式,有:

数学抽象做完了,回到实际环境中,需要把理想的

替换回实际中的值。结合上一节的MC,TD 更新方式,容易得到各自对应的更新版本。

对MC:

对TD(0):

在线性组合的方式下,

MC:

TD(0):

需要注意的是,上述梯度下降为semi-gradient,因为其目标值中它自己。

同理可得,控制算法的更新方式:

MC:

Sarsa:

Q-Learning:

Sarsa的VFA(Value Function Approximation)控制算法流程:

sarsa vfa

**问题:参数逼近的控制算法收敛性如何?**见下表:

converge vfa

DQN

特征线性组合的难点和以前CV手工设计特征类似,如何做出好的特征表示,如何对复杂问题进行有效的特征选取等问题。 类似于CNN替换SIFT,ORB等特征提取方式,2015年,DeepMind发表了一篇名为“Human-level control through deep reinforcement learning” 的文章,将DL引入了RL,给出了一种有效的价值函数的非线性表达方法,同时不需要手工设计特征,并在 Breakout, Pong, Montezuma’s Revenge, Private Eye四款游戏上达到了人类专家水平。随之而来的是DQN的各种升级,可参考 DQN综述(https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark)。

DQN对Atari Games的建模DQN Atari(下图):

DQN Atari

从中可以看到基本思想就是:输入像素图,输出状态动作函数值。该建模方式有一些固有的坑, 论文中对采样关联,目标值非平稳两个问题给出了解决方案,分别是经验池采样,固定目标函数。

经验池是指设定一个缓存区

, 存放历史样本

,并从中采样。 固定目标函数是指,使用另外一组参数

来计算目标值

, 这里样本来自

。 最终参数更新量为:

策略参数化

基础建模

上一节提出了函数参数化,并给出了值函数的实现例子,这一节给出策略函数的实现方式。虽然arg max 值函数可得到策略, 但这种方式基本不能给出随机策略,实际情况,会有大量非完全确定的策略需求,比如在石头剪刀布游戏中,其最优策略(纳什均衡点)为随机策略, 在一些带有闭环的探索游戏中,也需要随机策略来避免无限循环。而若将策略函数设置为动作的概率分布函数,则可实现这一点,同时有也可省去 值函数。

是以

为参数的策略函数,如何定义策略的质量?

在episodic环境中,可定义为:

, 始状态的期望价值。在持续(continuing)环境中,可以有两种定义方式:利用平均价值有,

, 利用一步时间段的平均回报值有,

, 其中

的马尔科夫平稳分布。直观来讲,最后一种更为方便,其对应优化目标可表示为:

其中

是策略函数

下的一个采样trajectory。

对于

的优化:若

可微,可用梯度下降,共轭梯度,拟-牛顿等方法,若

不可微,或倒数难算,可用采用 Cross-entropy method (CEM),Hill climbing,Evolution algorithm等。

在多步MDP模型中,状态-动作 trajectory服从以下关系:

表示一trajector的回报和。于是

其中

表示策略

下,该trajectory出现的概率。此时优化目标为:

结合2.3节的对数技巧,容易得出式(19)的梯度为:

展开:

于是多步MDP的策略梯度最终表示为:

最终的梯度公式可以做一个直观认识:对于权重函数的期望(积分),其梯度方向为原始概率的对数的导数乘以对应权重(注意这里是一个trajectory)。 有了这一直观认识,我们可以猜一猜其他各种形式的策略优化函数的梯度。

当权重值为

(在一个trajectory,从时间t开始获得的奖励)时:

当权重值为

时:

验证:见周博磊讲义第5章。也就是说以上猜测确为事实。

不过在一个trajectory中,

往往方差较大,如何做到减小其方差,但保持其期望不变? 答案是减去回报值的期望。

基准值

,有

,并且

于是优化函数变为:

如法炮制,(25)也可做减基准值的改动。不过这里还是回到RL原始的发展顺序来。在教材中,(25))被称为 Actor-Critic Policy Gradient,原因在于

担任了Actor的角色,

扮演了 Critic角色,他们各自有各自的参数,这和生成模型GAN异曲同工。

演员评论家

当用线性价值函数来逼近Actor时:

。 此时Critic由线性的

更新,Actor由策略梯度更新。一个简单版本见图QAC。

QAC

上面提到的Actor-Critic算法的减基改动,怎么做?回想一下策略

下的

的定义是什么。

因状态价值函数是状态-动作价值函数的无偏估计,因此,只需做

(按算法更新写法)即可。 于是我们得到一个重要的函数:优势函数。

其对对应的策略梯度为:

以上就是基本的策略梯度算法。那么策略梯度有什么问题?我想应该需要更详细的推导,分析,以及实验了。 关于策略梯度能克服不可微操作,可参考PG overcome the non-differentiable computation(http://karpathy.github.io/2016/05/31/rl/)。

策略梯度的改进

不同算法的优缺点,除了理论推导,实际实验情况也非常重要。

Policy Gradient→TRPO→ACKTR→PPO

在High-Dimensional Continuous Control Using Generalized Advantage Estimation(https://arxiv.org/abs/1506.02438)一文中, 可以看到,策略梯度可以有多种:

前三种已经见过了,对于第四种,其和优势函数的关系,可能并不能一眼看出。 其实我们有如下结论:

设价值函数,

误差分别为

,则

根据(4),即可证明。

策略梯度的问题:

  • 因为在线学习的原因,采样效率不高
  • 策略更新过大或者步长不合理会导致训练崩溃
    • 和强监督不同这里更新的数据不是独立的
    • 步长太大,导致策略不好,不好的策略搜集了更差的数据,恶性循环严重
    • 很难从坏策略中逃出来,大概率致使模型崩塌

traning unstatble

为了解决训练不稳定,在线更新问题,John Schulman等人在TRPO中提出了用置信区间和自然梯度 下降来克服训练不稳定问题,并顺势而为,用重要采样将在线改为离线。

核心思想就是限制策略更新前后的差异。因为策略是概率函数,于是可用KL散度来 限制。

将重要采样用上则为:

经过一些计算,得到更新方式:

其中

综合以上,TRPO算法的自然梯度下降算法流程:

Conjugate Nature TRPO

Conjugate Nature TRPO

将Fisher Information Matrix的逆用共轭算法实现的算法流程图(CTRPO)。

而ACKTR则对FIM的逆的计算做了进一步改进(使用了矩阵的分块计算)。

PPO做了两点改进,第一将合并了TRPO的限制条件和函数主体:

合并的好处是省略了二阶导数的计算,完全转化为一阶导数,时间上更快。

在前后策略差异的限制上,

也做了动态调整,见图PPO。

第二对新旧策略和优势函数上做了一些简单粗暴的限制。具体如下:

直观上理解,当新旧策略的比率在(

)之外时,优势函数将按如上截取。 也就是说要当新旧策略差距大时,对策略函数做惩罚。

算法流程如下:

PPO Clip

PPO Clip

Q-learning→DDPG→TD3→SAC

DDPG为DQN的连续版本,暂略。

Code

算法基本都有开源实现,环境模拟有 gym(https://gym.openai.com/),MojoCO(http://www.mujoco.org/)等。

RL-Adventure-2(https://github.com/higgsfield/RL-Adventure-2):干净简洁明的实现了DQN+PG系列; TD3(https://github.com/sfujim/TD3/):论文细节完备实现; DeepRL-Tutorials Codes(https://github.com/cuhkrlcourse/DeepRL-Tutorials):RL-Adventure的复杂版本; PARL(https://github.com/PaddlePaddle/PARL)更完整的RL算法框架。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭开屏蔽箱的面纱
根据测试要求和自动化的程度可以分为手动屏蔽箱、气动屏蔽箱和全自动屏蔽箱,一般工厂量产都是采用气动或者全自动屏蔽箱以提升生产效率。
ElectricDeveloper
2022/09/22
6280
揭开屏蔽箱的面纱
高精度通用频率计如何实现时间校准
在5G通信、卫星导航、高精度制造等领域,时间与频率的同步精度已成为技术竞争的隐形战场——基站信号偏差1微秒可能导致全网瘫痪,晶圆加工时钟抖动1纳秒会引发良率暴跌。然而,传统测量设备受限于分辨率不足、功能单一等瓶颈,难以应对复杂场景下的微秒级挑战。如何用一款设备同时实现高精度捕获、多维度分析与快速故障定位?西安同步电子科技有限公司用真实案例,揭示了SYN5636型频率计如何成为破局关键。
时频专家
2025/06/13
880
高精度频率基石:超低相噪恒温晶振、超低相噪恒温晶振、高精度频率恒温晶振
在科技高速发展的今天,频率源作为电子系统的 “心脏”,其稳定性与可靠性直接决定着通信、导航、测量等关键领域的性能上限。西安同步电子科技有限公司深度洞察行业需求,重磅推出SYN3627L 型 100MHz 恒温晶振(OCXO)。这款集高稳定性、低相位噪声、小体积设计于一体的创新产品,不仅突破了传统晶振在复杂场景下的性能瓶颈,更以全场景适配的解决方案,为现代电子系统注入了精准与可靠的核心动力。
时频专家
2025/05/19
770
48家国内外光模块测试仪器企业详细梳理
I数据中心对算力的需求呈指数级增长,GPU集群互联带宽需从当前的180MW升级至0.65GW甚至更高。为满足这一需求,光模块速率正从400G向800G、1.6T迭代,未来还将向3.2T演进。与此同时,AI数据中心网络架构从传统三层结构转向叶脊架构或胖树架构,光模块用量大幅增加。中际旭创、新易盛、光迅科技、天孚通信等光模块产业企业的2024年业绩大涨,非常清晰的印证了光模块需求的高增长。全球光模块市场高增长,对应光模块的测试设备需求同步增长。
AIGC部落
2025/05/10
1040
48家国内外光模块测试仪器企业详细梳理
6款功能特色各异的电路仿真软件,你都用过哪几款?
电路仿真,顾名思义就是设计好的电路图通过仿真软件进行实时模拟,模拟出实际功能,然后通过其分析改进,从而实现电路的优化设计。是EDA(电子设计自动化)的一部分。市面上有各种类型的仿真器,本文对六款十分具有代表性的电路仿真软件进行了详细介绍,希望能对大家有所帮助。
MCU起航
2020/06/29
9.8K0
一个免费的 Elasticsearch 多集群监控和管理工具
那么问题来了,有没有一个更加简单方便的多集群监控和管理方案呢,并且要支持不同版本的集群,最好是 v2、v5、v6、v7 以及最新的 v8 都能统统接管,哈哈,没错了,这里给大家介绍一个我们极限实验室团队最近开发出来的一款免费的多集群监控和管理工具-极限数据平台,目前版本 v0.1,新鲜出炉。
铭毅天下
2021/12/21
1.3K0
一个免费的 Elasticsearch 多集群监控和管理工具
视频 | ZYNQ开发板深度评测:高性能FPGA和双核ARM的强强联合!
这是我第一次在公众号发布评测视频,之前也没做过视频,从录视频、剪辑、渲染真的是太麻烦了,PR咱也不会,用的是剪映,初次尝试,以开发板评测为主题,一共剪了两段,一个是模仿iPhone7 快闪107秒产品发布视频,40秒的视频周末剪了一上午。第二段是完整的开发板开箱评测视频,14分钟时长,我嫌太麻烦,中间几乎没有剪辑,如果觉得视频内容太长,可以看下后面的文字评测内容,要比视频介绍更详细。 初次录视频,大家多多支持。 视频1:开发板评测快闪 http://mpvideo.qpic.cn/0bc3xiaas
单片机点灯小能手
2022/12/18
4.3K0
视频 | ZYNQ开发板深度评测:高性能FPGA和双核ARM的强强联合!
五八同城(58.com)研发效能建设
这是「二三线中型互联网公司研发效能团队规模、职能划分和优劣势分析」的一个铺垫,一个背景。因为如果不写此篇,大家可能仅得到一些经验总结,恐怕难以获取当时为啥做出那个决定。做决定要有上下文环境,要有场景才好理解。
laofo
2022/10/25
4070
五八同城(58.com)研发效能建设
我是如何用这3个小工具,助力小姐姐提升100%开发效率的。
简单的知识点搭配合适的业务场景,往往能起到意想不到的效果。这篇文章会用三个最基础人人都知道的前端知识来说明如何助力运营小姐姐、公司48+前端开发同学的日常工作,让他们的工作效率得到极大地提升。
前端胖头鱼
2022/07/25
1.3K0
我是如何用这3个小工具,助力小姐姐提升100%开发效率的。
新知2023 | 5G+云聚通,显著提升网络带宽、速度和稳定性,解决全场景网络接入痛点
云聚通(多网聚合加速)能够让手机和各类行业终端可同时使用多运营商蜂窝网络/WiFi网络/卫星网络上网,通过硬件的多物理链路冗余,实现移动网络的增强。云聚通在终端侧提供了支持Android/iOS/Linux的SDK,在对终端业务流量进行拦截后,会按照算法策略分发在多个物理链路上。而云端的聚合网关则会对分散在各个物理链路上的数据包进行重组及去重,还原为原始的业务流量,通过NET网关,从公网或专线出口至业务服务器。
腾讯云音视频
2023/12/16
1.1K0
新知2023 | 5G+云聚通,显著提升网络带宽、速度和稳定性,解决全场景网络接入痛点
聊聊云原生之系统架构稳定性与成本管理
从私有云到公有云、从一朵云到多朵云,从虚拟化到容器化,从传统架构到云原生,我们见证和参与了软件服务交付模式从安装包到云原生SAAS的转变。云原生带来了极致的效率提升,给业务带来了更多可能,但同时因架构更复杂、运维难度更大,也对企业的管理水平提出了更高的要求。
熊昌伟
2024/12/26
1310
服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?
腾讯会议于2019年12月底上线,两个月内日活突破1000万,被广泛应用于疫情防控会议、远程办公、师生远程授课等场景,为疫情期间的复工复产提供了重要的远程沟通工具。
腾讯云大数据
2020/07/21
3.5K0
服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?
JDV背后的技术-助力618
Tech 导读 本文基于JDV平台在大促中的各种业务场景,讲解过程中使用情况和技术挑战,通过采取相应的技术创新、技术保障确保系统稳定性,推动数据可视化编排能力在大屏业务场景中发挥更大的价值
京东技术
2023/10/16
2990
JDV背后的技术-助力618
【新智元人工智能创业家】驭势吴甘沙:如何突围自动驾驶汽车?
【新智元导读】今年 3 月 27 日,吴甘沙当选新智元 2016 人工智能创业家时,在新智元超智能时代论坛上发表了一篇题为“让出行成为享受”的演讲,深受到场嘉宾欢迎。深深扎根于英特尔的吴甘沙有强烈的计算力信仰,他要做低成本感知+高性能计算的解决方案。他也谈到了在巨头博弈的市场环境下,作为一个创业公司应该如何突围自动驾驶产业。 这是一个巨头博弈+赢家通吃的市场。 在智能驾驶产业的逐鹿名单中,有Google、百度、特斯拉、奔驰、宝马、Mobileye,这些公司最年轻的是特斯拉,2003年成立;市值最少的是以色
新智元
2018/03/21
1K0
【新智元人工智能创业家】驭势吴甘沙:如何突围自动驾驶汽车?
服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?
从1月29日起,为了应对疫情下远程办公的需求,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入。
腾讯云开发者
2020/07/23
2.2K0
订单逆向履约系统的建模与PaaS化落地实践
Tech 导读 本文重点介绍了京东零售电商业务在订单逆向履约上面的最佳技术实践,京东零售快退平台承接了零售几乎所有售前逆向拦截和退款业务,并在长期的业务和技术探索中沉淀了丰富的业务场景设计方案、架构设计经验,既能承接面向消费者C端用户的高并发流量,同时也能满足集团复杂业务的订单信息流、货品实物流、财务资金流的逆向精准拦截。本文通过对集团B-PaaS化技术方案进行系统整体的架构升级改造,总结归纳出涵盖用户解约流程管理、撤销解约流程管理、订单逆向退款信息管理、流程配置化和流程可视化一整套的解决方案,该方案经过多次探讨和验证,已支持集团多个战略业务的增长。阅读本文,读者可以了解到整个快退平台新系统设计的底层逻辑,也可以参考本文并结合实际场景,将方案应用在遗留债务系统改造、业务和技术建模中。
京东技术
2023/09/21
5820
订单逆向履约系统的建模与PaaS化落地实践
SLA 4 个 9 ,贝壳高可用架构的质量保障体系
导语 | 贝壳用户需求和用户量的不断增长,对系统的高可用性提出了更高的要求,服务端的质量保证工作该如何开展?本文是对贝壳找房-基础平台中心-质量平台赋能部总监——项旭老师在云+社区沙龙online的分享整理,分享一些关于架构的新思想,希望与大家一同交流。
腾讯云开发者
2020/10/19
4.6K0
IT工单治理野史:由每周最高150+治理到20+
在IT运维领域,工单处理效率直接关联到企业的运营效能。本文将分享一段真实案例,讲述如何通过精细化治理流程,从每周超过150个工单高峰,优化至20个以下的治理经验。文章深入探讨了工单管理的痛点,以及通过流程重构、自动化工具和跨部门合作等措施来实现工单数量和处理时间的显著降低。这是一篇对于IT管理人员和团队来说富有启发性的实战分享,为工单治理提供了可行的改进策略。
京东技术
2024/02/26
2490
IT工单治理野史:由每周最高150+治理到20+
毫秒级突破!腾讯技术团队是如何做前端性能优化的?
搜狗百科是一个服务于互联网用户的高质量内容平台。文章主要介绍团队在梳理业务时发现百科无线前端项目在研发流程、架构设计、研发效率、页面性能等方面存在诸多问题和痛点。作者团队是如何对这个系统进行升级和改造的?又是如何分析出怎么样的优化方案才是最适合业务的?欢迎各位开发者继续阅读~
腾讯云开发者
2023/07/31
6190
毫秒级突破!腾讯技术团队是如何做前端性能优化的?
云端开发环境 ,「开发者上云」新起点
本文着重分享Cloud Studio产研团队是如何使用腾讯云「云端开发环境 Cloud Development Environment - 简称CDE」来改进日常开发-调试-构建-运行的关键阶段的开发者体验。
腾讯云开发者
2023/09/29
2940
云端开发环境 ,「开发者上云」新起点
推荐阅读
相关推荐
揭开屏蔽箱的面纱
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档