腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
MCP广场
返回腾讯云官网
探物及理
终于等到你[吃瓜],欢迎关注探物及理[得意] 张小跳会为你持续贡献好物分享: 期待我们一起变得更酷!
专栏成员
举报
59
文章
90040
阅读量
14
订阅数
订阅专栏
申请加入专栏
全部文章(59)
编程算法(19)
神经网络(11)
机器学习(8)
python(8)
深度学习(8)
强化学习(7)
对象存储(6)
人工智能(6)
tensorflow(5)
linux(5)
serverless(5)
网络安全(4)
keras(4)
markdown(4)
游戏(3)
bash(2)
css(2)
android(2)
sql(2)
bash 指令(2)
批量计算(2)
数据加密服务(2)
http(2)
监督学习(2)
tcp/ip(2)
https(2)
学习方法(2)
费用中心(1)
云服务器(1)
ios(1)
mac os(1)
javascript(1)
bootstrap(1)
html(1)
jquery(1)
数据库(1)
打包(1)
ide(1)
github(1)
matlab(1)
腾讯云测试服务(1)
渲染(1)
vr 视频解决方案(1)
svg(1)
开源(1)
图像识别(1)
线性回归(1)
flash(1)
hexo(1)
迁移学习(1)
机器人(1)
数据分析(1)
windows(1)
数据可视化(1)
数据结构(1)
系统架构(1)
架构设计(1)
腾讯云开发者社区(1)
jupyter notebook(1)
apple(1)
ip(1)
iteration(1)
live(1)
mnist(1)
p2p(1)
policy(1)
process(1)
ref(1)
state(1)
word(1)
编译(1)
可视化(1)
模型(1)
数据(1)
搜索文章
搜索
搜索
关闭
系统安装工具
bash
android
bash 指令
https
http
系统允许任何来源安装包 sudo spctl --master-disable
列夫托尔斯昊
2022-11-28
1.1K
0
解锁播放器的隐藏功能👀用过的都说好😎
flash
tcp/ip
windows
动机🤔 有时候想看视频,遭遇1-2min的广告,望而却步 "歪,我要看的视频也就3min好嘛???" 有时候你想看个新闻,却还要装个Flash 想起乔帮主说的话 "移动时代是低功耗设备、触摸屏界面和开放网络标准的时代,Flash 已经落伍。" 于是乎,mac和win 平台下,都有解😎 Solution Mac下,果断的下载IINA就好了 作为一款万能的视频播放器,IINA mac 版的界面精美,功能齐全,支持Touch Bar、兼容 MPV 脚本、几乎支持所有格式、网络播放等,有中文支持
列夫托尔斯昊
2022-05-19
818
0
Mac必备软件推荐,让你效率起飞
ide
python
markdown
系统工具效率 Alfred 置顶,比spotlight高效,支持各种插件,没有上限 Appcleaner mac卸载软件就靠它,一键拖入,彻底清理干净。想想CleanMyMac、Dr.Cleaner还收费,真是笑死人 istate menus 监控你的电脑,cpu、内存、网络、硬盘,你能想到的都有了 handshaker 老罗确实改变了世界,锤子出品必属精品,mac和手机连接的神器,有线和无线均可,Android和iPhone都可以用,itunes是个啥??? Duet Mac下mac os 10
列夫托尔斯昊
2022-05-17
2.4K
0
【云服务器】推荐san、feng、yun服务器,目前永久免费!
linux
云服务器
ip
p2p
一直在用zerotier的异地组网服务,过节回家可能是跨了运营商,所以p2p打洞失败,要构建moon节点加速 需要有公网ip的云服务器,于是乎找到了san、feng、yun(以前一直没有注册成功甲骨文) 支持win、linux等系统,一键安装宝塔,很方便
列夫托尔斯昊
2021-09-26
21.6K
0
编辑公式利器,Mathpix Snipping次数用完了吧
markdown
https
网络安全
打包
伴随着技术的进步,以前应用App才能接决的问题,都可以在 嗑盐人常用公式编辑器 分享一个在线latex公式编辑器 https://latex.91maths.com https://mathpix.
列夫托尔斯昊
2021-02-02
2.9K
0
word设置备忘
word
Mendeley 和 Zotero 都可以自动生成参考文献和引文目录 但是GB7714中规定多个作者要省略,即中文文献:A,B,C,等.,英文文献:A,B,C,et al. 所以插入引文格式时,统一为et al.,然后使用word的宏功能和正则表达式完成统一替换
列夫托尔斯昊
2021-02-02
505
0
mac开启HiDPI
tcp/ip
不只是黑苹果需要开启hidpi,白苹果外接非4k显示屏的时候默认也是不开启hidpi的,显示效果不佳,颗粒感严重
列夫托尔斯昊
2021-02-02
2.2K
0
强化学习仿真环境搭建入门Getting Started with OpenAI gym
编程算法
机器人
游戏
强化学习
监督学习
gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设,并且与任何数字计算库(例如TensorFlow或Theano)兼容。
列夫托尔斯昊
2020-09-10
2.7K
1
RL实践3——为Agent添加Policy、记忆功能
学习方法
深度学习
强化学习
数据加密服务
serverless
在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agent的动作选取,本节将利用SARSA(0)的学习方法,帮助agent学习到价值函数(表),指导\(\epsilon\)-greedy策略选取动作。
列夫托尔斯昊
2020-09-10
828
0
强化学习笔记10:经典游戏示例 classic games
游戏
强化学习
对于石头剪刀布来说,最优策略,显然和对手agent策略相关,我们期望找到一种一致的策略策略,对所有对手都有效 什么是第i个玩家的最优策略\(\pi\)
列夫托尔斯昊
2020-09-10
952
0
强化学习笔记11:工程师看强化学习
linux
强化学习
游戏
编程算法
缺点:带来维度灾难 对于连续空间,构建Value = w1 * state + w2 * action 手段:函数近似器
列夫托尔斯昊
2020-09-10
820
0
RL实践3——为Agent添加Policy
数据加密服务
学习方法
在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agent的动作选取,本节将利用SARSA(0)的学习方法,帮助agent学习到价值函数(表),指导\(\epsilon\)-greedy策略选取动作。
列夫托尔斯昊
2020-09-07
502
0
RL实践1——动态规划值迭代
强化学习
编程算法
动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的 使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略生成。
列夫托尔斯昊
2020-09-07
523
0
RL实践2——RL环境gym搭建
python
强化学习
编程算法
首先先来回顾一下强化学习问题中,环境Env 和 代理Agent 分别承担的角色和作用。
列夫托尔斯昊
2020-09-07
1.5K
0
hexo 进阶设置指南(持续更新)
渲染
markdown
hexo
html
javascript
对复杂公式的支持不够好,简单公式可以显示,复杂编译错误,验证表明,问题不是mathjax.js导致,是默认hexo引擎编译导致html文本转义错误。
列夫托尔斯昊
2020-08-31
1K
0
强化学习笔记9:探索和利用 exploration and exploitation
python
机器学习
神经网络
深度学习
人工智能
最佳的策略是用长期的眼光来看,放弃短期高回报 获取足够策略是让策略变成全局最优的必要条件
列夫托尔斯昊
2020-08-31
2.3K
0
强化学习笔记8:整合学习和规划
监督学习
linux
第7章节,讲了PG,从episode经验学习到 策略 policy 之前的章节,讲了从episode 经验学习到 价值函数
列夫托尔斯昊
2020-08-31
854
0
强化学习笔记7:策略梯度 Policy Gradient
编程算法
之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数
列夫托尔斯昊
2020-08-31
956
0
强化学习笔记5:无模型控制 Model-free control
编程算法
贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略
列夫托尔斯昊
2020-08-31
918
0
强化学习笔记2:Markov decision process(MDP)
iteration
policy
process
state
我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。
列夫托尔斯昊
2020-08-31
956
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档