前言:腾讯 AI Lab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议 AAAI 2018。腾讯技术工程官方号独家编译了论文《用随机象限性消极下降算法训练L1范数约束模型》(Training L1-Regularized Models with Orthant-Wise Passive Descent Algorithms),该论文被 AAAI 2018录用为现场陈述论文(Oral Presentation),由腾讯 AI Lab独立完成,作者为王倪剑桥。 中文概要 L1范数约束模型
单细胞数据通常是从多次实验中得来。不同平台的数据、同一平台的不同时期的数据、同一个样品不同试剂的数据、同一个样品不同时间的数据、同一个样本不同设备的数据等都会产生批次效应。批次效应会导致不同条件下的差异,而这种差异与生物学和技术差异无关。如果批次效应广泛存在,就可能会忽略重要的生物学变化。所以,需要找到一种有效的方法去除批次效应。
推荐系统算法常常用到逻辑回归算法,而传统的批量学习算法如 SGD 无法应对大规模、高维的数据集和实时数据流。为了解决这个问题,在线最优化算法如 TG [1]、FOBOS [2]、RDA [3]、FTRL [4,5,6] 应运而生,下面将介绍、对比这些算法。
FedProx的原理请见:MLSys 2020 | FedProx:异质网络的联邦优化。
PanglaoDB数据库,这是2019年发布的一个单细胞转录组数据库,收集了人和小鼠的单细胞数据,目前共计包含来自1300+例样本、250+种组织的550万+细胞数据,另外还有6000多个marker基因可以用来做细胞注释。
https://github.com/ray-project/ray A high-performance distributed execution engine Ray is a flexible, high-performance distributed execution framework. Ray comes with libraries that accelerate deep learning and reinforcement learning development: Ray Tune:
深度学习中的优化问题通常指的是:寻找神经网络上的一组参数θ,它能显著地降低代价函数J(θ)。针对此类问题,研究人员提出了多种优化算法,Sebastian Ruder 在《An overview of gradient descent optimizationalgorithms》(链接:https://arxiv.org/pdf/1609.04747.pdf )这篇论文中列出了常用优化算法的比较。主要优化算法有:GD、SGD、Momentum、Adagrad、Adadelta、RMSProp、Adam。
版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://blog.csdn.net/jxq0816/article/details/83721843
机器之心发布 演讲者:王倪剑桥 腾讯 AI Lab 共有 12 篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议 AAAI 2018。腾讯技术工程官方号独家编译了论文《训练 L1 稀疏模型的象限性消极下降算法》(Training L1-Regularized Models with Orthant-Wise Passive Descent Algorithms),该论文被 AAAI 2018 录用为现场陈述论文 (Oral Presentation),由腾讯 AI Lab 独立完成,王倪剑桥为论文
Our dream is creating a safe driving system working well under all circumstance, for this purpose, a more intelligent agent is needed. We want to create a mind, instead of a larger or deeper network. Now our team using RL algorithm for self-driving, let the agent learning how to drive totally by itself, here is a demo in Carla simulator.
昨天Science文章背靠背揭示癌症中细胞感应氧气的新机制一文从表观水平分析了细胞中组蛋白修饰如何感知环境变化而发生不同的调控机制。
文章标题:《The single-cell transcriptomic landscape of early human diabetic nephropathy 》
作者:Quanming Yao ,Ju Xu,Wei-Wei Tu,Zhanxing Zhu
Zone of Proximal Development(ZPD)是由心理学家Vygotsky提出来的一种学习理论,是目前自适应学习常用的思考模型。他认为,能力高的学习者在学习难度低的知识时会感觉无聊,而能力低的人在学习难度高的知识时会感觉焦虑,他们只有在学习难度适中的知识时才会实现有效学习。这个难度适中的区域称为近端发展区(Zone of Proximal Development,简称ZPD)。
我们提供了一个移动应用程序解决方案,通过跟踪疾病潜伏期中可能的感染,帮助遏制疫情爆发。 我们考虑一个主要通过近端接触,通过呼吸道飞沫在人群中传播的感染的特殊病例。 这个智能手机应用程序将离线工作,并将能够检测其他设备接近,并以一个匿名和加密的方式列出所有的互动范围。 如果一个应用程序用户被检测出阳性,因此被认定为感染,应用程序会立即通知列表中的设备潜在的传染,并建议开始自愿隔离和进行医学测试。 我们认为,这一解决办法可能对目前的大流行病尤其有用,而且可用于防止今后发生类似事件。
FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA)。FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度。理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k)。
其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;
经典策略梯度的大部分时间花在数据采样上,即当我们的智能体与环境交互后,我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次,更新完后我们就要花时间重新采样数据,然后才能再次进行如上的更新。
本文主要介绍如何让AI在24分钟内学会玩飞车类游戏。我们使用Distributed PPO训练AI,在短时间内可以取得不错的训练效果。
原文链接:https://wetest.qq.com/lab/view/440.html
https://github.com/18605973470/rl-with-carla/blob/master/gym_carla.py
近日,Github 一位开发者 danaugrs 开源了一个新项目——Huskarl,一个专注研究和快速原型的深度强化学习框架。
近日,Github 上开源的一个专注模块化和快速原型设计的深度强化学习框架 Huskarl 有了新的进展。该框架除了轻松地跨多个 CPU 内核并行计算环境动态外,还已经成功实现与 OpenAI Gym 环境的无缝结合。TensorFlow 发布了相应的文章来报道此研究成果。
选自OpenAI 机器之心编辑部 参与:蒋思源、Smith 近日,OpenAI 发布了一种新型的强化学习算法,近端策略优化(Proximal Policy Optimization/PPO)算法,该
导读: OpenAI 新论文疑似“作弊”,一位用户在 Github 上提出质疑,表示根据他的使用经验,PPO 并没有 OpenAI 说的那么好。 OpenAI 日前发布了一类新的强化学习算法——近端策
【新智元导读】OpenAI 日前提出了一类强化学习替代方法,号称能与最先进的方法相媲美乃至更好。但是,昨天却有用户在 Github 表示“他们有点儿作弊了”,称结果无法复现。这究竟是怎么回事? OpenAI 日前发布了一类新的强化学习算法——近端策略优化(Proximal Policy Optimization,PPO),称这类算法的实现和调参更加简单,并且性能与当前最佳方法相当乃至更好。PPO 也是如今 OpenAI 默认使用的强化学习算法。 昨天,一位用户在 Github 上提出质疑,表示根据他的使用经
安妮 编译自 Caffe2.ai 量子位 出品 | 公众号 QbitAI 今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天,Caffe2又推出了一组强化学
来源:专知本文为书籍,建议阅读5分钟本书为一阶凸优化方法提供了强大的更高层次的见解。 我们写这本书是为了分享一个优雅的视角,它为一阶凸优化方法提供了强大的更高层次的见解。一阶凸优化方法更有效地解决大规模优化问题的研究始于20世纪60年代和70年代,但当时该领域的重点是二阶方法,后者更有效地解决较小的问题。21世纪初,随着计算能力的提高和大数据的可用性,一阶优化方法成为主流。在这个现代时代,作者进入优化领域,发现(但没有发明)上述观点,我们希望通过本书分享它。 https://large-scale-boo
在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMind任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。
强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑:
当整个组织的RNA-seq(bulk RNA-seq)完成时,确定基因表达的变化在多大程度上是由于细胞类型比例的变化往往是一个挑战。这一挑战可以通过单细胞RNA-seq(scRNA-seq)方法来解决,该方法在单细胞分辨率下测量基因表达,利用scRNA-seq从bulk RNA-seq中了解细胞类型比例(RNA-seq反褶积)。
最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization)
允中 编译自 blog.openai.com 量子位 出品 | 公众号 QbitAI OpenAI今天发布一类新的强化学习算法:近端策略优化(Proximal Policy Optimization,
之前我们介绍过关于[[ENCODE-转录调控必知数据库]]这个数据库。目前这个数据库更新到了V 5.0的版本。基本界面也发生了变化。所以这里就重新来介绍一下关于ENCODE: https://www.encodeproject.org/ 。
PPO 算法,即 Proximal Policy Optimization(近端策略优化),是一种强化学习算法。它的主要目的是改进策略梯度方法,使得训练过程更加稳定高效。PPO 算法通过限制策略更新的步长,来避免训练过程中出现的性能剧烈波动,因而在实际应用中取得了广泛的成功。该算法核心的元素包括策略网络、价值网络、目标函数的剪切,以及重要性采样技术。
昨日,国际机器学习顶会ICML 2020于“线上”公布了本届大会的杰出论文奖,获此殊荣的一共有两篇:
本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。
现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regularized-Leader)算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色,据闻国内各大互联网公司都第一时间应用到了实际产品中,我们的系统也使用了该算法。这里对FTR
代码:https://github.com/xujinfan/NASP-codes
本次分享的是用PyTorch语言编写的深度强化学习算法的高质量实现,这些IPython笔记本的目的主要是帮助练习和理解这些论文;因此,在某些情况下,我将选择可读性而不是效率。首先,我会上传论文的实现,然后是标记来解释代码的每一部分。
在ChatGPT引领的大型语言模型时代,一个绕不过去的话题就是「基于人类反馈的强化学习」(RLHF),不仅提升了语言模型的性能,也将人类社会的价值观注入到模型中,使得语言模型能够帮助用户解决问题,提高模型的安全性。
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/79731088
近日,为了让工业界能更好地使用前沿强化学习算法,Tensorlayer 强化学习团队发布了专门面向工业界的整套强化学习基线算法库---RLzoo。(TensorLayer 是基于 TensorFlow 的延伸库,用于对基本的神经网络构建和多样的神经网络应用进行更好的支持,未来将支持更多底层计算引擎。)
作者 | 李云飞 编辑 | 陈大鑫 用积木拼搭各种建筑应该是很多小朋友童年的一大乐趣。现在,聪明的机器人也能自己玩积木了,而且不用人告诉它成品长什么样,机器人可以自己设计、建造一并完成。 AI 科技评论今天介绍一篇来自清华大学和字节跳动的研究者发表在 IROS 2021 的论文: “Learning to Design and Construct Bridge without Blueprint” 论文链接:https://arxiv.org/abs/2108.02439 1 介绍 这篇论文提出了机器
基于模式化稀疏度的剪枝方法能够使深度神经网络在图像识别任务中「看得」更清楚,同时减小了模型尺寸,使模型在移动端「跑得」更快,实现实时推理。
一种方案是,人向模型对齐。于是有了 「Prompt工程师」这一岗位,专门撰写适配 LLM 的 Prompt,从而让模型能够更好地生成内容。
由美国东北大学王言治教授研究团队与美国威廉玛丽学院任彬教授研究团队共同提出,IBM、清华等共同研究的模式化稀疏度感知训练框架,不仅能够同时实现卷积核稀疏模式的全自动提取、模式化稀疏度的自动选择与模型训练,还证明了所提取的模式化稀疏度与理论最佳模式化稀疏度相匹配,并进一步设计了能够利用模型特点实现编译器优化的移动端推理框架,实现了大规模深度神经网络在手机移动端上的实时推理。目前,这篇文章已被 ECCV 2020 会议收录,该文章同时入选 ECCV 2020 demonstration track。
领取专属 10元无门槛券
手把手带您无忧上云