暂无搜索历史
2024年又过去了,去年的总结在这里我独到的技术见解:LLM的演进与发展,是时候对2024年get的新技术进行一次的沉淀和总结了。 本文从以下几个方面进行梳理
随着大模型项目的开源环境越来越好,大家在本地部署一个大语言模型跑demo应该是一件很简单的事情。但是要将模型运行到生产环境,就需要考虑模型运行性能,GPU资源的...
文章从环境搭建、代码实现到数据展示与分析,完整实现了一个微博热搜爬取项目。项目不仅可以作为学习爬虫的入门案例,还可扩展为更复杂的热点分析系统。
推荐文章:《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》
推荐文章:《使用Python实现深度学习模型:智能食品配送优化》,作者:【Echo_Wish】。
之前专栏有介绍过LLM应用的利器RAG,通过它的实现原理,我们可以看出它有个很大的缺点就是在检索过程中只是对切片片段进行召回,所以也只能回答局部文档问题,无法回...
上一篇文章介绍了大模型应用利器--RAG。在RAG中当然少不了检索。检索算法在信息检索、搜索引擎和推荐系统等领域中扮演着至关重要的角色。它们的核心任务是根据用户...
现在大模型应用平台让人挑花了眼,想创建个人智能体的选择越来越多了,列举一些国内主流AI平台:
年初在我独到的技术见解:LLM的演进与发展文章中和大家分享了LLM的应用和发展,其中有简单介绍过RAG技术,也提到我个人建议在大模型的应用中,能用prompt搞...
回顾上文中的DDPG,DDPG是源于DQN,它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作,...
gym是openAI下的一个开发和对比强化学习算法的工具包,内部提供了强化学习需要的环境。
DDPG(deep deterministic policy gradient),深度确定性策略梯度算法。
上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题,主要在决策动作这个步...
在基于价值算法中,是根据值函数对策略进行改进,对比基于策略的方法,他的决策更为肯定就是选择价值最高的;而基于策略方法,是直接对策略进行迭代让累计回报最大。
在上文中我们介绍了Acort-Critic的一种实现方式,本文主要介绍AC网络的一些优化算法。
上文我们已经理解强化学习的基础概念以及其目标是找到一个策略 最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分...
最近了解了强化学习方面的知识,准备进行下整理和总结。本文先介绍强化学习中一些基础概念。
好久没有更新强化学习这个系列了,今天继续更新下强化学习系列的A3C技术,后面会结合当前最火大模型强化学习训练持续更新此系列。
大型语言模型的few-shot能力指的是它们在只提供极少量样本或示例时,就能够理解并执行特定任务的能力。这种能力使得模型能够在新的上下文中进行推理和表达新任务,...
之前的文章中我们结合prompt-engineering课程体验了下混元大模型,今天再介绍大家一些写好prompt的思路以及prompt资料。
暂未填写学校和专业
暂未填写个人网址