暂无搜索历史
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1...
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取...
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原...
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像...
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型...
Rafailov等人在2023年发表了一篇论文《Direct Preference Optimization: Your Language Model is S...
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。
继续写《从0开发大模型》系列文章,上一章主要数据数据预训练,让模型能学到句子接龙和部分语言理解能力,获取基座版本,但是用基座版本的模型的对话能力太弱了,需要用大...
继续写《从0开发大模型》系列文章,本文主要介绍预训练过程。 预训练是目的是让模型学习知识,需要将预处理的数据(《机器学习|从0开发大模型之数据预处理》)中生成的...
分布式系统中生成唯一ID在后台开发是经常遇到的架构设计,当然方案有很多,比如通过redis或者数据库实现自增。 但是如果依赖redis或者数据库,会导致单点问题...
十一期间开车到五六线线城市,发现高德地图的红绿灯读秒功能竟然依旧比较精准,之前在一二线城市了解地图的读秒是使用政府交通部门的数据,那五六线城市的数据应该是没那么...
考虑到上述问题的扩展性,除了统计APP每日的独立用户登录数,还需要统计打开每个页面的独立用户数。
之前已经考虑将公众号加入智能体,但是由于API接口返回太慢了,于是重新实现了一个页面,就变成这样:
前面写了一篇文章《ChatGPT|大语言模型训练有哪些开源数据集? 》(https://mp.weixin.qq.com/s?__biz=MzA3Njk4Mjk...
继续写《从0开发大模型》系列文章,本文主要介绍从头快速训练一个Tokenizer。
在机器学习中,通常训练完成了模型该如何部署?如果直接将训练环境部署在线上,会和训练平台或者框架相关,所以通常转换为ONNX格式。
在深度学习中,求导几乎是所有优化算法的关键步骤,但是对于单个值的求导比较简单,但是如果对于模型训练过程中每次都需要手动求导就很麻烦,因此深度学习框架都提供了自动...
在早期的图像分类中,通常流程是先人工提取特征,然后用对应的机器学习算法对特征进行分类,分类的准确率一般依赖特征选取的方法,甚至依赖经验主义。 Yann LeCu...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市