Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >达尔文——生物医疗科学领域大模型

达尔文——生物医疗科学领域大模型

作者头像
小爷毛毛_卓寿杰
发布于 2023-07-21 08:04:18
发布于 2023-07-21 08:04:18
5450
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

赛灵力官网

1. 生物医疗领域的挑战

1.1 复杂性

生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。 举例来说,单单一个人类,体内的生物信息就非常复杂:

  • 人类体内体内平均大约生活着1,000种不同种类的细菌
  • 单个测序的人类基因组大约为140GB
  • 人类基因组含有约31.6亿个DNA 碱基对

1.2 数据爆炸

生物领域产生的数据呈爆炸性增长,包括基因组数据、表型数据、蛋白质数据等,这些数据的规模和复杂性使得传统方法难以有效处理和分析。

  • 文献数量增长:PubMed 数据库中的生物医学文献数量不断增加。目前 PubMed 包含超过 3,500 万篇生物医学文献
  • 随着测序技术的发展,基因组数据量呈爆炸性增长。NCBI 的 Sequence Read Archive (SRA) 数据库收录了 7亿亿级别的 的测序数据。

1.3 知识碎片化

生物科学领域存在大量的碎片化知识,散布在各种文献、数据库和研究中,整合和理解这些知识是一项困难的任务。

  • 生物医疗专科增多,学科交叉:生物医疗领域涉及多个学科的知识,如生物学、化学、医学、计算机科学等。学科交叉的增加使得研究人员需要具备多学科的知识,而且跨学科合作也面临知识整合的挑战。同时,医学领域不断出现新的专科和亚专科,涉及各种疾病和治疗方法。根据美国医学会的数据,医学专科已经超过180个,导致医学知识的分散和碎片化。
  • 数据分散罕见:病历、药物信息、试验结果数据的分散性使得生物医疗领域难以综合和比较不同的数据。全球已知的罕见病约有7,000多种, 而在分类更为细致的疾病数据库Malacards上的统计一共有14000多种

2. 达尔文模型核心优势

2.1 RDDC数据中心

背靠赛业生物,赛灵力有专业的生物科研数据库——RDDC。 RDDC 罕见病数据库 罕见病数据中心(RDDC)由清华珠三角研究院人工智能创新中心与赛业生物联合研发提供生物和遗传技术支持。RDDC专注于基因及遗传相关数据呈现,充分利用遗传大数据进行生物人工智能工具的开发。目前,我国尚无公共的罕见病数据库,现有的国际疾病数据库也没有对罕见病的展示模式以及大多数研究者关心的相关问题提供足够清晰的可视化展示。RDDC的目的是帮助医生、大学和研究机构的研究人员以及罕见病患者及其家属快速、直观地了解他们感兴趣的罕见病。RDDC还通过数据库整合国内罕见病相关资源,为罕见病科学研究提供全面的数据档案。

  • 在**基因方面,RDDC已经收集了600GB+**的人类、小鼠、大鼠等物种的基因信息
  • 疾病页面,RDDC收集了130GB+的数据,包括 Malacards、OMIM、Orphanet、ClinVar等开源数据库的信息以及罕见病联盟提供的本地疾病信息。
  • 在**小鼠模型领域,RDDC收集了50GB+**的许多文献中使用的各类基因编辑小鼠模型数据

在“海量、中英文、高质量、通用开源”数据,以及专业上进行预训练,即续写(预测下一个词)。再次基础上,RDDC 的各类生物医学数据(如 临床与生物文本、DNA序列、基因表达。蛋白质等等)也用于“达尔文”大模型(通用开源数据以外)进一步的预训练,赋予“达尔文”大模型在生物医疗领域比一般通用大模型具备更有竞争力的表现

2.2 科研强化

RLHF 是指"Reinforcement Learning from Human Feedback",即从人类反馈中进行强化学习。它是一种强化学习方法,通过与人类交互来训练智能体,并从人类提供的反馈中进行学习和改进。 RLHF 的目标是利用人类的专业知识或经验来加速强化学习过程,尤其是在环境动态或奖励函数复杂的情况下。它可以通过人类提供的示例轨迹、偏好或评估来引导智能体的学习过程。 背靠赛业,数百名生物领域的专业研究员为我们达尔文提供专业知识和经验,来训练反馈模型,以指导“达尔文”大模型的强化学习

2.3 生物AGI

大语言模型的兴起,带动当下最热门的研究方向之一就是:基于大语言模型(如 GPT4)的AI代理(如 AutoGPT、AgentGPT)。 AI代理能够通过自动循环来执行任务。它能够自主决策并调用外部应用工具、模型接口等来完成各种任务(如 查询天气、搜索引擎、计算器、天气、模型库(语音识别模型)等等),并通过循环评估策略实时评估目标当前的达成程度。 AI代理技术 能够处理更为复杂的任务。展示了真正的AGI(通用人工智能) 的雏形,即:一个可以自我完善、具备完成各种任务能力的AI 达尔文大模型 指令微调(instruction tuning)训练,除了进行常规的指令(如问答、摘要等),我们基于赛业生物在多年在生物领域技术的沉淀,构造了更丰富的生物垂类领域指令进行训练。使其拥有决策与调用各类生物信息AI工具能力,实现生物领域的通用人工智能:

  • RNA Splicer :预测碱基突变是否引起mRNA剪接位点变化,并详细分析和显示预测结果
  • Patho Predict :利用机器学习中的xgboost方法预测碱基突变引起的疾病效应水平。预测结果可分为四个致病性级别:良性、疑似良性、疑似致病性和致病性
  • 小鼠表型预测模型: Patho Predict 工具基于 Ensembl VEP 来预测突变对小鼠表型的影响。与其他现有预测工具相比,Patho Predict可以更准确地预测新发现突变的表型效应
  • ASO Predict :通过计算ASO与目标区域碱基序列的结合能以及其他碱基配对指标(如ASO的GC百分比、ASO的自由能等)来预测最佳ASO候选序列
  • SNP可视化工具:可以查看输入基因的突变分布和突变状态,方便突变热点和位点的查询
  • 小鼠到人类基因表达预测模型:基于线性表达法结合Bootstrap方法的AI模型,可以根据小鼠直系同源基因表达输入来预测人类基因的表达变化
  • Pathway Analysis :在线通路富集工具,可以直观地展示富集后通路中基因表达的变化。 工具还在持续丰富中……

2.4 火山方舟

在这里,我们还要非常感谢我们的合作伙伴——字节跳动火山引擎。 就在前些天,6月28日,在2023火山引擎V-Tech体验创新科技峰会上,火山引擎发布大模型服务平台“火山方舟”。“火山方舟” 包含模型广场、模型体验、模型训练推荐以及模型应用的功能,其使命是加速大模型和大算力的应用落地,加快大模型在各行业发挥商业价值。 赛灵力和字节跳动火山引擎深度合作,得到大模型服务平台“火山方舟”的强劲GPU算力支持,加速了“达尔文”大模型的训练学习。 带给大家一个好消息,“达尔文”大模型将入驻火山引擎大模型生态,上架至“火山方舟”的模型广场,补全火山引擎大模型生态的生物医疗领域,并供大家使用与反馈。

火山方舟

3. 应用案例

3.1 面向个人

  • 在线问诊:在线智能问诊是指用户通过与智能助手进行对话,获取初步的医疗咨询和建议。助手可以提供常见症状的解释、推荐适当的医疗检查或建议咨询医生的时间。尽管在线智能问诊可以提供有用的信息,但它不是替代真正医疗专业人员的诊断和治疗。
  • 线下导诊:线下智能导诊是指智能助手在医疗机构的实际场景中提供导诊服务。当患者到达医院或诊所时,助手可以与患者进行对话,了解症状、查询病历、指导患者到正确的科室或医生那里就诊。这有助于提高就诊流程的效率,并为患者提供更好的导诊体验。
  • 诊后随访:智能助手可以在患者就诊后进行随访服务。通过与患者的对话,智能助手可以了解患者的康复情况、用药情况等,并提供相关的建议和回答患者的疑问,以及在必要时提醒患者进行复诊或进行特定的健康管理。

2.2 面向科研

  • 文献调研:智能助手可以根据科研人员的需求,提供基于专业科研文献的信息检索和分析服务。科研人员可以通过与智能助手的对话,快速获取相关领域的最新研究成果、技术手段和方法论等信息,以支持其科研工作。
  • 药物研发:智能助手可以协助生物科技企业或医药公司进行药物研发工作。通过与研发人员的对话,智能助手可以提供药物相关的数据库查询、药物设计和筛选、药效预测等方面的支持,以加快药物研发的速度和效率。
  • 基因解读:智能助手可以通过与科研人员的对话,提供针对基因组数据的问答服务。科研人员可以向智能助手提供基因组数据,然后与其进行对话,获得关于基因组信息、基因突变、潜在疾病风险等方面的问题的回答。智能助手可以解释基因组数据的含义,帮助科研人员理解个人或样本的基因组信息,并提供相关的解释、分析和建议。这种智能问答服务可以支持科研人员在基因组研究中的数据解读和分析工作,加快研究的进展和发现。

2.3 面向企业

  • 虚拟专家IP:智能助手可以模拟生物、医疗企业的领袖专家形象,通过与用户的对话,提供专业领域的知识分享、意见建议等服务。这种虚拟人形象可以为企业树立专业形象,提升企业的知名度和品牌形象。举例;”马叔来啦“,从单方面的内容(如 视频号)输出 -> 双向的专家与用户一对一互动
  • 数智销售:智能助手可以通过与潜在客户的对话,了解客户的需求和偏好,并根据客户的情况推荐合适的生物、医疗产品。智能助手可以提供产品的特点、优势和适用范围等信息,帮助客户做出购买决策。
  • 数智客服:智能助手可以协助客户解答关于生物、医疗产品的使用方法、维护保养、故障排除等方面的问题。智能助手可以通过与客户的对话,提供技术支持和解决方案,以满足客户的需求和解决客户的问题。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2018年医疗人工智能技术与应用白皮书(附下载)
【导读】2017 年医疗人工智能发展迅速,产业格局风起云涌。人工智能在医疗领域中的应用已非常广泛,包括医学影像、临床决策支持、语音识别、药物挖掘、健康管理、病理学等众多领域。本白皮书梳理和研究国际、国
WZEARW
2018/04/16
9.8K66
2018年医疗人工智能技术与应用白皮书(附下载)
Nature Medicine | 深度学习在健康医疗中的应用
本文介绍健康医疗的深度学习技术,重点讨论了计算机视觉、自然语言处理、强化学习和广义方法的深度学习。我们描述这些计算技术如何影响医学的几个关键领域,并探索如何构建端到端系统。计算机视觉的讨论主要集中在医学成像上,自然语言处理则主要关注其在电子健康记录数据等领域的应用。同样,在机器人辅助手术的背景下讨论了强化学习,并综述了基因组学的广义深度学习方法。
数据科学人工智能
2022/03/31
1.8K0
Nature Medicine | 深度学习在健康医疗中的应用
从诊室到云端:医疗大模型的应用挑战与未来探索
2023年是中国医疗大模型发展的元年,各种医疗大模型已广泛应用于临床辅助决策、医学研究、健康管理等多个场景。未来,医疗大模型有望实现多模态AI与医疗实践全流程的深入链接,应用于医疗教育和临床培训,提高药物研发和药物反应监测等方面的能力。但在实际应用中,医疗大模型仍面临一些挑战,如准确度、透明度和可解释性等问题,以及对数据隐私和安全问题的担忧。本文主要探讨医疗大模型在医疗领域的应用及其面临的挑战。
小腾资讯君
2024/03/04
1.2K0
Jeff Dean等发文《Nature Medicine》,综述深度学习在医疗领域的应用
本文介绍了医疗行业中的深度学习技术,主要从计算机视觉、自然语言处理、强化学习和通用方法这些方面入手。主要介绍了这些计算技术对关键医疗领域的影响,并探索了如何构建端到端系统。计算机视觉方面主要关注医疗成像,自然语言处理方面主要涉及电子健康档案数据,强化学习方面主要讨论机器人辅助手术,通用深度学习方法主要涉及基因组学。
机器之心
2019/04/30
1.3K0
Jeff Dean等发文《Nature Medicine》,综述深度学习在医疗领域的应用
行业新知 | DeepSeek在医疗领域的典型应用场景
DeepSeek作为一款高效的深度学习模型,凭借其多模态处理能力、混合专家(MoE)架构、动态参数激活等技术创新,在医疗领域展现出广泛的应用潜力。
AIGC新知
2025/02/26
1.7K0
行业新知 | DeepSeek在医疗领域的典型应用场景
李飞飞团队 AI4S 最新洞察:16 项创新技术汇总,覆盖生物/材料/医疗/问诊……
斯坦福大学 HAI 研究中心重磅发布了《2024年人工智能指数报告》,新增章节探讨了 AI 在科研与医学领域的应用。
HyperAI超神经
2024/05/13
9420
李飞飞团队 AI4S 最新洞察:16 项创新技术汇总,覆盖生物/材料/医疗/问诊……
个性化医疗投资笔记
感谢华创中小盘的授权分享 作者:王昊/徐远航 所在机构:华创中小盘 投稿邮箱:publish@bigdatadigest.cn 建议和结论 我们提出“个性化医疗/精准医疗”(PersonalizedMedicine)这一投资主题,我们认为这个投资方向不仅仅是未来3-5年内医药产业界最重要的方向,也是一二级市场在医药领域最重要的投资方向。 个性化医疗现在是全美一二级市场最火的投资主题,然而这个火不是建立在纯概念的基础上,而是在“互联网技术进步+大数据基础具备+基因测序开始普及”这三个先提条件下,针对性的
大数据文摘
2018/05/23
7610
十万例罕见病队列项目即将启动,未来5年将做这些事!
罕见病队列项目又迎来新进展!日前,四川大学华西医院罕见病研究院“十万例罕见病患者全基因组测序计划”(GSRD-100KWCH)项目公布最新关键进展,华大基因子公司中标项目,将助力推进该项目的顺利进行。
生信交流平台
2022/09/21
6590
十万例罕见病队列项目即将启动,未来5年将做这些事!
BDTC 2017丨聚焦大数据在医疗行业的最新实践
本文介绍了利用人工智能技术进行精准诊断辅助决策的方法和系统,主要包括三个技术:智能化无人值守体征采集一体机、基于大数据的分导诊人工智能机器人和临床医疗诊断辅助决策平台。这些技术可以大大提高医疗诊断的准确性和效率,减少医疗差错,提高病人的就诊体验。
挖掘大数据
2017/12/21
1.4K0
美国对中国关闭核心生物医学数据库:一场“数据断供”背后的危机与破局
最近,美国国家卫生研究院(NIH)发布行政令,以“防止敏感生物数据被用于军事目的”为由,禁止中国科研机构访问其核心生物医学数据库,具体新闻如上图所示。据说此次封锁的数据库包括:
通信行业搬砖工
2025/04/10
4040
美国对中国关闭核心生物医学数据库:一场“数据断供”背后的危机与破局
破译诊断密码:长读长测序,点亮临床精准诊断新未来
天意生信云平台始终致力于为生命科学领域的科研人员与临床工作者提供高质量的学习资源与交流平台。我们深知,在技术日新月异的今天,仅仅掌握理论知识是远远不够的,系统性的学习、规范性的操作以及实战性的技能训练同样至关重要。特别是在三代测序这一前沿技术领域,深入理解其原理并掌握实际应用能力,已成为推动研究突破和临床诊断革新的关键。
用户11203141
2025/04/04
750
破译诊断密码:长读长测序,点亮临床精准诊断新未来
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
DrugAI
2025/03/10
2450
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
Nature综述|整合组学分析护航健康,推动精准医学时代的到来!
Konrad J. Karczewski, and Michael P. Snyder撰写的关于整合多组学在疾病研究中的应用一文《Integrative omics for health and disease》,于2018年2月26日发表在nature reviews genetics (Nature系列综述, 2018 IF: 41.465)。
生信宝典
2019/10/06
5.9K0
碱基周报(第 004 期):全球十大主要基因组学项目盘点
这是目前用得最广也是影响最大的一个国际联合基因组项目。2008年发起由英国Sanger研究所、美国 NHGRI 等多家科研机构共同发起的国际多人群基因组学项目,项目收集了全球26个不同群体2504个人的基因组数据,在2015年已经完成了第三期,自那之后几乎所有的人类基因组学研究成果都或多或少会使用里面的结果,贡献巨大。
黄树嘉
2021/04/12
7910
基因组学的四个十年:发生了什么,将发生什么?
在人类基因组序列草案出版 20 周年之际,Science 用特刊纪念了这一伟大的科学工程。基因测序工具不断进步,测序成本以 “超摩尔速度” 直线下降,基因治疗也迎来巨大发展。
生信交流平台
2022/09/21
4690
基因组学的四个十年:发生了什么,将发生什么?
Nat. Med. | AI赋能药物研发:从靶标发现到临床试验的全流程革新
今天为大家介绍的是来自温州医科大学眼健康与疾病高等研究院院长张康教授联手四川大学华西医院生物治疗国家重点实验室的杨胜勇教授团队联合发表的一篇论文。药物开发是一个复杂且耗时的过程,传统上主要依靠研发人员的经验和不断试错来完成。随着人工智能(AI)技术的发展,特别是新兴的大语言模型和生成式AI的出现,这一领域正在发生革命性的变化。将AI技术引入药物开发流程后,已经显著提升了整个过程的效率和成功率。本文将全面介绍AI在整个药物研发过程中的最新应用进展,包括疾病靶点的识别、新药发现、临床前研究、临床试验以及药物上市后的安全监测等环节。同时,作者也会分析目前面临的主要挑战,为未来AI辅助药物开发指明重要的研究方向。
DrugAI
2025/02/27
2240
Nat. Med. | AI赋能药物研发:从靶标发现到临床试验的全流程革新
万字综述|一文掌握大语言模型在生物信息学中的应用
随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。
实验盒
2025/02/05
4030
万字综述|一文掌握大语言模型在生物信息学中的应用
数字人:开启医疗领域的智慧变革新时代(5/10)
数字人,作为医疗领域变革的基石,正逐渐崭露头角。它是基于数字成像技术的虚拟人,源自真实人体的三维建模 ,具备类似人类的多种能力,如说话表达、面部表情、肢体动作等,这些能力使得数字人在医疗领域拥有无限的应用潜力。
正在走向自律
2025/04/15
1230
数字人:开启医疗领域的智慧变革新时代(5/10)
每逢佳节胖三斤吗,那可能需要看这个研究
是什么样的契机让这位基因组学及其蛋白质组学领域的泰斗开始致力于个体化医疗及其精准医疗领域的?
生信技能树
2019/05/08
5670
每逢佳节胖三斤吗,那可能需要看这个研究
国内开源医疗模型研究报告
随着人工智能技术的快速发展,医疗AI领域正经历前所未有的变革。开源医疗模型作为这一领域的核心技术基础设施,不仅推动了医疗智能化进程,也为医疗工作者提供了强大的辅助工具。本报告将深入探讨国内优秀的开源医疗模型,分析它们的技术特点、应用场景和未来发展趋势,为医疗AI领域的研究者和实践者提供参考。
@小森
2025/04/16
1240
推荐阅读
2018年医疗人工智能技术与应用白皮书(附下载)
9.8K66
Nature Medicine | 深度学习在健康医疗中的应用
1.8K0
从诊室到云端:医疗大模型的应用挑战与未来探索
1.2K0
Jeff Dean等发文《Nature Medicine》,综述深度学习在医疗领域的应用
1.3K0
行业新知 | DeepSeek在医疗领域的典型应用场景
1.7K0
李飞飞团队 AI4S 最新洞察:16 项创新技术汇总,覆盖生物/材料/医疗/问诊……
9420
个性化医疗投资笔记
7610
十万例罕见病队列项目即将启动,未来5年将做这些事!
6590
BDTC 2017丨聚焦大数据在医疗行业的最新实践
1.4K0
美国对中国关闭核心生物医学数据库:一场“数据断供”背后的危机与破局
4040
破译诊断密码:长读长测序,点亮临床精准诊断新未来
750
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
2450
Nature综述|整合组学分析护航健康,推动精准医学时代的到来!
5.9K0
碱基周报(第 004 期):全球十大主要基因组学项目盘点
7910
基因组学的四个十年:发生了什么,将发生什么?
4690
Nat. Med. | AI赋能药物研发:从靶标发现到临床试验的全流程革新
2240
万字综述|一文掌握大语言模型在生物信息学中的应用
4030
数字人:开启医疗领域的智慧变革新时代(5/10)
1230
每逢佳节胖三斤吗,那可能需要看这个研究
5670
国内开源医疗模型研究报告
1240
相关推荐
2018年医疗人工智能技术与应用白皮书(附下载)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档