大数据 (big data) 是指由于容量太大和过于复杂,无法在一定时间内用常规软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集。 大数据具有“4V”特征:①数据容量 (Volume) 大,常常在 PB(1 PB=250 B)级以上;②数据种类 (Variety) 多,常常具有不同的数据类型(结构化、半结构化和非结构化)和数据来源;③产生和更新速度 (Velocity) 快(如实时数据流),时效性要求高;④科学价值 (Value) 大,尽管利用密度低,却常常蕴藏着新知识或具有重要预测价值。
本次介绍一篇由清华大学计算机系孙茂松团队发表于nature communications,名为《A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals》的论文。该论文通讯作者为计算机系党委副书记刘知远副教授与孙茂松教授,第一作者为计算机系博士生曾哲妮与姚远。该研究由国家重点研发计划与清华大学国强研究院提供支持。
机器学习领域在过去几十年中经历了巨大的变化,不可否认的是,虽然有些方法已经存在了很长时间,但仍然是该领域的主要内容。例如,最小二乘法( least squares)的概念在19世纪早期由勒让德和高斯提出,最基本的形式的神经网络( neural networks)早在1958年就引入的,并在过去的几十年中大幅提升、支持向量机(SVM)等方法则更是较新的方法,这些方法仍然占据了机器学习领域应用中的半壁江山。 随着科研的进行,有大量可用的监督学习方法被发明。使用者通常会提出以下问题:什么是最好的模型?众所周知,这个问题没有标准答案,因为模型的有用性取决于手头的数据以及具体处理的问题,合适的就是最好的。那么,可以转换下思路,换成这个问题:最受欢迎的模型是什么?这将是本文的关注点。
单模态文本在生物医学领域的研究已经取得了显著的成果,而多模态对话人工智能则通过利用来自公共网络的数十亿个图像-文本对取得了快速进展。然而,这些通用领域的视觉-语言模型在理解和对话生物医学图像方面仍然缺乏复杂性。 因此,本文提出了一种成本效益高的方法,用于训练一种能够回答生物医学图像开放性研究问题的视觉-语言对话助手。
今天给大家介绍2020年5月康奈尔大学Fei Wang教授团队发表在Briefings in Bioinformatics的综述“Recent advances in biomedical literature mining”。该综述总结了生物医学文献挖掘研究中存在的问题、方法和最新进展,并讨论了未来的研究方向。
内容概要:微软团队发布生物医学领域 NLP 基准,命名为 BLURB,已在 arxiv.org 中发布相关论文,并将其开源。
都说医工大火,都说多领域交叉,都说牛逼,但是细究起来这么个厉害法,国内又没有合适的系统论断。今天这篇文章出自IEEE,是难得的好文。 想要谋得生物工程职位,方法并不唯一,鉴于此重要技术领域的跨学科性,可通过多种方式投身这一前途远大的事业,在其中一展身手。生物医学工程师的工作是运用自身所掌握的生物学、医学、物理学、数学、工程学和通信领域的专业知识,努力提升民众的健康水平。生命系统的多样性和复杂性带来了诸多挑战,为克服这些挑战,需要拥有创造力、想象力和丰富知识的人士,与医师、科学家、工程师甚至是商界精英携手合作,以便监测、恢复和增强正常的身体机能。 生物医学工程师的工作领域涵盖科学、医学和数学,是解决生物和医学难题的理想人选。生物医学工程事业需要以下人员:拥有生物医学工程正式学位的人士;以及拥有其他工程学科学位,并通过科目学习(如生物学辅修科目)或凭借经验,已掌握一项或多项生物调查和应用技术的人士。极少数情况下,已经掌握工程技能的生物学家或生物医学科学家也被视为该领域成员。 有一种定义认为,只要一方面涉及生物或医学,另一方面涉及工程学科,无论比例多少,均属于生物医学工程范畴。生物医学工程涉及的领域极为广泛,即便只掌握其中少数几个学科,也需要一个有天赋的人花费几辈子的时间来钻研。因此,这一领域要求从业人员具备宽泛的知识面,但同时又要专注于自己真正感兴趣的内容。本手册旨在论述当今生物医学工程师所关心的一些问题及主题。
近日,「德睿智药」与广州生物岛科学家团队的合作论文“An Extensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT”,发表在国际顶级生物信息学期刊Bioinformatics上。AI大语言模型应用于生物医药领域需要深入的领域理解能力,同时科学的模型表现评估也是研发出应用于生物医药领域大语言模型的基础。为此,本论文研究团队开发出一项全面的基准测试流程,以评估各种AI大语言模型在生物医学数据挖掘上的性能。
今天给大家介绍Bioinformatics期刊的一篇文章,“Graph embedding on biomedical networks: methods, applications and evaluations”。文章研究了图嵌入方法在生物医学网络分析上的应用,来自美国俄亥俄州立大学、美国哥伦布国家儿童医院、华中农业大学的研究者完成了该项工作。文章选取了11种具有代表性的图嵌入方法,对3个重要的生物医学链接预测任务:(1)药物-疾病关联(drug-disease association, DDA)预测,(2)药物-药物相互作用(drug- drug interaction, DDI)预测,(3)蛋白质-蛋白质相互作用(protein - protein interaction, PPI)预测; 以及2个节点分类任务:(1)医学术语语义类型分类,(2)蛋白质功能预测进行了系统的比较。通过实验结果证明了目前的图嵌入方法取得了良好的效果,在生物医学网络分析方面具有很大的潜力。
2021年8月25日,Nature Methods发表了德国慕尼黑大学David B. Blumenthal等人的一篇文章,该文章讨论了生物医学研究中AI模型的报告格式。
探索疾病之间的潜在关系一直是一个活跃的研究领域。2022年《Briefings in Bioinformatics》发表了一篇综述文章,为当前的疾病关联研究提供了一个系统的概述:总结了用于评估疾病相关性的可用生物医学数据和数据库、计算方法、软件工具/平台等,以促进疾病关联计算方法和工具/平台的开发和应用。
生而为人,我们不需要一切从零开始学习。但是,我们会「以旧学新」,用过去所学的旧知识,来理解新知识和处理各种新任务。
信息学正在跨学科发展,影响着化学、生物和生物医学的多个领域。除了成熟的生物信息学学科,其他以信息学为基础的跨学科领域也在不断发展,如化学信息学和生物医学信息学。其他相关的研究领域,如药物信息学、食品信息学、表观信息学、材料信息学和神经信息学等最近才出现,并作为独立的子学科继续发展。这些学科的目标和影响通常在文献中被单独回顾。因此,确定共同点和关键差异仍然具有挑战性。研究人员结合自然科学和生命科学中的三个主要信息学学科,包括生物信息学、化学信息学和生物医学信息学进行讨论,并对相关的子学科进行简要评论。重点讨论了生物信息学、化学信息学和生物医学信息学的定义、历史背景、实际影响、主要异同,并对生物信息学、化学信息学和生物医学信息学的传播和教学进行了评价。
今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面,介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法,在6个常用的数据集上进行了实验比较。结果发现,深度学习的方法要普遍优于传统方法,并且不同的方法和数据集之间也有较大的差异。最后,作者总结了生物医学命名实体(BioNER)存在的一些挑战和未来的发展。
来源:专知本文为论文介绍,建议阅读5分钟在本文中,我将探索新的生物医学数据预训练和表示学习策略,这些策略利用外部结构或知识来为局部和全局尺度的学习提供信息。 用于健康和生物医学领域的机器学习的数据集通常是有噪声的,采样不规律,只有稀疏的标记,相对于数据和任务的维度都很小。这些问题推动了表示学习在这个领域的应用,它包含了各种技术,旨在产生适合下游建模任务的数据集表示。该领域的表示学习还可以利用生物医学领域的重要外部知识。在本文中,我将探索新的生物医学数据预训练和表示学习策略,这些策略利用外部结构或知识来为局
其实就是难者不会,会者不难 ,毕竟每个人要成为一个能做这些举手之劳分析的工程师,就需要至少一年的努力学习,为大家的学习和付出买单是理所当然的。
今天为大家介绍的是来自Zhiyong Lu团队的一篇论文。生物医学研究产生了大量信息,其中许多信息只能通过文献获取。因此,文献搜索对于医疗保健和生物医学至关重要。最近在人工智能(AI)方面的进步已经扩展了该功能,不再局限于关键词搜索,但这些进步可能对临床医生和研究人员来说不太熟悉。
A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals
生物医学领域涉及庞大而不断增长的文献数据库,其中蕴含着宝贵的医学知识。为了更好地利用这些信息,自然语言处理(NLP)技术逐渐成为生物医学文献挖掘的得力工具。本文将深入探讨NLP在生物医学文献挖掘中的应用,通过结合实例,展示NLP如何加速科研发现、支持临床决策和推动医学领域的创新。
1.LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
今天为大家介绍美国罗彻斯特理工大学Kishan KC, Rui Li等人于2021年2月发表在TCBB上的一篇文章:“Predicting Biomedical Interactions with Higher-Order Graph Convolutional Networks”。作者提出了一种端到端的深度图表示学习框架,名为高阶图卷积网络(HOGCN),用于预测生物医学实体之间的相互作用。该模型可以学习混合不同距离邻居的特征表示,以进行交互预测。作者与目前最先进的几个模型在多个数据集上进行了实验对比,结果表明作者的方法能够达到更好的预测效果。
大数据文摘授权转载自机器人大讲堂 人造微纳米机器人(又称微纳米马达)是一种介于微纳米尺度的智能动力装置,能将外部环境能量转化为自身运动动能,在靶向药物输送、精准医疗、生物传感和环境修复等领域有广阔的应用前景。 其最大优势在于可将众多外场能量(磁场、超声波、光等)转换为自身驱动力,并且凭借其可控性和可修饰性等优势,在微观世界自由穿梭。 图.人造微纳米机器人(微纳米马达) ▍拥有多个帮手的微纳米马达 目前微纳米马达的帮手有很多,拥有十分丰富的外场激励源,如超声场、电场、磁场、光等。而且设计微纳米马达的材料
来源:专知本文为论文,建议阅读5分钟我们发现深度融合策略往往优于单模态和浅层方法。 生物医学数据正变得越来越多,从而捕捉生物过程之间的潜在复杂关系。基于深度学习(DL)的数据融合策略是建模这些非线性关系的一种流行方法。因此,我们回顾了目前这种方法的最新进展,并提出了一个详细的分类,以促进更明智的选择融合策略的生物医学应用,以及新方法的研究。通过这样做,我们发现深度融合策略往往优于单模态和浅层方法。此外,提出的融合策略子类显示出不同的优点和缺点。对现有方法的回顾表明,联合表示学习是首选的方法,特别是对于中间
今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta,这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,“小”模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域语料库从头开始预训练BERT,这是微软研究院2022年发布在ACM的论文。
在地球漫长的进化中,我们人为地造成了很多悲剧: 渡渡鸟、长毛象 大海燕 袋狼 …… 这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。 我们不想孤独的生活在地球上,我们希望可以和这些生物和平共存。 现在,基因学给了我们新的希望,我们可以通过克隆复原这些动物了。只要从他们的化石标本上提取足够的DNA,找到基因数据进行分析,排列出完整的DNA样本,就有机会让这些灭绝的动物重新复活。因此建立生物基因医学体系十分重要。 深度学习加速生物大数据处理速度 随着生命科学的迅
说到本体论,生信的同学估计第一个想到的就是基因本体论 ( Gene Ontology, GO ) 了,而基因本体论其实也是开放生物医学系统注释(Open Biomedical Ontologies (OBO))下的一个分类项目。今天来说另外一个生物科学数据分析和数据管理本体论——EDAM - Bioscientific data analysis ontology。
“我们很高兴发布一种在PubMed上训练的新生物医学模型,这是构建可支持生物医学研究的基础模型的第一步。”——CRFM主任Percy Liang
这篇文章探讨了机器学习在改进诊断和治疗方面的应用。概述了机器学习如何改变生物医学的三个广泛领域:临床诊断、精确治疗和健康监测,目标是通过一系列疾病和正常的衰老过程保持健康。对于每个领域,都会讨论成功的机器学习应用的早期实例,以及机器学习的机会和挑战。当这些挑战得到满足时,机器学习将带来一个严谨的、基于结果的医学的未来,检测、诊断和治疗策略将不断适应个体和环境的差异。
今天我们介绍由海德堡大学医学院的Sebastian Lobentanzer等学者发表在Nature Biotechnology上的工作。在所有研究人员之中,标准化的生物医学知识表征是一项难以克服的任务,它阻碍了许多计算方法的有效性。为了促进知识表征的协调和互操作性,该工作将知识图谱创建的框架标准化。本文提出的BioCypher实现了这一标准化,这是一个FAIR(可查找、可访问、可互操作、可重用)框架,可以透明地构建生物医学知识图谱,同时保留源数据的来源。将知识映射到生物医学本体有助于平衡协调、人类和机器可读性以及对非专业研究人员的易用性和可访问性的需求。本文展示了该框架在各种用例中的有用性,从维护特定于任务的知识存储,到生物医学领域之间的互操作性,再到为联邦学习按需构建特定于任务的知识图。
2022年3月8日,基于云的生物医学数据分析公司DNAnexus宣布完成一轮2亿美元的融资,以加快其技术的全球应用,将复杂的多组学和临床数据转化为切实的见解和个性化治疗。
与此前相比,新的微型机器人能够沿三个空间轴实现平移运动和旋转运动,同时,该机器人在关键的第六个自由度中的旋转速度要快43倍。
今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章。在文中,作者提出了一种从大规模文献库中自动提取生物医学关系的机器学习框架—BERE。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并在考虑所有相关语句后使用特征聚合网络进行预测。更重要的是,BERE也可以通过远程监督技术在没有任何人工标注的情况下进行训练。
由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M,懂临床语言、懂影像,也懂基因组学。
选自arXiv 作者:Zongwei Zhou, Jae Y. Shin, Suryakanth R. Gurudu, Michael B. Gotway, 梁建明 机器之心编译 参与:Panda 和普通图像的标注不一样,生物医学图像的标注需要有专业知识和技能的人来做,因此难以获得大型的有标注数据集供卷积神经网络学习。近日,IEEE 一篇论文提出可以将主动学习和迁移学习结合起来降低标注任务的工作量,实验结果也证明了这种方法的有效性。机器之心对该论文进行了编译介绍,详细的数学过程和结果分析请参阅原论文。 在
百科是这样定义的:精准医学(Precision Medicine)是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。
2022年9月27日,生物科技公司Elucidata宣布完成1600万美元的A轮融资。Elucidata以其机器学习操作(ML-Ops)平台Polly为生命科学研发提供动力。
BioGPT: generative pre-trained transformer for biomedical text generation and mining
来源:专知本文为书籍介绍,建议阅读5分钟在本文中,我们将深入讨论tsfresh包的使用。本书涵盖了广泛的生命科学应用的基本方法。 生物、医学和生物化学已经成为以数据为中心的领域,深度学习方法正在为这些领域带来突破性的成果。这本《深度学习生物医学》,从机器学习从业者和数据科学家寻求方法知识,以解决生物医学应用。 随着国际知名专家的贡献,本书涵盖了广泛的生命科学应用的基本方法,包括电子健康记录处理,诊断成像,文本处理,以及组学数据处理。本书包括化学信息学和生物医学交互网络分析。在生命科学中使用数据驱动的方法,
今天为大家介绍的是美国研究组合作发表在Bioinformatics上的一篇文章“SumGNN: multi-typed drug interaction prediction via efficientknowledge graph summarization”。在这项工作中,作者整合了DDI信息以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。
最近正好在整理自己课题的知识点。不同的期刊、影响因子对应的文章,其实验设计也是差的挺远的。
Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque
Integrating and formatting biomedical data as pre-calculated
2023年5月,国家基因库生命大数据平台支撑科研成果在《MedComm》发表。该研究成果题为“Ketogenic diet protects MPTP-induced mouse model of Parkinson's disease via altering gut microbiota and metabolites”,通过MPTP诱导的帕金森病小鼠模型用 KD 饲喂 8 周,对小鼠的运动功能和多巴胺能神经元进行评估,还测量了大脑、血浆和结肠组织中的炎症情况,另外还对粪便样本16S rDNA 基因测序和非靶向代谢组学进行评估,研究表明KD通过饮食-肠道微生物群-脑轴(可能涉及脑和结肠的炎症)在MPTP帕金森病小鼠模型中发挥了神经保护作用。此项研究的相关测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0003610和CNP0003614。
ConcertAI的SaaS和数据解决方案已迅速成为加速临床试验和病人结局的行业标准。
今天给大家介绍的是耶鲁大学医学信息学中心主任Brandt教授实验室和爱丁堡大学的博士生联合发表在ACL-BioNLP 2020发表的文章“Benchmark and Best Practices for Biomedical Knowledge Graph Embeddings”。作者将五个KGE模型应用到SNOMED-CT知识图谱中,提供了与现有方法的比较基准并深入讨论目前的最佳实践应用,并说明了利用知识图谱的多关系特性来学习生物医学知识表示的重要性。
2022年10月17日,ZYCGR22011901发布《公有云服务采购项目》单一来源采购公示,预算 76 万元。 拟采购的货物或者服务的说明: 单一来源原因 本次公有云资源服务采购,是为了满足实验室张康课题组生信科研任务需要,课题组相关的科研分析应用系统已经在火山引擎公有云稳定运行一年。 在此期间,火山引擎公有云产品功能丰富满足科研需求,产品性能可靠稳定未出现任何故障,并提供了一对一的专属服务,强有力支撑了课题组大量科研成果的产出。火山引擎在生物医学数据分析及人工智能模型构建方面,具备以下突出能力,可帮助
2022年2月16日,美国北卡罗来纳大学Eshelman药学院的Alexander Tropshab等人在Drug Discov Today杂志发表文章,提出了临床结果路径 (COP) 的概念,将其定义为有关药物分子治疗效果的一系列关键的分子和细胞事件。COP可以通过挖掘生物医学知识图谱进行计算阐释,这为产生新的、有指导意义的药物发现和再利用的假设铺平道路。
Highly accurate classification of chest radiographic reports using a deep learning natural language model pre-trained on 3.8 million text reports 论文摘要:
领取专属 10元无门槛券
手把手带您无忧上云