作者:十九
编辑:十九,李宝珠
浙江大学张宁豫、陈华钧团队提出首个海洋领域大语言模型 OceanGPT,该模型可根据海洋学家的指令回答问题,在各种海洋科学任务中表现出较高的专业知识,还在海洋工程方面获得了初步具身智能能力。
大语言模型 (LLM) 在内的 AI 工具正逐渐改变科学范式,被 Nature 列为 2024 年值得关注的科学事件之一。作为文本数据挖掘领域的核心工具,大语言模型可以从海量文本数据中提取关键的科学信息、模式和趋势,从而加深对不同学科的理解,并为科学研究进程、决策制定和复杂问题解决提供强有力的支持与洞见。
比如,生物医药领域,微软曾在 PubMed 数据库数百万篇相关科学论文上训练了语言模型 BioGPT,该模型擅长理解专业术语、基因名、蛋白质序列等复杂概念,相比非专业模型,BioGPT 可快速准确地生成生物医学问题答案,完成文本挖掘、实验报告撰写、分子设计、文献综述撰写等任务。
同样地,在海洋科学领域,利用大语言模型分析海量海洋科学文本数据,理解海洋特征、变化规律、资源开发利用等相关的理论、方法,对全球气候调节、天气模式塑造、生物多样性维护、人类未来经济发展至关重要。
然而,多维度、多尺度的海洋数据,规模庞杂且类型丰富,传统的数据处理方法难以应对。同时,海洋科学涵盖多领域和学科,每个领域和学科都有其独特的数据属性和模式,这就要求 LLM 具备更丰富的专业知识储备,但当前的主流 LLM 仍不能完全满足海洋学家的特定需求。
对此,浙江大学计算机科学与技术学院张宁豫、陈华钧团队提出了首个海洋领域大语言模型 OceanGPT,该模型擅长处理各种海洋科学任务,可以根据海洋学家的指令回答问题。通过海洋学基准 OCEANBENCH 的评估,OceanGPT 不仅在海洋科学任务中表现出较高的专业知识 (knowledge expertise),而且在海洋工程方面获得了初步具身智能 (embodied intelligence) 能力。 OceanGPT 项目地址:
http://oceangpt.zjukg.cn/
此外,为了缓解获取海洋数据的困难,研究人员还提出了一个基于多 Agent 协作 (multi-agent collaboration) 的海洋科学指令生成框架 DoInstruct,其中,每个 Agent 被视为某一特定领域(如科学与研究、资源与开发、生态与环境等)的专家,并负责生成相应领域的数据。
该研究以「OceanGPT: A Large Language Model for Ocean Science Tasks」为题,近期被自然语言处理顶级会议 ACL 2024(CCF-A 类会议)录用为主会论文。
研究亮点: * 与现有的开源大型语言模型相比,海洋领域大语言模型 OceanGPT 能够处理更专业的海洋任务
* 海洋科学指令生成框架 DoInstruct 具有很大的灵活性,可被优化并应用于不同科学领域(例如天文学)
论文地址:
https://arxiv.org/abs/2310.02031
关注公众号,后台回复「海洋大语言模型」获取完整 PDF
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
研究人员收集近几年 67,633 篇海洋科学领域文献作为原始语料库,还选择一些历史上的重大意义文献帮助 LLM 理解海洋领域发展史,为确保多样性,文章来自不同渠道,涵盖各种研究视角和方法。
为确保数据的质量和一致性,研究人员利用正则表达式 (regular expressions) 过滤掉图形、表格、页眉、页脚、页码、URLs 和引用,移除多余的空格、换行符和其他非文本字符,还替换或删除特殊字符、表情符号和乱码字符。处理后的文档涵盖海洋科学的各个领域,如海洋物理、海洋化学、海洋生物学、地质学、水文学等。
随后,研究人员采用哈希算法对数据进行去重,这有助于减少模型预训练过程中的过拟合风险,并提高其泛化能力。
由于海洋科学语料库包含多个领域和主题,每个主题都有其独特的数据特性和模式,为了有效模拟和获取这些数据,研究人员提出了一个领域指令生成框架 DoInstruct。 *海洋主题:根据海洋学专家的专业知识,将海洋科学数据手动分为 5 个相对独立的海洋主题,分别是科学与研究、资源与开发、生态与环境、技术与工程、生活、文化及其他。
领域指令生成框架 DoInstruct 基于多 Agent 协作,可有效实现海洋数据生成。
DoInstruct 框架
据上图所示,在 DoInstruct 框架下,研究人员设计了 3 种 Agent 角色:演化式的数据合成 Agent (Evolving Agent as Generator)、经过微调的文献阅读 Agent (Fine-tuned Agent as Literature Extractor) 和审核 Agent (Agent as Inspector)。每个 Agent 都被视为某个特定领域(主题)的专家,并负责生成相应的数据。
为构建种子数据集 (Seed Data),研究人员雇佣数十位具有丰富海洋科学背景的标注者,每位标注者负责几个主题,并为每个海洋主题手动编写一些具有代表性的示例。
然后,研究人员使用大型语言模型模仿现有数据并生成大量类似样本,所有样本都由标注者手动检查。最终的种子指令数据集包括 5 个主要类别、500 多个子类别和 1 万多个数据样本。
左图:演化式的数据合成 Agent
得到种子指令数据集后,研究人员从中选择样本,并调用 Agent (gpt-3.5-turbo) 来演化所选样本。
如左图所示,具体而言,补充拓展种子样本的背景知识,对种子数据包含的知识点进行细化分析增强和改进,通过多轮迭代,研究人员可快速扩展现有种子数据集,并扩展信息的广度和深度。
经过微调的文献阅读 Agent
研究人员收集了一个专家标注语料库 (Expert-annotated corpus),并用 BM25 算法从更大的海洋语料库 (Oean Corpus) 中检索高质量句子,将二者视为高质量的候选样本 (High-quality Candidates)。同时,研究人员使用种子指令数据集对 gpt-3.5-turbo 进行微调,将微调后的 Agent 视为文献提取器,该 Agent 可以从海量海洋语料库中提取高质量文本。
确保数据质量的审核 Agent
对于生成的大量指令,研究人员使用语法、语义、海洋领域基本定义等作为规则约束,通过提示的方式构建 Agent,并对数据进行过滤,确保生成的海洋指令数据具有更高质量。
为进一步确保数据质量,研究人员从生成的指令数据集中随机抽取 10% 样本,让培训后的领域专家志愿者验证这些样本是否存在潜在错误,最终数据的 IAA(标注者间一致性)得分为 0.82,满足研究目的。
如下图所示,DoInstruct 框架能够利用多 Agent 快速构建海洋科学数据集,可扩展超过 150,000 条指令 (Data-Evolving, Data-Extracting),此外,数据的专业性和准确性也得到了保障。
最终指令数据集的统计数据
如下图所示,研究人员通过知识质量 (Quality)、专业性 (Expertise) 和多样性 (Diversity) 角度来衡量 DoInstruct 的数据生成效果。
不同 Agent 的性能分析
可以看出,evolving generator Agent 能够有效增强海洋数据的丰富性。extraction Agent 可以提升内容的专业性,inspector Agent 可以提高生成的数据质量。综上,多代理协作对于海洋指令生成是有效的。
在得到指令数据后,研究人员基于 LLaMA-2,用 6 块 Nvidia A800 GPU 对 OceanGPT 进行了为期 7 天的预训练 (Pre-training)。
OceanGPT 模型的总体框架
得到预训练模型 OceanGPT 后,研究人员采用 LoRA 方法对模型进行微调。为了评估大型语言模型 OceanGPT 在海洋学任务中的能力,研究人员选择 LLaMA-2 (Llama-2-7b-chat-hf)、Vicuna-1.5、ChatGLM2-6B 这 3 个模型与 OceanGPT 进行比较。
在进行对比之前,研究人员设计了一个基准测试 OCEANBENCH,据下图所示,该基准测试包括 15 个与海洋相关的任务,如 Analysis、Judgment 等。
OCEANBENCH 详细统计数据
据下图所示,研究员在海洋领域的 15 个子任务上,从任务级别 (task-level) 比较 OceanGPT 与 3 个基线模型的性能,结果发现 OceanGPT 在自动评估、人类评估中的表现均优于其他模型。
海洋 task-level 结果 左:GPT-4 自动评估,右:人类评估
下图所示,研究人员展示了 OceanGPT 模型在 OCEANBENCH 海洋科学任务中的评估结果,结果发现,OceanGPT 在绝大多数任务中优于其他基线语言模型。
OceanGPT在OCEANBENCH海洋科学任务中的评估结果
为了证明 OceanGPT 在海洋领域的应用潜力,研究人员从海洋科学、海洋工程两个角度对 OceanGPT 进行测试。
对于海洋科学,研究人员关注海洋环境的核污染问题,并比较 OceanGPT 和 Vicuna-7b-1.5 在该任务中的表现。
海洋科学任务案例分析
如何开展关键放射性核素的表界面化学与毒理效应研究
据上图所示,OceanGPT 在描述放射性核素研究内容时表现出更高的知识水平。其文本内容不仅结构清晰、组织有序,而且涵盖了放射性核素研究的各个方面,比如实验设计、数据分析、风险评估、处理指南等。
相比之下,虽然 Vicuna-7b-1.5 的表达清晰且逻辑性强,但它缺乏与放射性核素相关更深度、具体的内容。
综上,OceanGPT 在知识专业性、质量和丰富性方面具有优势。
海洋工程对海上作业的可持续性和安全性方面至关重要。为促进 OceanGPT 与外部世界的交互,研究人员合成了机器人代码数据,并将这些机器代码指令集成到训练数据中,通过代码或控制台命令评估模型能力。
OceanGPT 控制水下机器人
据上图所示,OceanGPT 可以通过代码或控制台命令向水下机器人发出指令,以便水下机器人执行复杂任务(基于人类指令),这说明 OceanGPT 获得了初步的具身智能能力,为高级海洋模型执行复杂的机器人控制和规划任务铺平道路。
由浙江大学张宁豫、陈华钧教授领衔,汇聚了毕祯、薛逸达、欧翌昕、冀大雄、郑国轴等人的研究团队,成功构建了海洋领域第一个大语言模型 OceanGPT,这标志着海洋领域智能化进程迈出了关键性的一步,OceanGPT 成为海洋领域的一个重要里程碑。
然而,OceanGPT 的发展并没有止步于此,随着研究的深入与技术的精进,OceanGPT 迎来了新一轮的优化与升级。
据浙江大学知识引擎实验室 ZJUKG 近日报道,论文的第一作者毕祯宣布了 OceanGPT 的一系列重大进展:
* 首先,正式推出 OceanGPT-14B、OceanGPT-2B 两个新版本;
* 其次,新增基于 Qwen2 中文基座的 OceanGPT ,实现中英文双语能力高效交互;
* 同时,团队还开源了 20K 规模的海洋大模型指令数据集 OceanInstruct,为海洋科学研究人员提供了宝贵的资源支持;
OceanInstruct 数据集下载地址:
https://go.hyper.ai/3QuLq
* 最后,OceanGPT-V 多模态版本登场,不仅支持对声呐数据、科学图片等多模态海洋信息的处理,还提供 OceanGPT-V 在线演示,为海洋科学探索开启全新的视角与可能,据悉,该模型即将开源。
为了分析模型更新后的能力变化,以 OceanGPT-14B 为例,研究人员给定中文问题「请生成一份东海海域海底管缆的建设方案」,如下图所示:
结果发现 OceanGPT 生成的内容丰富度更高、覆盖更多层次,海洋科学知识理解与生成能力更强。
同时,为验证 OceanGPT 英文生成能力,研究人员给定英文输入「请描述东海海域的海底地形地貌特征」,如下图所示:
结果发现,OceanGPT 生成的描述在细节、全面性、专业性和区域划分上相对较好,能够提供更准确和深入的海底地形地貌信息。
此外,毕祯也给出了 OceanGPT 的发展规划,如下图所示:
OceanGPT 的规划
预计 2024 年 8-12 月期间,将推出 OceanGPT-V+ 双语多模态版本。基于大规模语料库,他们会继续使用更大规模的模型(例如 30B、70B)训练 OceanGPT,并通过添加新数据和新任务来维护 OceanGPT,探索海洋科学的更多未知世界。
期待 OceanGPT 带来更多惊喜与突破,开启海洋科学研究新篇章!
参考资料: https://blog.csdn.net/gitblog_00055/article/details/138176998 https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ