书生·浦语灵笔：一个能生成图文并茂文章的AI大模型！（开源、可商用）

文章来源：企鹅号 - AI变革指南

很高兴为您介绍一款创新的图文混合创作大模型—书生·浦语灵笔（InternLM-XComposer）。

这是上海人工智能实验室（上海AI实验室）推出的首个图文混合创作大模型。基于书生·浦语大语言模型的多模态扩展，具有多项优势和特色。下面，我将从以下几个方面为您详细介绍：

什么是书生·浦语灵笔？

书生·浦语灵笔的技术原理和优势是什么？

书生·浦语灵笔如何使用？

什么是书生·浦语灵笔？

书生·浦语灵笔（InternLM-XComposer，以下简称“浦语灵笔”）是基于书生·浦语大语言模型研发的视觉-语言大模型，提供出色的图文理解和创作能力，具有多项优势：

图文交错创作: 浦语灵笔可以为用户打造图文并茂的专属文章。生成的文章文采斐然，图文相得益彰，提供沉浸式的阅读体验。

生成的图文里的图片，可以替换：

具备图片理解能力：输入图片，能够分析图片内容

目前已支持多种任务。

书生·浦语灵笔的技术原理：

多模态预训练和多任务训练: 浦语灵笔采用了多阶段的训练策略，首先在大规模的图文数据集上进行多模态预训练，学习图文之间的关联和对齐，然后在多个具体的任务数据集上进行多任务训练，提升模型在各个任务上的性能。预训练和多任务训练的过程中，浦语灵笔使用了多种自定义的损失函数和评价指标，以适应不同的任务需求。

多模态知识注入: 浦语灵笔为了增强模型的图文理解能力，设计了一种多模态知识注入的方法，将海量的多模态概念和知识数据融合到预训练和多任务训练中，使模型能够学习到更丰富和准确的图文知识。

书生·浦语灵笔的技术优势：

图文交错创作能力: 浦语灵笔可以根据用户指令或图片，自动创作出图文并茂的文章，这是目前业界首次实现的功能。浦语灵笔不仅可以生成高质量的文本内容，还可以智能地规划插图位置和内容，从图库中筛选出最佳匹配的图片，使文章更加生动有趣。

图文理解能力: 浦语灵笔在多项视觉语言大模型的主流评测上均取得了最佳性能，包括 MME Benchmark (英文评测)、 MMBench (英文评测)、 Seed-Bench (英文评测)、 CCBench (中文评测)、 MMBench-CN (中文评测)。这些评测涵盖了多个子任务和能力纬度，如图像分类、目标检测、视觉问答、视觉推理、视觉对话等。浦语灵笔在这些评测中表现出卓越的图文理解能力。

图片生成能力: 浦语灵笔可以根据用户提供的文字描述或主题，生成相应的图片。这一功能利用了书生·浦语大语言模型强大的生成能力，并结合了视觉信息。浦语灵笔生成的图片不仅与文字描述或主题相符，还具有一定的创意性和美感。

书生·浦语灵笔如何开源和使用？

目前，书生·浦语灵笔已经开源了其中的智能创作和对话（InternLM-XComposer-7B）及多任务预训练（InternLM-XComposer-VL-7B）版本，并提供免费商用。

代码地址：

https://github.com/InternLM/InternLM-XComposer/blob/main/README_CN.md

论文地址：

https://arxiv.org/pdf/2309.15112.pdf

发表于: 2023-10-112023-10-11 07:56:00
原文链接：https://page.om.qq.com/page/OxWw-g-_jOS-KPC1916m1-4A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

书生·浦语灵笔：一个能生成图文并茂文章的AI大模型！（开源、可商用）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐