Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >KuaiMod来了!快手用大模型重构短视频生态格局

KuaiMod来了!快手用大模型重构短视频生态格局

作者头像
机器之心
发布于 2025-05-10 01:36:10
发布于 2025-05-10 01:36:10
1580
举报
文章被收录于专栏:机器之心机器之心

机器之心发布

机器之心编辑部

在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。随着内容量的井喷式增长,平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。

大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中,如何将这些技术真正落地,仍是一道难解的行业命题。

作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。

基于多模态大模型的短视频生态优化方案

低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程(Prompt Engineering)完成内容的识别与过滤,难以保证识别过滤的准确率。当前工业界尚缺乏面向短视频平台的内容质量评测标准和成熟的自动化识别解决方案。

快手独立完成了首个面向短视频平台的内容质量判别基准测试构建工作,依托自身生态,打造了覆盖 1000 条真实平台短视频、涵盖 4 类主要劣质内容与 15 类细粒度劣质内容类型的数据集,并进一步提出了工业级自动化短视频质量判别框架 KuaiMod。区别于依赖成文规定的大陆法(Civil Law)体系判别策略,KuaiMod 借鉴判例法(Common Law)在灵活性方面的优势,基于视觉语言模型(VLMs)的链式推理(Chain-of-Thought)深入剖析导致视频引发用户反感的原因,利用判例定义判别策略,从而攻克短视频平台中劣质内容动态变化的难题。KuaiMod 方案广泛使用基于用户反馈的强化学习策略帮助通用 VLM 完成面向视频质量判别任务的离线适配和在线更新,模型通过更新判例实时掌握平台趋势,保证对新生的劣质内容的准确识别。

在离线测试中,KuaiMod-7B 模型在四种主要劣质类别上整体准确率高达 92.4%,相对于其他判别方案提升超过 10%

目前 KuaiMod 判别方案已经在快手平台全面部署,为百万级日新视频提供质量判别服务,保障数亿用户的使用体验。A/B 测试表明 KuaiMod 使用户举报率降低超过 20%,展现出巨大的工业潜力。

为了促进短视频平台生态优化社区发展,当前 KuaiMod 的评测标准以及详细技术方案论文均已全面开源。

  • 论文:VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
  • 📖 arXiv Paper:https://arxiv.org/pdf/2504.14904v1
  • 📝 Homepage:https://kuaimod.github.io/
  • 🔮 KuaiMod Benchmark:https://github.com/KuaiMod/KuaiMod.github.io

主要贡献

1、首个短视频平台劣质内容判别基准测试:本工作面向快手生态构建了短视频劣质内容分类体系,形式化定义了短视频内容判别任务,并基于真实场景中的用户反馈构建了首个短视频劣质内容判别基准测试。KuaiMod 劣质内容分类体系包含 4种主要的劣质类别以及 15 种细粒度劣质类别。基准测试包含 1000 条短视频样本,涵盖 15 种细粒度劣质类别,完全由人工标注,并经过多轮数据清洗以保证正确性。

2、首个工业级自动化内容判别解决方案:当前 Facebook,Tiktok 等媒体平台都对基于深度学习模型的自动化内容质量判别方案展开探索,但尚未公布成熟的技术路线。KuaiMod 是首个在工业场景下验证了部署价值的自动化内容质量判别解决方案,在快手平台多个场景下的部署结果表明,KuaiMod 方案具有能够与人工判别相媲美的准确率。我们在论文中详细描述了 KuaiMod 方案的技术路线,希望引发更多的交流和讨论。

3、基于用户反馈的强化学习训练+更新策略:区别于静态的规则或内容判别 API,基于判例的劣质内容建模使得 KuaiMod 可以通过迭代训练数据完成判别策略的更新。为了保证实时性和准确率,我们设计了基于用户反馈的强化学习范式,利用用户的线上反馈构造新的训练数据,实现线上判别服务的天级更新。

一、KuaiMod 短视频质量判别基准测试

KuaiMod 劣质内容分类体系

为了应对层出不穷的新增劣质内容,KuaiMod 建立了动态的劣质内容分类体系。基于快手原有的判别标准,KuaiMod 将劣质内容分类成四个相互独立的主要类别:法律与社会安全,内容质量与伦理,不良商业行为和侵害知识产权。在四个主要类别的基础上进一步构建动态的细粒度劣质内容分类体系。具体来说,初版 KuaiMod 分类体系共包括 15 种细粒度劣质标签。在后续判别过程中,如果视频内容被判定为质量低下,但不存在与之匹配的细粒度标签,则根据劣质内容为该类视频生成新的细粒度标签并计入原有分类体系。自部署以来,KuaiMod 分类体系中劣质内容的标签数目已从 15 个扩充到 100 个,实现了对新增劣质内容的覆盖和细粒度分类。

KuaiMod 基准测试

基于上述分类体系,我们构造了业界首个短视频平台内容质量判别基准测试。该基准测试由 1000 条来自快手平台的短视频和对应的分类标签组成,其中 578 条视频为非劣质内容,422 条劣质视频涵盖了初版分类体系中的 15 种细粒度劣质类型。KuaiMod 基准测试中的每条数据都由多名资深标注者把关,确保分类标签的正确性。在严格的数据脱敏和清洗之后,我们将该基准测试开源,希望促进短视频平台生态优化社区的交流和发展。

二、KuaiMod 短视频质量判别方案

KuaiMod 质量判别模型由快手自研的 YuanQi 通用多模态模型作为基座,面向视频质量判别任务,使用链式推理数据离线训练后部署上线,并根据线上反馈持续更新判别策略。

链式推理数据构造

KuaiMod 训练数据的构造结合了人工判别结果和大模型推理能力。为了增强多模态大模型对视频内容和劣质标签之间的因果建模,我们设计了 Tag2CoT 和 CoT2Tag 流程,为每条训练数据提供细致的分析过程。

我们将线上的用户反感(举报/厌恶/差评)视频队列以及用户喜爱的高质量视频队列作为数据源,由人工标注者为每条数据标注细粒度劣质标签。

在 Tag2CoT 过程中,多模态大模型将视频元信息(视频标题、封面、视频帧、OCR/ASR 文本,用户评论等)以及人工标注的劣质标签作为输入,并根据指令分析视频内容,为人工判别结果提供思维链格式的依据。 在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。

SFT+DPO 离线适配

基于构造的链式推理数据,KuaiMod 模型的离线适配由 SFT 和 DPO 两阶段训练组成。

在 SFT 阶段,整合视频元信息作为输入,使用 next-token-prediction 任务训练 YuanQi 模型生成推理过程和判别结果。

在 DPO 阶段,利用 SFT 后的模型在训练集上生成推理结果,从中挑选出判别结果错误的样本,将模型的生成结果作为负例,将原本的训练数据作为正例,构造偏好数据,采用直接偏好优化算法针对错误样本优化模型。

基于用户反馈的强化学习(RLUF)更新范式

尽管 KuaiMod 模型在离线适配后具备初步的视频质量判别能力,但由于社交视频平台上的劣质内容会随着用户和社会趋势而变化,静态的质量判别模型无法有效适应这种动态性。因此,在线上更新阶段,我们设计了基于用户反馈的强化学习(RLUF)范式,持续优化 KuaiMod 模型的判别策略。

RLUF 包括如下关键元素:

  • 环境:由短视频平台上的视频和用户组成,用户通过观看视频并提供反馈(如举报)来与环境互动。
  • 智能体:KuaiMod 模型作为代理与环境互动,其策略由参数 θ 决定,基于视频内容进行质量判断。
  • 奖励和目标:奖励信号直接来自用户反馈,较低的用户举报率表明更好的质量判别策略。目标是通过与环境的互动更新判别策略,以提高用户满意度和平台生态。

劣质内容判别策略更新的关键在于消除模型与用户对劣质内容理解的差异。为此,选择模型判别结果与用户反馈不一致的视频案例作为优化阶段的训练数据。具体步骤包括:

1、实时难例收集:难例来自用户举报视频以及高热视频。举报行为直接反映了用户理解的劣质内容的范畴,而高热视频因其受欢迎程度而具有更高的扩散风险,同时也反映了平台趋势和用户偏好。

2、数据筛选

  • 粗筛选:假设未被用户举报的视频为正例,而高举报队列中的视频为劣质样本。通过更新前的KuaiMod模型生成判别决策,识别出与人类反馈相矛盾的案例作为线上更新阶段的候选训练数据。
  • 精细标注:对有争议的候选案例进行人工复检,确定最终的劣质标签,并通过既定的 Tag2CoT 和 CoT2Tag 流程生成数据。对于 KuaiMod 判断错误的案例,原始和新生成的响应分别作为错误和正确答案;对于 KuaiMod 判断正确但用户仍感到不适的案例,使用 YuanQi-20B 模型在 CoT 推理过程中列举可能引起用户不适的方面,并解释该视频为何不会对社区生态造成危害,以帮助模型区分个体用户敏感性和社会共识。

在线上更新阶段的训练中,我们仍然采用直接偏好优化算法来完成模型判别策略与用户反馈的对齐。

离线性能评估

我们在 KuaiMod 基准测试上评估了多种视频质量判别方案,从较早的 RoBERTa 编码器到先进的 Intern-VL 模型,从通用的 GPT-4o 到专业的 Perspective API,以及经过离线适配的 KuaiMod-7B 模型。评测包括简单的劣质/非劣质二分类和对细粒度标签的多分类。

评测结果揭示了视频质量判别任务存在如下关键要素:

1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。

2、多模态理解能力:能够利用多模态信息的方法相比于仅能利用文本信息的模型普遍取得了更好的效果,强大的视觉理解能力对于视频质量判别任务至关重要。

KuaiMod-7B 模型取得了 92.4% 的整体准确率,相对于其他方法取得了将近 10% 的提升,展现出了性能优势和应用潜力。

线上部署性能增益

为了验证 KuaiMod 方案的实际应用价值,我们在快手生态中的三个场景(快手极速版,快手精选和快手主站)进行了 A/B 测试。在极速版和精选场景下,KuaiMod 的质量判别服务使视频举报率降低了 20% 以上,显著提升了用户的观看体验。同时,质量判别服务没有对活跃用户数目和观看时长造成负面影响,这证明 KuaiMod 剔除的短视频不符合主流用户的兴趣。在主站场景下,KuaiMod 的质量判别服务使得活跃用户规模和人均观看时长均产生了增长,这证明了劣质内容剔除对于短视频平台的发展具有巨大价值。

三、快手致力打造社区短视频理解多模态大模型

短视频平台的内容分发面临两大核心挑战:如何从海量内容中精准捕捉用户兴趣,以及如何在信息过载时代构建用户与内容的高效连接。随着短视频内容的多样化和复杂性,平台需要探索更加先进的推荐技术,以提升推荐的精准性和可解释性,从而更好地满足用户的需求。

快手正致力于打造一个能够真正「理解社区短视频」的多模态大模型,不只是追求技术指标的突破,而是从用户体验、内容理解到业务变现,全面重塑平台的智能基础设施。这不仅关乎一个产品的升级,更代表着一种新的AI价值实现路径。

多模态语义理解的「硬骨头」:快手短视频语义远超多模态通用范式

相比标准化的影视视频或通用图文内容,社区短视频的语义环境极为复杂:内容碎片化严重、情境依赖性强、语言与视觉高度融合、表达风格高度个性化、传达意图往往隐含于动作、语气、背景与上下文之中。这意味着,只有能够真正「看懂、听懂、理解」这些视频的大模型,才能为推荐、搜索、内容生成等核心能力提供有效支撑。

这正是快手推进多模态大模型建设的起点。

团队明确提出,模型不仅需要实现语言、视觉、音频等模态的信息融合,还要具备:

  • 对短视频语境中复杂意图的识别能力;
  • 对用户兴趣动态变化的感知能力;
  • 对视频背后高阶语义与知识图谱的推理能力。

传统方法往往止步于对视频内容的表征提取,而快手要做的是,从「表征」迈向「理解」——这是通往下一代 AI 系统的必由之路。

建立以「视频理解」为核心的多模态模型框架

为此,快手自研的大模型能力被系统地分为三个层次:

第一层:多模态基础能力

这一层聚焦于打通视频、图像、文本等多模态输入的表示空间。团队探索了多种训练范式:

  • 通过语言模型主导的 Encoder 路径融合视觉内容;
  • 利用 Adapter 方式对视觉模态进行调参适配;
  • 构建统一的流式理解体系,实现短视频「上下文建模」;
  • 引入监督微调(SFT)策略,提升模型生成能力和对齐度。

在模型训练数据上,快手搭建了高质量的中文短视频语料库,支持「视频-语音-文本」三位一体的训练目标,并构建了以「视频结构化标签体系」为中心的训练监督链条,实现模型对短视频语义单位的精准识别。

第二层:高级认知与推理能力

在具备感知能力之后,快手将模型推向更高维度的认知与推理能力。这部分重点突破如下:

  • 利用 RAG 机制结合知识图谱进行视频内容补全与多跳问答;
  • 提高模型对复杂命题(如动作因果、话题转折、情感表达等)的理解力;
  • 融合社交线索(如点赞评论、观看路径)进行因果链建模。

与 OpenAI、DeepSeek 等在图文领域大模型能力相比,快手的优势在于其数据更贴近用户真实兴趣轨迹,具备构建「懂人心」模型的土壤。

第三层:多模态应用能力

快手多模态模型的目标并非「实验室指标」,而是「场景闭环」。当前,模型已广泛部署于平台的多个核心任务中,包括:

  • 视频兴趣标签结构化;
  • 短视频 Caption 生成与标题优化;
  • 用户兴趣识别与推荐意图建模;
  • 智能选题、内容共创辅助;
  • 电商商品知识图谱构建与导购推荐;
  • 用户评论语义解析与话题扩散预测。

尤其在商品推荐与内容创作领域,快手正在构建「知识驱动的 AI 内容理解-生成-推荐」全链条,从而实现从内容理解到价值转化的智能跃迁。

实际业务中,这一模型体系已在用户行为可解释性任务中展现出显著成效——在快手主站与极速版核心场景中,平台多项正向核心指标稳步提升,主站场景下举报率下降超过 26%,极速版下降超过 24%,充分体现了多模态大模型在真实业务环境中的落地能力与优化成效。

三阶段路径:从能力建设到生态闭环

快手在多模态大模型建设方面采取了清晰的阶段性策略,力求以系统性投入逐步构建起具备产业价值和应用闭环的模型能力体系。

第一阶段:夯实基础能力

快手聚焦于多模态模型的底层能力建设,重点包括统一的标签体系构建、多源异构语料的采集与清洗,以及多模态监督机制的初步搭建。通过标准化、结构化的标签体系,为模型提供更精确的语义锚点,奠定了高质量训练的基础。

第二阶段:推进语义融合与兴趣建模

随着基础能力的成熟,快手开始将模型能力延伸到内容与用户之间的深层理解。此阶段重点探索内容语义结构与用户行为偏好的联动机制,推动知识图谱在推荐、搜索等业务场景中的实用化落地,进一步提升内容分发的精准性与用户体验。

第三阶段:实现产品集成与业务共振

在模型能力逐步完善的基础上,快手将多模态技术融入平台多个关键业务流程,面向内容理解、创作辅助、商业推荐等多类任务实现统一支撑。同时,探索 AI 能力在营销、分发、内容生产等场景中的创新应用,推动模型从「算法引擎」迈向「平台能力」的演进。

这一分阶段的策略不仅保障了技术建设的系统性,也使得大模型能力能够稳步走向规模化应用和价值兑现。

走出学术范式,迈入「场景即能力」的产业实践阶段

快手的多模态大模型不是为了追赶潮流,而是一次源于真实场景需求的技术深耕。它所代表的,是中文内容生态中,一个由社区驱动、短视频驱动的智能化转型路径。

如果说过去多模态模型更像是「学术成果的工程化实现」,那么快手的路线更像是「产品倒推下的技术演进」。在这个过程中,快手展现出一种难得的「慢功夫」与务实精神:先理解任务本身,再推动模型优化,最终形成业务闭环。这种从需求出发、自研为本、场景驱动的技术策略,为整个中文AI生态提供了一种新的范式样本。

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Al 技术在快手短视频创作与理解的应用
在 AICon 全球人工智能与机器学习技术大会(2021)北京站上,快手技术 VP 王仲远带来了主题为《Al 技术在快手短视频创作与理解的应用》的演讲,分享了快手在 AI 技术领域的实践与探索成果。本文由 InfoQ 根据王仲远的演讲内容整理,希望对你有所启发。作为国内短视频行业头部平台之一,快手有 3.2 亿日活用户,月活达 5.7 亿,此外还有 1.8 亿海外月活用户,存量短视频已达数百亿量级。在快手平台上,用户每天会花超过 100 分钟观看短视频及直播内容,用户相互关注数也超过 140 亿。
深度学习与Python
2021/12/16
1.3K0
大模型狙击黑产:挚文集团社交生态攻防实战全揭秘
在 InfoQ 举办的 AICon 全球人工智能开发与应用大会上摯文集团生态技术负责人李波做了专题演讲“大模型在社交生态领域的落地实践”,演讲从摯文集团实际的生态问题出发,从多模态大模型如何进行对抗性生态内容理解、如何进行细粒度用户性质判定,以及如何进行人机协同降本提效等方向展开。
深度学习与Python
2025/05/17
970
大模型狙击黑产:挚文集团社交生态攻防实战全揭秘
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
配音涉及为视频中的对话添加正确的人类声音,确保与角色的唇部动作同步,并传达场景中的情感。它在电影、电视、动画和游戏中发挥着至关重要的作用,增强了沉浸感,并有效传达情感和氛围。现有的配音方法可以分为两类,这两类都专注于学习不同风格的关键先验信息以生成高质量的声音。第一类专注于学习有效的说话人风格表示[7, 15, 23, 60]。第二类旨在利用给定视频输入的视觉信息来学习适当的韵律[15, 25, 37, 70]。然而,这些先验信息的准确性不足以满足现实场景中电影配音的需求。例如,针对不同类型(如对话、旁白和独白)以及细粒度属性(如期望的年龄和性别)的自适应配音尚未得到充分研究[17, 25]。
AIGC 先锋科技
2025/05/22
1020
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
短视频内容理解与生成技术在美团的创新实践
大家好,我是马彬,在美团主要负责短视频相关的算法研发,很荣幸能够来到LVS跟各位分享我们在美团业务场景下的短视频理解与生成技术实践。
LiveVideoStack
2022/02/11
1.1K0
短视频内容理解与生成技术在美团的创新实践
超大模型工程应用难?快手给出短视频场景下的实战指南
号称性能吊打 ChatGPT 的 GPT-4 近日又一次引爆关注。 据OpenAI介绍,当任务的复杂性达到阈值时,二者就会显现差异。它的发布是一件新鲜事,但其背后的多模态大模型技术其实已经发展多年。如今,大模型工程应用的能力成为很多企业关注的重点,也是以 ChatGPT 为代表的预训练大模型广受关注的原因。 目前,大模型从自然语言处理已经扩展到多媒体视觉、多模态等多领域。近日,在英伟达 GTC 2023 大会上,快手的技术专家张胜卓、韩青长、李杰以多模态超大模型在快手短视频场景下的落地为例,分享了多模态超大
深度学习与Python
2023/03/29
7810
超大模型工程应用难?快手给出短视频场景下的实战指南
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性。
机器之心
2025/04/24
1290
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
多模态技术爆发元年,行业应用如何落地?
近年来,多模态大模型技术发展迅速,展现出强大的视觉理解能力,显著提升了 AIGC 的可控性,各行各业正经历从“人工密集型”到“AI 原生驱动”的颠覆性变革。那么,多模态技术中面临哪些核心技术挑战?在 AIGC 技术落地过程中,会产生什么新的应用场景?大模型的下一阶段突破可能来自哪些方向?
深度学习与Python
2025/04/26
1800
多模态技术爆发元年,行业应用如何落地?
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中:在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型(VLMs)。
AIGC 先锋科技
2025/05/14
990
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
每周AI论文速递(250106-250110)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
叶子的技术碎碎念
2025/04/08
810
每周AI论文速递(250106-250110)
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
不过近日,谷歌的Gemini终于扬眉吐气了一把,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。
新智元
2024/06/28
2080
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」
机器之心
2025/05/21
1350
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
随着图像生成模型的成功,视频生成也逐渐引起了广泛关注。尽管现有的视频生成模型(VGMs)已经达到了商用 Level 的性能,但所生成的视频时长仍然较短。长视频生成方法通过改善生成视频的长度和一致性来解决这一问题,促进了诸如视频扩展[35]、电影生成[40]和世界模拟[24]等多种新兴任务的发展。
AIGC 先锋科技
2025/02/12
1360
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
国产AI导演贼6,短视频镜头和物体各动各的|港城大&快手&天大
Direct-a-Video,成功解耦AI生成视频中物体运动和摄像机运动,让灵活性和可控性大大增强!
量子位
2024/02/22
1280
国产AI导演贼6,短视频镜头和物体各动各的|港城大&快手&天大
每周AI论文速递(250324-250328)
大语言模型 (LLMs) 在自然语言处理领域取得了突破性进展。近期研究推动了一类新型推理大语言模型的发展:例如,开源模型 DeepSeek-R1 通过融合深层语义理解与复杂逻辑推理,实现了当前最优性能。尽管这些能力表现卓越,其内部推理机制仍缺乏系统性研究。本文采用稀疏自编码器 (SAEs) —— 一种将神经网络潜在表征解耦为稀疏可解释特征的技术,用于识别 DeepSeek-R1 系列模型中的核心推理特征。我们首先提出从 SAE 表征中提取候选“推理特征”的方法,并通过实证分析与可解释性技术验证这些特征与模型推理能力的直接关联。关键贡献在于,通过调控这些特征可显著提升推理性能,首次为大语言模型的推理机制提供了可解释性论证。代码发布于 https://github.com/AIRI-Institute/SAE-Reasoning
叶子的技术碎碎念
2025/04/08
910
每周AI论文速递(250324-250328)
揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?
你一定觉得,AI这种前沿科技,主要活在硅谷西二旗的科技公司、大学和研究院的论文、还有资本的热捧里。
量子位
2019/04/24
1.5K0
揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
deephub
2024/07/01
3510
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3770
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(250120-250124)
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
690
每周AI论文速递(250113-250117)
ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技
人工智能技术正在成为内容产业的中台力量,其中视觉AI已经渗透到内容生产、内容审核、内容分发、用户互动、商业化变现等各个环节。美团视觉智能部以场景化的内容产品、智能化的内容工具助力产业,在内容的创作、内容分发等环节应用广泛。
美团技术团队
2022/12/16
9490
ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技
推荐阅读
Al 技术在快手短视频创作与理解的应用
1.3K0
大模型狙击黑产:挚文集团社交生态攻防实战全揭秘
970
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
1020
短视频内容理解与生成技术在美团的创新实践
1.1K0
超大模型工程应用难?快手给出短视频场景下的实战指南
7810
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
1290
多模态技术爆发元年,行业应用如何落地?
1800
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
990
每周AI论文速递(250106-250110)
810
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
2080
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
1350
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
1360
国产AI导演贼6,短视频镜头和物体各动各的|港城大&快手&天大
1280
每周AI论文速递(250324-250328)
910
揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?
1.5K0
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
3510
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3770
每周AI论文速递(250120-250124)
1040
每周AI论文速递(250113-250117)
690
ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技
9490
相关推荐
Al 技术在快手短视频创作与理解的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档