首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek之后,清华和智谱AI提出“视觉压缩”新范式

DeepSeek之后,清华和智谱AI提出“视觉压缩”新范式

作者头像
Ai学习的老章
发布2025-11-20 12:16:51
发布2025-11-20 12:16:51
100
举报

DeepSeek 最新开源OCR模型,实测,不如百度

大型语言模型(LLM)在处理超长上下文时面临着巨大的计算和内存成本挑战,这严重限制了它们在文档理解、代码分析和复杂推理等关键应用中的潜力。传统的解决方案,如扩展位置编码或优化注意力机制,往往无法从根本上解决 token 序列长度带来的开销,而检索增强(RAG)方法又可能引入信息丢失和额外延迟。

核心创新:视觉-文本压缩

https://arxiv.org/abs/2510.17800

清华大学和智谱AI等机构提出的 Glyph 框架,为这一难题提供了一个极具创新性的"非对称"解决方案:

  1. 信息密度革命:将冗长的文本内容渲染成紧凑的图像
  2. 跨模态处理:利用视觉-语言模型(VLM)处理视觉化文本
  3. 效率突破:单个视觉token可承载3-4倍文本信息量

技术实现三阶段

1. 持续预训练

  • 训练数据:多样化渲染文本数据集
  • 核心目标:建立视觉符号与语义的映射关系

2. LLM驱动的渲染搜索

  • 采用遗传算法优化参数:
    • 字体样式
    • 版面布局
    • DPI分辨率
  • 平衡点:压缩率 vs 模型性能

3. 后训练优化

  • 监督微调(SFT)
  • 强化学习(RL)
  • OCR辅助任务(提升文本识别精度)

实验成果

指标

提升幅度

对比基线

Token压缩率

3-4倍

传统文本token

推理速度

最高4倍

Qwen3-8B

训练效率

约2倍

常规SFT

LongBench得分

相当/超越

同级LLM

战略意义

  1. 新范式互补:与注意力机制优化形成技术矩阵
  2. 扩展性突破:为百万级token处理铺平道路
  3. 跨模态增益:同步提升真实场景文档理解能力

该研究预示AI系统处理超长上下文的能力即将进入新纪元,相关代码已开源。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心创新:视觉-文本压缩
  • 技术实现三阶段
    • 1. 持续预训练
    • 2. LLM驱动的渲染搜索
    • 3. 后训练优化
  • 实验成果
  • 战略意义
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档