首页
学习
活动
专区
圈层
工具
发布

IBM发布轻量级视觉语言模型Granite-Docling-258M:

IT之家 9 月 20 日消息,IBM 现已正式发布了小型视觉语言模型 Granite-Docling-258M,定位于端到端文件转换场景用途,相应模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 上线(点此访问)。

IT之家获悉,该模型参数量为 2.58 亿,号称是一款专为文档表格设计的轻量级模型,输出结果能够完整保留版面、表格、数学公式、列表和代码块等结构,同时准确度相比传统 OCR 软件识别准确性更高。

IBM 透露,Granite-Docling 的核心在于 DocTags,这是由 IBM Research 设计的一套通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系,同时可将内容与版面结构分离,实现“先识别元素范围再执行 OCR 识别”,在完成转换后,DocTags 还能够直接将内容导出为 Markdown、JSON、HTML 等格式,也可以进一步进入 Docling 库进行处理。

目前,Granite-Docling 支持中文、阿拉伯语和日语等语言,不过尚未达到“企业级”水准,IBM 称未来开发人员将逐步扩展语言覆盖范围并提升模型可靠性。同时还将进一步增强 DocTags 与 IBM watsonx.ai 模型的兼容性,并计划把 DocTags 词汇表纳入 Granite 分词器和训练流程。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLl_rP-ADv1l9t9MfgshifBw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券