首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

清华 KEG 实验室联合智谱 AI 推出图像理解大模型 CogAgent

据 IT 之家 12 月 27 日消息,清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。据悉,CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OUK6tsU1HNr3TjE2PlED3eNQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券