腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
首页
专栏
文章归档
2024 年 07 月 08 日文章目录
港大 & 腾讯 & 上交大 Plot2Code | 首个全面基准测试,深入评估多模态大型语言模型在视觉编码挑战中的表现!
突破内存瓶颈 KCache | 不需要任何训练,适用于各种主流结构,提升 LLM 大型语言模型推理效率!
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
北航提出 PTQ4SAM | 一种高效的分割任何模型训练后量化框架,实现了无损精度,速度提高了3.9 倍 !
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
vivo 提出ASAM | 用增强策略和训练方法拓宽SAM的性能边界,同时不损失其性能,分割直接登顶 SOTA !
IceFormer | 加速 Transformer 模型即插即用,无需重新训练,更快的推理速度,CPU 上也能部署 LLM !
从 ChatGPT 到 Sora | 生成式人工智能如何改变数字人文研究和服务 ?
清华 & 华为 开源U-DiTS | 利用 U-Net 架构提升扩散 Transformer 的性能和效率!
MMA-UNet | 一种多模态非对称融合网络,提高红外与可见图像融合性能 !
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
MambaMOS| 一种新的激光雷达点云运动目标精确分割技术,性能表示 SOTA !
多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!
新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
三合一检测器 | 通过CLIP编码,实现多模态检测,解决AIGC 恶意伪造内容问题!
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
清华 & 国家重点实验室 PeriodicLoRA | 通过周期性累积低秩更新打破参数高效微调的性能瓶颈!
TrafficVLM | 车辆第一视角多模态视频标题生成模型 ,AI City Challenge 2024 表现优异!
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 8 页
第 9 页
第 10 页
第 11 页
第 12 页
领券