首页
学习
活动
专区
工具
TVP
发布

未来先知

专栏成员
52
文章
6667
阅读量
10
订阅数
面向语音驱动面部动画:TalkLoRA模型的通用性和适用性 !
人脸数字3D在各种媒介中非常普遍,被广泛应用于电视、视频游戏、电影、视频会议和营销等领域。此外,它是2D口型生成的关键组件[]。作为社会生物,人类很注重彼此的面部表情[]。这使作者非常擅长辨别与面部相关的细节。特别是面部的运动。即使在这些面部动画中出现小错误,最终结果可能会落入人们所说的“不协调山谷”,这是一种令人不安的现象,阻止人们对数字人表示接受[]。
未来先知
2024-09-11
700
SAMTooth:利用 SAM 实现稀疏监督下的牙齿点云细分 !
准确地从口腔扫描仪(IOS)的网格数据中提取3D牙点的牙齿分割在许多正畸应用中起着关键作用,包括详细分析牙齿形态学、治疗计划、个性化装置设计等。然而,现有的牙齿点云分割模型 主要依赖于大量的标注数据集进行训练,这涉及到牙点云标注的劳动密集型任务。例如,一个有经验的牙科医生手动标注半个下颌大约需要15到30分钟 [30]。这种耗时过程对建立大规模、高质量标注数据集极具挑战性并且降低了诊断系统的泛化性 。
未来先知
2024-09-11
1010
从STM到CTM:MTMamba++如何优化多任务场景理解 !
多任务密集场景理解在计算机视觉领域有着多种实际应用,如自动驾驶、医疗保健和机器人等。此问题的挑战之处在于,需要训练一个模型同时处理多个密集预测任务,如语义分割、单目深度估计、表面法向量估计和物体边界检测等。
未来先知
2024-09-11
950
视频到图像 ,SAM 2 优化 3D 图像标注流程 !
医学影像分割是医学影像的重要组成部分,涉及使用各种影像模式(如计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射计算机断层扫描(PET)、超声[5]和X射线)准确界定解剖结构和病理区域。精确分割对提高诊断准确性、优化治疗计划,以及最终改善患者预后至关重要[9, 10]。当前的深度学习方法在自动化分割过程中表现出色[7, 12, 18]。然而,训练这些自动模型仍然严重依赖手动专家标注,这既昂贵又耗时。为了加快标注过程,一种策略是利用已训练好的模型辅助标注[16, 22]。
未来先知
2024-09-11
550
从 YOLO 到 μYOLO 针对微控制器优化的目标检测技术进展 !
计算机视觉中的目标检测描述了首先找出,即回归,一个边界框,然后对场景中的物体进行分类的第一个步骤。早期的解决这个问题的问题的方法使用一个滑动窗口,在图像上 evenly 地点对地查看 [4] 或者像区域CNNs(R-CNNs) [5] 那样在先用一些区域 Proposal 算法之后分别解决这两个问题。现今,这些方法大部分由单张图像检测器(SSDs),其中最突出的是YOLO [8]。它们能够在使用只有一个CNN的极高效解决检测任务,因此不需要独立的区域 Proposal 阶段。然而,尽管SSD高效,因此提供了巨大的潜力用于节能的实时目标检测,但在边缘设备上的部署至今还主要针对较大的嵌入式平台,如Jetson Xavier [9, 1]等,而在资源受限的微控制器上进行目标检测的可行性仍然是一个开放的话题。
未来先知
2024-09-11
1300
端到端多摄像头跟踪:引入多摄像头跟踪Transformer(MCTR) !
计算机视觉中的目标跟踪长期以来一直是研究领域的核心挑战,因为它在许多实际应用中具有广泛的应用价值。尽管大多数研究努力集中在单摄像头视频流的多目标跟踪上,但由于在多样应用(如安全、监测或体育分析)中部署的多摄像头系统日益普及,因此多摄像头多目标跟踪的需求也在增加。在这些应用中,多摄像头系统相对于单目摄像机具有多种优势,如增加覆盖范围、减少盲区和提高跟踪鲁棒性,尤其是在涉及检测失败或持续遮挡的场景中。
未来先知
2024-09-11
1680
LoG-V Mamba ,高效图像分割的新视角 !
医学图像分割(MIS)的目标是2D或3D医学图像中组织和病变的边界和定位。这一过程对于发展自动化疾病识别、分期和治疗,以及开发医学机器人至关重要。近年来,最先进的MIS方法基于深度学习(DL),得益于它从大量数据集中学习复杂模式的能力。这证明在医学应用中产生高质量性能至关重要 。
未来先知
2024-09-11
940
xGen-MM(BLIP-3), 一种开放大型多模态模型 !
大型多模态模型(LMMs)因其潜在的应用和新兴能力而受到广泛关注。最近,专有模型[2-5]和开源LMMs[6, 1, 7-11]的进展突显了这一领域的快速进步和日益增长的兴趣。然而,尽管取得了这些进步,开源模型与专有模型之间在开放权重、训练配方和策划数据集的获取方面仍存在差距。这些限制阻碍了开源社区复制、理解和改进LMMs。
未来先知
2024-09-02
1120
CLIPCleaner 利用视觉语言模型解决噪声标签学习的自我确认偏差问题 !
最近,基于样本选择的方法已成为识别干净标签的样本的主导模式。其中最常用的样本选择策略是小损失机制,因为模型在训练过程中倾向于提前适配干净样本而不是噪声样本,这导致了干净样本的相对较小损失。然后,大多数方法主要集中在进一步改进这样的样本选择机制。这包括小损失策略的不同变体、利用基于样本特征空间的小样本近邻或图模型进行样本选择。然而,这些方法天生受到标签噪声的影响,因为损失或用于样本选择的特征是从正在训练的模型(即在线训练模型)中提取的(即内训练模型)-这导致了臭名昭著的“自我确认”偏差。一些方法(Li等人,2019年;2019年)试图通过模型共同训练来缓解“自我确认”偏差,但这种方法引入了额外的计算开销。此外,这些方法仅依靠图像内的视觉信息,因此很难处理“硬噪声”,即具有高视觉相似度的类别间的标签错误。
未来先知
2024-09-02
830
北航提出 Unified-loU,用于高品质目标检测的统一loU !
边界框回归(BBR)模块是目标检测模型中的一个重要部分。一个好的、准确的边界框回归函数直接决定了目标定位的准确性。如果预测框的定位精度较差,很容易导致目标真假或缺失的检测。边界框回归模块已经广泛应用于许多高级目标检测器,包括Mask R-CNN[17], Cascade R-CNN[18], YOLO[1]等。因此,设计一个好的BBR损失函数是目标检测任务的关键。
未来先知
2024-09-02
1660
LightMDETR:一种用于低成本开放词汇对象检测的轻量级方法 !
目标检测是计算机视觉领域的关键任务,涉及在图像中识别和定位目标。传统上,闭式词汇模型得到应用,其中模型被训练去识别一个固定的目标类别集。Faster R-CNN [1]、YOLO [2] 和 SSD [3] 等方法已经证明了它们的高效性,但在扩展到预定义类别之外的一般化方面受到限制。
未来先知
2024-08-30
1060
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。它使用对比损失学习两个独立的单模编码器,这是表示学习中最有效的损失之一 。然而,CLIP的成功在很大程度上依赖于庞大的预训练数据集。原始CLIP模型在4亿图像文本对上进行32个epoch的预训练,需要数千个GPU天。在计算资源有限的情况下,这具有明显的挑战性[1, 17]。最近,从网站爬取的大规模图像文本数据集(如LAION400M 和LAION5B [13])在日常生活中广泛应用于视觉语言预训练。数据Comp 从Common Crawl的网页数据中提取图像文本对,并采用诸如基本过滤、CLIP评分过滤和基于文本图像过滤等策略。然而,训练数据中的语义重复问题仍然存在,这不仅可能影响表示学习,还可能浪费计算资源 。
未来先知
2024-08-29
1200
高效的测试时间促进视觉语言模型的训练 !
开放集图像分类是计算机视觉领域一个基本且具有挑战性的任务。最近,视觉语言模型(VLMs)在这个领域展现出了强大的能力。一个突出的模型是CLIP (Radford等人,2021年),将图像和语言编码到统一的嵌入空间中,通过测量图像表示和文本类描述之间的相似度来进行分类。
未来先知
2024-08-29
1160
应对遮挡挑战,北航提出新型 YOLOv5 模型表现优异 !
行人检测是计算机视觉在日常生活中的典型应用 [1]。事实上,单阶段深度卷积神经网络(YOLO)在目标检测 方面表现出色,明显优于之前的半手工方法和两阶段神经网络 [2]。例如,YOLO允许卷积神经网络(CNNs) [6] 在任意长宽比下输出一个边界框,而滑窗方法的开销为零。尽管双阶段检测器(R-CNN)能够实现最先进的精确度,但它需要更多参数进行计算,且占用更多操作空间,严重削弱了算法的实时性能。
未来先知
2024-08-29
1220
A-BDD:面向恶劣天气和照明条件的分类器欺骗与语义分割 !
自动驾驶(AD)的实际实现,特别是高阶全自动驾驶(L4&5级),依赖于健壮的基于机器学习的感知算法。最近的部委报告表明,感知失败仍然是高级驾驶员辅助系统(ADAS)断开的核心驱动因素[8]。
未来先知
2024-08-29
1200
华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
人重识别(ReID)旨在从人类图像中学习视觉特征,能够区分不同的个体身份。这是一个重要且具有挑战性的计算机视觉问题,需要克服严重的遮挡、外观变化、形状变化和视点变化。人重识别技术能够在无接触和不合作的情况下实现跨摄像头检索行人,并广泛应用于公共安全、视频监控等领域,具有显著的应用价值。
未来先知
2024-08-29
1160
波士顿大学提出 AyE-Edge, 在边缘目标检测领域超越 SOTA !
为解决这个问题,穷举最佳组合以实现帕累托最优似乎是最直观和有效的方法。然而,这面临三个主要原因的挑战。首先,庞大的部署空间使得全面搜索代价高昂。例如,在第四章详细介绍的Oneplus 8T手机上,仅设备配置就有3.67E+05种潜在的部署方案候选,每种方案会导致不同的性能-能耗结果。其次,针对边缘设备部署的边缘目标检测(Edge-OD)绩效收集器缺乏,这造成了巨大的障碍。进行公平的比较部署方案至关重要,使Edge-OD开发行人能够在实际部署之前,准确分析性能和硬件成本,从而大幅减少研发周期。最后,另一种较少研究的必备品是能够智能搜索部署空间并根据目标准确性、功耗效率和实时要求生成帕累托最优部署方案的自动协调器。
未来先知
2024-08-29
1200
清华大学最新成果 3D 语义占用预测框架 GaussianFormer !
激光雷达是否用于3D感知,长期以来一直是自动驾驶公司核心争论的焦点。尽管以视觉为中心的系统具有经济优势,但它们无法捕捉任意形状的障碍物,这限制了驾驶的安全性和鲁棒性。3D语义占用预测方法的出现缓解了这个问题,通过预测周围3D空间中每个 Voxel (voxel)的占用状态,这促进了包括端到端自动驾驶[46],4D占用预测[58]和自监督3D场景理解[15]等新兴任务的发展。
未来先知
2024-08-29
1090
FFAM: 用于解释三维探测器的特征分解激活图 !
近年来,基于激光雷达(LiDAR)的三维目标检测技术迅速发展,广泛应用于自动驾驶、工业自动化和机器人导航等领域。然而,现有的检测方法主要依赖具有高度非线性和复杂结构的深度神经网络。本质上,这些模型可以被视为“黑箱”系统。这种不透明的建模技术阻碍了用户完全信任检测模型,特别是在敏感和高风险领域。因此,迫切需要理解这些内在不透明模型的决策过程。
未来先知
2024-08-21
900
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024-08-20
1130
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档