在读博士

深度学习和计算机视觉

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

要训练一个YOLOv5的模型来自动检测你最喜欢的玩具，你需要拍几千张你的玩具在不同上下文中的照片，对于每张图，你需要标注玩具在图中的位置。

使用Stable Diffusion图像修复来生成自己的目标检测数据集

本文介绍了多个能将深度学习训练过程进行可视化的工具，帮助大家更好地理解深度学习，非常实用。

深度学习可视化大全（附github源码）

WinMerge是一款运行于Windows系统下的文件比较和合并工具，使用它可以非常方便地比较多个文档内容，适合程序员或者经常需要撰写文稿的朋友使用。

代码对比工具，我就用这6个

这两天，加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片火了。

AI封神了！无剪辑一次直出60秒《猫和老鼠》片段，全网百万人围观

| 导语 最近在github上冒出了一个python的debug神器PySnooper，号称在debug时可以消灭print。那么该工具有哪些优点呢，如何使用该工具呢。本文就介绍该工具的优缺点和使用方式。

你也用print输出来调试代码么？

（前言：这篇文章我从祖师爷评上图灵奖的时候开始写的，但不停的在删了重写，删了重写，到现在为止才出一个我勉强接受的版本。我从我的视角来描述下我觉得这些年来强化学习的发展风向。先叠个甲，本人学术不精，本文所有观点都乃我一家之言，欢迎大家批评指正。）

聊聊强化学习发展这十年

很多人也想跟修改YOLOv5源码一样的方式去修改YOLOv8的源码，但是在github上面却发现找到的YOLOv8项目下面TAG分支是空的，然后就直接从master/main下面把源码克隆出来一通修改了，其实这种方式风险很高，而且也不是正确的选择，原因在于Master/main分支是工作跟合并的代码主仓，不是发布的版本代码，开源项目团队开发者随时随地都在修改代码，很可能导致引入新BUG，直接使用master/main分支的下面的代码会有两个致命问题：

速递 | YOLOv8模型改进的N种方法

首个全开源时间序列预测基础模型Moirai发布，它是一种通用的预测范式，让预训练模型可以处理任意时序预测任务。在零样本预测中，Moirai的性能媲美甚至超越了SOTA。

代码可复现 | 2024时间序列领域相关顶会

但为什么会这样呢？你认为经过几十年的研究，我们会很自然地说“这里的问题已经解决了，让我们专注于别的事情”。在某种程度上，我们可以这样说，但仅适用于狭窄和简单的用例（例如，在空的白板上放置红色勺子），而不是一般的计算机视觉（例如，在所有可能的场景中找到一把红色的勺子，就像一个大盒子满了五颜六色的玩具）。

为什么图像处理如此困难

论文题目：Vision Transformer with Quadrangle Attention中文题目：具有四边形注意力机制的视觉Transformer论文链接：https://arxiv.org/pdf/2303.15105

【2025年 即插即用】新颖的四边形注意力，CV任务统统涨点！

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。你们中的许多人可能已经使用 pip 很长时间了，但不清楚它有哪些还不错的功能。希望我今天分享的技巧能让你从 Python pip 中受益。

使用Python Pip的10个技巧

传统的Attention机制发生在Target的元素和Source中的所有元素之间。

【深度学习】图解自注意力机制(Self-Attention)

准确感知道路目标信息在自动驾驶系统和交通流分析中至关重要。由于复杂道路背景的多变性、目标大小和形状的多样性以及目标之间的相互遮挡，这项任务颇具挑战性。为应对这些挑战，作者引入了一种端到端的实时复杂道路目标检测模型，名为多域特征分解与去冗余检测Transformer（MDFD2-DETR）。据作者所知，这是首个基于DETR架构、专为复杂交通场景设计的实时感知模型。具体而言，作者分析了复杂道路目标感知精度低的关键原因，并提出了多域特征分解（MDFD）模块，以减少空间、通道和频域的特征冗余。此外，作者引入了混合位置编码（HPE）策略，以实现特征之间更有效的位置交互，从而解决这一问题。为训练和评估所提出的算法，作者构建了一个名为SWJTU-100k的复杂真实道路感知数据集，包含10万个样本。实验结果表明，MDFD2-DETR在参数和GFLOPs更少的情况下，超越了现有的实时方法，包括类似YOLO和DETR的模型，在不使用CUDA加速的情况下达到82.6 FPS。此外，它在PASCAL VOC 2012数据集上的mAP@0.5提升了0.5%-1.7%，在SWJTU-100K数据集上提升了1.5%-3.3%，在KITTI数据集上提升了0.5%-1.5%，在Udacity数据集上提升了0.6%-1.5%，展现出卓越的性能。此外，基于MDFD2-DETR的多目标跟踪算法在复杂道路场景中也实现了卓越的跟踪性能。

TIV 2024 | MDFD2-DETR：一种基于多域特征分解与去冗余的实时复杂道路目标检测模型

Meta官宣开源首个原生多模态Llama 4，首次采用MoE架构，支持12种语言，首批发布一共两款：

突发，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

提示学习作为一种有吸引力的替代传统微调范式的方法，可使预训练的视觉语言（V-L）模型适应下游任务。受自然语言处理中提示学习成功的启发，早期研究主要集中在基于文本的提示策略上。相比之下，V-L模型中的视觉提示尚未得到充分利用。将现有的为视觉变换器（ViT）设计的视觉提示方法直接应用到V-L模型中，往往会导致性能不佳或训练不稳定。为了应对这些挑战，本文提出了一种名为渐进式视觉提示（ProVP）的新结构。该设计旨在加强相邻层提示之间的交互，从而以一种类似实例特定的方式，更有效地将图像嵌入传播到更深的层。此外，为了解决可学习提示在训练期间泛化能力下降的常见问题，作者进一步引入了一种用于视觉提示学习的对比特征重构技术。该方法可防止提示后的视觉特征与固定的CLIP视觉特征分布出现显著偏差，确保其具有更好的泛化能力。结合ProVP和对比特征重构技术，作者提出的方法ProVP-Ref显著稳定了训练过程，并增强了V-L模型中视觉提示学习的适应性和泛化能力。为了证明该方法的有效性，作者在11个图像数据集上对ProVP-Ref进行了评估，在少样本学习和基类到新类泛化设置下，在其中7个数据集上取得了最先进的结果。据作者所知，这是第一项展示视觉提示在V-L模型中比该领域以前的文本提示方法性能更优的研究。

IJCV 2025 | 基于对比特征重构的渐进式视觉提示学习

本文的 GPU 利用率主要指 GPU 在时间片上的利用率，即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为：在采样周期内，GPU 上面有 kernel 执行的时间百分比。

实践教程｜GPU 利用率低常见原因分析及优化

以往成功的缺失模态补全方法依赖精心设计的融合技术以及在完整数据上的大量预训练，这限制了它们在域外（OOD）场景中的泛化能力。在本研究中，作者提出了一个新挑战：能否开发出一种既节省资源又对OOD泛化具有鲁棒性的缺失模态补全模型？为解决此问题，作者提出了一种基于大型多模态模型（LMM）的免训练缺失模态补全框架。作者的方法被称为“知识桥接器（Knowledge Bridger）”，它与模态无关，集成了缺失模态的生成和排序功能。通过定义特定领域的先验知识，该方法自动从可用模态中提取结构化信息以构建知识图谱。这些提取的图谱通过LMM将缺失模态生成模块和排序模块连接起来，从而实现对缺失模态的高质量补全。在通用领域和医学领域的实验结果表明，作者的方法始终优于竞争方法，在OOD泛化方面表现出色。此外，作者基于知识驱动的生成和排序技术相较于直接使用LMM进行生成和排序的变体，展现出优越性，这为其他领域的应用提供了有价值的见解。

CVPR 2025 | 知识桥接器：迈向免训练的缺失模态补全

不完全多模态图像分割是医学成像中的一项基础任务，旨在仅部分模态可用时提高部署效率。然而，模型训练期间能获取完整模态数据这一常见做法与现实相差甚远，因为在临床场景中，各模态的缺失率可能不均衡。在本文中，作者首次阐述了这一具有挑战性的场景，并提出了偏好感知自蒸馏（PASSION）方法，用于在不均衡缺失率下进行不完全多模态医学图像分割。具体而言，作者首先构建了像素级和语义级自蒸馏，以平衡各模态的优化目标。然后，定义相对偏好来评估训练过程中各模态的主导地位，并据此设计任务级和梯度级正则化，以平衡不同模态的收敛速度。在两个公开的多模态数据集上的实验结果表明，PASSION在模态平衡方面优于现有方法。更重要的是，PASSION被验证可作为即插即用模块，在不同骨干网络上持续提升性能。

医图论文 ACM MM&#39;24 | PASSION：用于不均衡缺失率下有效不完全多模态医学图像分割的方法

在这篇文章中，演示了如何使用计算机视觉创建一个应用程序，用于从语音命令中检测物体，估算物体的大致距离，并利用位置信息改善盲人的生活。这个项目的主要目标是处理实时数据，类似于Meta和Envision等可穿戴技术，以增强用户的生活和改善他们的日常体验。

检测物体+估计距离和方向 | 附源码

然而，由于存在诸如多变的户外光照、与周围树冠相似的颜色、成像距离以及自然环境中的遮挡等干扰因素，开发可靠的视觉方法来识别不同成熟度的蓝莓果实仍然是一项严峻的挑战。

YOLO-BLBE：一种新方法识别不同成熟度蓝莓果实的新型模型

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了深度学习和计算机视觉专栏，为你提供了深度学习和计算机视觉的相关文章，致力于帮助开发者快速成长与发展。

深度学习和计算机视觉

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐