学生

前行的CVer

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

从ViT开始，Transformer在视觉领域得到应用。为了降低Transformer中softmax attention操作的计算量和显存，Sparse Global Attention被提出和使用，例如在PVT和PVT v2中。另一种策略是Window attention，如Swin Transformer提出一种Shifted Window方法让ViT具有多尺度的能力，并且降低计算量，能接受大分辨率的图片；Cross-Shaped Window attention则有一半的head分别进行纵向和横向的窗口attention；ViTdet则提出一种local attention+global attention的方法解决该问题。还有一种策略是Linear Attention。

Vision Transformer

当前开源大模型中，Mixtral-8x22B-Instruct-v0.1在 MT-Bench（多轮会话&指令遵循）、MMLU（信息知识）中表现基本持平头部开源模型，并比GPT3.5略好，但在TruthfulQA（客观事实）上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。
 但通过Mixtral Demo体验，其支持语言主要为欧洲语系，且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。

LLM评测

在上一篇工作 Vary 中，我们第一次提出了CLIP视觉词表在密集感知能力上的不足，并给出了一种简单有效的扩充词表方案。Vary发布后得到了不少朋友的关注（目前已1.2k+ star），但也有不少人因为资源受限运行不了。

Vary-toy—年轻人的第一个多模大模型

论文：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
 项目主页：https://varybase.github.io/

Vary—提升LVLM的dense和细粒度视觉感知能力

PanelGPT💡: 💁🏼🎤 (👾💬) (🤖💭) (🤯🗯) 受到“三个臭皮匠，赛过诸葛亮”启发，设计one-shot的例子，让多个LLM同时给出答案，然后再用一个LLM打分，做决定。他们使用的prompt：3 experts are discussing the question with a panel discussion, trying to solve it step by step, and make sure the result is correct and avoid penalty:，这个prompt的效果要优于Let's think step by step:。

大模型Agent

电机驱动电路
 单片机引脚输出的电流最大为20mA左右，远远不能满足电机的电流需求，因此需要电机驱动电路。常用的驱动电路有H桥电路，它比较复杂和庞大，一般用于控制几十安的电机。对于较小电流电机，可以直接选择集成芯片，如RZ7899，一个芯片可以驱动一个电机，需要注意的参数为工作电压、输出最大电流。绘制原理图时，参考芯片手册中提供的应用电路进行绘制。单片机引脚连接芯片的中间可以放一个300欧的电阻，起到保护单片机和芯片的作用。芯片输入引脚接10k的下拉电阻到GND，让芯片不接单片机时不受外来信号的影响，即默认输入LL让电机处于浮空状态。电机正负极两端接一个104电容，避免火花。

硬件

论文：OneChart: Purify the Chart Structural Extraction via One Auxiliary Token
 主页及demo：https://onechartt.github.io/

让VLM知之为知之，不知为不知——以chart2json任务为例

本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍，以方便读友看论文时参考。

VLM常见的数据集和Benchmark

以上评估方式一般都是用ground-truth中目标的位置初始化第一帧，然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这种方法有2个缺点。一是一个跟踪算法可能对第一帧给定的初始位置比较敏感，在不同位置或者帧初始会造成比较大的影响。二是大多数算法遇到跟踪失败后没有重新初始化的机制。

单目标跟踪SOT常用评价指标

os.path.getctime()：获取文件创建（create）时间
 os.path.getatime()：获取文件最近访问（access）时间
 os.path.getmtime()：获取文件最近修改（modify）时间

python小抄

2023年1月，AAAI 2023 实用AI挑战赛落下帷幕。我所在的team_kppkkp队获得总榜冠军。在此，分享一下我们队本次比赛的方案，抛砖引玉。

AAAI 2023实用AI挑战赛冠军方案分享

论文：BoT-SORT: Robust Associations Multi-Pedestrian Tracking

2022年MOT新SOTA

论文：(WACV 2023) Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier 

2023年MOT中极简单的新SOTA

Detection Transformer 是从2020年开始的一种全新的端到端的目标检测范式，图片通过CNN提取特征，然后将提取的特征展平输入transformer encoder-decoder，然后通过一系列查询，检测头输出每个查询的结果。查询的数量通常为100、300或900，远远少于之前的检测算法中的密集预测。

DETR系列算法

论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition

针对长尾分布的Eql损失

可以看到两个任务之间的gap还是比较大的，总结一下，阻碍SOT和MOT两个任务统一的主要有三座大山：

大一统目标跟踪

随着ChatGPT的流行，不少人都有了用它来提高工作效率的需求。然而，不同的引导词（prompt）提示下，同一模型的输出结果可能大相径庭，好的prompt能释放模型的潜力，得到更有用的输出。本博文提供了一些使用的技巧和常用的prompt示例，本文持续更新……希望大家多多尝试，在评论区踊跃交流经验~

GPT系列产品驯服指南

作为一名AI从业者，你选购电脑是否有过这样的苦恼：轻薄本便携 续航久，但GPU和散热弱；游戏本GPU比较强，但比较重、续航短；台式机高配置、硬盘空间大，但不能带出门；商业的GPU服务器租赁要不就是使用有要求，要不就是贵的离谱，还要担心商家提桶跑路 or 涨价 or 欠费停机数据被删。作为一个成熟但财力有限的开发者，想全都要，比较好的一种方式是买轻薄本+台式机。但拥有多台设备后，依然存在一些痛点问题，比如资料分散在两台电脑、出门在外依然难以查看实验结果。本文博主以自身经验为例，给出轻薄本+ubuntu台式机+frp ssh的配置指南，供大家选择性参考。

台式机+轻薄本：AI从业者的最佳设备配置指南

VAE，即变分自编码器，是常见的生成模型其中一类。常见的生成模型类型还有GAN、flow、DDPM等。

VAE介绍

CMake

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了前行的CVer专栏，为你提供了前行的CVer的相关文章，致力于帮助开发者快速成长与发展。

前行的CVer

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐