首页
学习
活动
专区
工具
TVP
发布

前行的CVer

专栏成员
87
文章
50663
阅读量
17
订阅数
Vision Transformer
从ViT开始,Transformer在视觉领域得到应用。为了降低Transformer中softmax attention操作的计算量和显存,Sparse Global Attention被提出和使用,例如在PVT和PVT v2中。另一种策略是Window attention,如Swin Transformer提出一种Shifted Window方法让ViT具有多尺度的能力,并且降低计算量,能接受大分辨率的图片;Cross-Shaped Window attention则有一半的head分别进行纵向和横向的窗口attention;ViTdet则提出一种local attention+global attention的方法解决该问题。还有一种策略是Linear Attention。
孔西皮
2024-10-01
530
LLM评测
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
孔西皮
2024-08-05
1610
Vary-toy—年轻人的第一个多模大模型
在上一篇工作 Vary 中,我们第一次提出了CLIP视觉词表在密集感知能力上的不足,并给出了一种简单有效的扩充词表方案。Vary发布后得到了不少朋友的关注(目前已1.2k+ star),但也有不少人因为资源受限运行不了。
孔西皮
2024-06-25
1330
Vary—提升LVLM的dense和细粒度视觉感知能力
论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models 项目主页:https://varybase.github.io/
孔西皮
2024-06-25
1150
大模型Agent
PanelGPT💡: 💁🏼🎤 (👾💬) (🤖💭) (🤯🗯) 受到“三个臭皮匠,赛过诸葛亮”启发,设计one-shot的例子,让多个LLM同时给出答案,然后再用一个LLM打分,做决定。他们使用的prompt:3 experts are discussing the question with a panel discussion, trying to solve it step by step, and make sure the result is correct and avoid penalty:,这个prompt的效果要优于Let's think step by step:。
孔西皮
2024-05-15
1420
硬件
电机驱动电路 单片机引脚输出的电流最大为20mA左右,远远不能满足电机的电流需求,因此需要电机驱动电路。常用的驱动电路有H桥电路,它比较复杂和庞大,一般用于控制几十安的电机。对于较小电流电机,可以直接选择集成芯片,如RZ7899,一个芯片可以驱动一个电机,需要注意的参数为工作电压、输出最大电流。绘制原理图时,参考芯片手册中提供的应用电路进行绘制。单片机引脚连接芯片的中间可以放一个300欧的电阻,起到保护单片机和芯片的作用。芯片输入引脚接10k的下拉电阻到GND,让芯片不接单片机时不受外来信号的影响,即默认输入LL让电机处于浮空状态。电机正负极两端接一个104电容,避免火花。
孔西皮
2024-05-15
990
让VLM知之为知之,不知为不知——以chart2json任务为例
论文:OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 主页及demo:https://onechartt.github.io/
孔西皮
2024-04-26
1380
VLM常见的数据集和Benchmark
本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。
孔西皮
2024-03-13
7450
单目标跟踪SOT常用评价指标
以上评估方式一般都是用ground-truth中目标的位置初始化第一帧,然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这种方法有2个缺点。一是一个跟踪算法可能对第一帧给定的初始位置比较敏感,在不同位置或者帧初始会造成比较大的影响。二是大多数算法遇到跟踪失败后没有重新初始化的机制。
孔西皮
2024-02-19
4740
python小抄
os.path.getctime():获取文件创建(create)时间 os.path.getatime():获取文件最近访问(access)时间 os.path.getmtime():获取文件最近修改(modify)时间
孔西皮
2024-02-07
1260
AAAI 2023实用AI挑战赛冠军方案分享
2023年1月,AAAI 2023 实用AI挑战赛落下帷幕。我所在的team_kppkkp队获得总榜冠军。在此,分享一下我们队本次比赛的方案,抛砖引玉。
孔西皮
2023-10-18
4820
2022年MOT新SOTA
论文:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
孔西皮
2023-10-18
3720
2023年MOT中极简单的新SOTA
论文:(WACV 2023) Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier
孔西皮
2023-10-18
3420
DETR系列算法
Detection Transformer 是从2020年开始的一种全新的端到端的目标检测范式,图片通过CNN提取特征,然后将提取的特征展平输入transformer encoder-decoder,然后通过一系列查询,检测头输出每个查询的结果。查询的数量通常为100、300或900,远远少于之前的检测算法中的密集预测。
孔西皮
2023-10-18
5110
针对长尾分布的Eql损失
论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition
孔西皮
2023-10-18
5280
大一统目标跟踪
可以看到两个任务之间的gap还是比较大的,总结一下,阻碍SOT和MOT两个任务统一的主要有三座大山:
孔西皮
2023-10-18
3840
GPT系列产品驯服指南
随着ChatGPT的流行,不少人都有了用它来提高工作效率的需求。然而,不同的引导词(prompt)提示下,同一模型的输出结果可能大相径庭,好的prompt能释放模型的潜力,得到更有用的输出。本博文提供了一些使用的技巧和常用的prompt示例,本文持续更新……希望大家多多尝试,在评论区踊跃交流经验~
孔西皮
2023-10-18
2280
台式机+轻薄本:AI从业者的最佳设备配置指南
作为一名AI从业者,你选购电脑是否有过这样的苦恼:轻薄本便携 续航久,但GPU和散热弱;游戏本GPU比较强,但比较重、续航短;台式机高配置、硬盘空间大,但不能带出门;商业的GPU服务器租赁要不就是使用有要求,要不就是贵的离谱,还要担心商家提桶跑路 or 涨价 or 欠费停机数据被删。作为一个成熟但财力有限的开发者,想全都要,比较好的一种方式是买轻薄本+台式机。但拥有多台设备后,依然存在一些痛点问题,比如资料分散在两台电脑、出门在外依然难以查看实验结果。本文博主以自身经验为例,给出轻薄本+ubuntu台式机+frp ssh的配置指南,供大家选择性参考。
孔西皮
2023-10-18
7200
VAE介绍
VAE,即变分自编码器,是常见的生成模型其中一类。常见的生成模型类型还有GAN、flow、DDPM等。
孔西皮
2023-10-18
4840
CMake
孔西皮
2023-10-18
1600
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档