首页
学习
活动
专区
工具
TVP
发布

arXiv每日学术速递

专栏成员
542
文章
416698
阅读量
61
订阅数
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
基于视觉的路侧3D目标检测在自动驾驶领域引起了越来越多的关注,因其在减少盲点和扩大感知范围方面具有不可忽略的优势。而先前的工作主要集中在准确估计2D到3D映射的深度或高度,忽略了体素化过程中的位置近似误差。受此启发,我们提出了一种新的体素化策略来减少这种误差,称为BEVSpread。具体而言,BEVSpread不是将包含在截头体点中的图像特征带到单个BEV网格,而是将每个截头体点作为源,并使用自适应权重将图像特征扩展到周围的BEV网格。为了实现更好的特征传递性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。在定制的CUDA并行加速的帮助下,BEVSpread实现了与原始体素化相当的推理时间。在两个大型路侧基准上进行的大量实验表明,作为一种插件,BEVSpread可以显著提高现有基于frustum的BEV方法。在车辆、行人和骑行人几类中,提升幅度为(1.12,5.26,3.01)AP。
公众号-arXiv每日学术速递
2024-06-28
1120
又双叒导了?中科院等发布「近室温常压」超导新论文,相关话题一度知乎热榜第一
中科院、华科大、北科大、华南理工等机构的“知乎导派”大佬们(网名“真可爱呆”、“洗芝溪”等)又联合发布了最新研究成果。
公众号-arXiv每日学术速递
2024-06-28
1390
韩国“御龙术”?全新飞天骨骼系统突破传统飞行器局限
这就是空中骨骼系统的基本概念。它结合了多旋翼技术和机械臂的优点,创造出一种前所未有的飞行形态。
公众号-arXiv每日学术速递
2024-06-27
750
时延降低 50%,小红书图数据库如何实现多跳查询性能大幅提升
多跳查询为企业提供了深入的数据洞察和分析能力,它在小红书众多在线业务中扮演重要的角色。然而,这类查询往往很难满足稳定的 P99 时延要求。小红书基础架构存储团队针对这一挑战,基于大规模并行处理(MPP)的理念,开发了一种图数据库上的分布式并行查询框架,成功将多跳查询的时延降低了 50% 以上,尤其是使 3 跳查询在在线场景从不能用到落地,极大地增强了在线业务的数据处理能力。
公众号-arXiv每日学术速递
2024-06-27
870
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
大语言模型(LLM)为什么空间智能不足,GPT-4 为什么用语言以外的数据训练,就能变得更聪明?现在这些问题有 「标准答案」了。
公众号-arXiv每日学术速递
2024-06-26
1230
何凯明入职 MIT 首次带队提出Diffusion Loss,借鉴扩散模型思想让自回归模型抛弃矢量量化 !
自回归模型目前是自然语言处理中生成模型的实际解决方案。这些模型基于前面的词作为输入来预测序列中的下一个词或标记。由于语言的离散性质,这些模型的输入和输出处于分类的、离散值的空间。这种普遍的方法导致人们普遍认为自回归模型与离散表示固有地联系在一起。
公众号-arXiv每日学术速递
2024-06-25
2440
150克仿生爪负载4公斤!首尔大学无人机可“倒挂金钩”,45毫秒精准抓取
韩国首尔大学的科学家成功破解了这个难题,他们给无人机装上了一种仿生爪子,不仅解决了撞击问题,让无人机稳稳着陆,还让其具备了精准抓取的能力,在触碰到目标物的瞬间迅速抓握,仅需45毫秒!
公众号-arXiv每日学术速递
2024-06-25
1060
McEval:超大规模多语言代码评测
为了更加全面的探究大语言模型的代码能力,该工作提出了一个涵盖40种编程语言的大规模多语言多任务代码评测基准(McEval),包含了16000个测试样本。评测结果表明开源模型与GPT-4相比,在多语言的编程能力上仍然存在较大差距,绝大多数开源模型甚至无法超越GPT-3.5。此外测试也表明开源模型中如Codestral,DeepSeek-Coder, CodeQwen以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。
公众号-arXiv每日学术速递
2024-06-13
650
SEVENLLM | 网安事件分析大模型的训练与评测
网络威胁情报(Cyber Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 大语言模型)在安全事件分析和响应方面的能力的框架(SEVENLLM)。并通过收集网络安全网站的大量网络安全原始文本,构建了高质量双语多任务指令语料库SEVENLLM-Instruct,用于训练具备多任务学习目标(包括28个精心设计的任务)的网络安全LLMs。
公众号-arXiv每日学术速递
2024-05-31
2140
源2.0-M32大模型发布,MoE全新门控网络Attention Router值得关注
近期,一个新的MoE大模型“源2.0-M32”发布,它创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),大幅提升了模型算力效率。
公众号-arXiv每日学术速递
2024-05-31
1200
​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!
全景分割结合了语义分割和实例分割的任务[17]。对于一组“事物”类别,例如“汽车”,它提供了关于各个实例的信息,例如以带有类别标签的边界框和指示实例像素的二值 Mask 的形式。在实例分割中不属于“事物”实例的区域(实例分割中的“背景”)以类似于语义分割的方式分配到所谓的“物品”类别之一。对于这些类别(例如,“墙壁”),不决定实例的信息。
公众号-arXiv每日学术速递
2024-05-31
950
颠覆传统操控!解密美国东北大学机器蛇如何在复杂地形中灵活表现
在人们的印象中,大多数蛇形机器人似乎无法像许多轮式和腿式机器人那样抓取和操作物体。
公众号-arXiv每日学术速递
2024-05-31
1100
国防科大最新 | SceneTracker:在4D时空中追踪万物
在时间与空间组成的4D时空中,精确、在线地捕捉和分析长时且细粒度的物体运动,对机器人、自动驾驶、元宇宙、具身智能等领域更高水平的场景理解起到至关重要的作用。
公众号-arXiv每日学术速递
2024-05-21
940
智能计算加速搜索,中国天眼FAST寻获球状星团中迄今最长周期脉冲星
我们知道,球状星团是一种受引力束缚,成员由几万颗到数百万颗恒星组成的古老星团,在外观上大多呈球形,但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程,星族合成路径等是当今天文学界的研究热点。
公众号-arXiv每日学术速递
2024-05-11
1350
​端到端解决方案 Dr-SAM | 无需额外训练,助力血管造影图像分析与诊断 !
下肢和骨盆器官的血液供应在很大程度上依赖于肾下主动脉和骨盆动脉。这些血管的任何狭窄(狭窄)[19]或扩张(动脉瘤)都可能导致严重的健康问题。血管造影是一种使用X射线和对比剂的成像技术,用于精确诊断和治疗这些状况。这种成像技术在识别肾下主动脉和骨盆动脉的狭窄和动脉瘤方面特别有效。随着技术的发展和微创手术的引入,血管造影显著提高了血管疾病患者的治疗效果。随着AI技术的发展,血管造影图像得到了语义分析的机会,更有效地辅助医生进行诊断预测。
公众号-arXiv每日学术速递
2024-05-11
1470
打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !
近年来,自动视频理解的研究经历了多次范式转变。随着神经网络的兴起,最初的问题是如何设计一种架构来输入时空信号[49, 68]。鉴于有限的视频训练数据,焦点随后转向了从图像分类预训练借用参数初始化[7]。为了提供视频预训练,一项工作已经在标注视频分类数据集上做出了昂贵的努力[27]。
公众号-arXiv每日学术速递
2024-05-11
2120
瑜伽球上遛「狗」!入选英伟达十大项目之一的Eureka有了新突破
这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法,可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务,例如四足机器人平衡和在瑜伽球上行走,而无需迭代手动设计。
公众号-arXiv每日学术速递
2024-05-11
1100
突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?
比起当前的CPU、GPU、TPU、FPGA等数字处理器,这种全新的AI加速器快了数个数量级,而且更加节能。
公众号-arXiv每日学术速递
2024-04-30
1040
别骂了!翻看学术人设,发现我是「学术乌贼」,总给导师抹黑的那种...
师兄师姐,个个为我导喜添SCI,不像我,只要是一出去,参加学术会议露怯、论文答辩支支吾吾的.....多少都能给导师抹点黑,因此课题组里大家都连连赞同我的人设「学术乌贼」,鄙人不才
公众号-arXiv每日学术速递
2024-04-30
1480
斯坦福祭出 CU-Mamba | 不仅具有通道感知,更是将双状态空间模型(SSM)框架融入到U-Net
图像恢复是数字图像处理中的基本任务,旨在从各种退化(如噪声、模糊和雨迹)损害的图像中重建高质量图像。最近的进展凸显了卷积神经网络(CNNs)[1, 2, 3]和基于Transformer的模型[4, 5, 6, 7]在此领域的有效性。CNN利用层次结构,擅长捕捉图像内的空间层次。Transformer模型最初是为自然语言处理设计的,但已经显示出对视觉理解的积极成果,例如Vision Transformer[8]。Transformer模型采用自注意力机制,特别擅长建模长距离依赖。这两种方法在许多图像恢复任务中均取得了最先进的结果[9, 10, 11]。
公众号-arXiv每日学术速递
2024-04-25
4290
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档