开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

随机或成比例地向NAs分配分类值

是指在数据处理过程中，针对缺失值（NA）所处的分类变量，根据一定的规则将分类值分配给这些缺失值。

分类变量是指变量的取值是离散的、具有类别或标签属性的变量，例如性别（男、女）、地区（华东、华南、华北）等。在实际数据中，由于各种原因（如人为录入错误、设备故障等），会产生缺失值，即某些观测样本的该变量取值未知。

为了保证数据的完整性和准确性，在进行数据分析或建模前，需要对缺失值进行处理。随机或成比例地向NAs分配分类值是一种常见的处理方法，具体步骤如下：

随机分配分类值：根据分类变量的取值范围，对缺失值进行随机分配。例如，对于性别这个分类变量，可以随机分配男或女的值给缺失值。
成比例分配分类值：根据已知数据的分类值的比例，对缺失值进行成比例分配。例如，对于地区这个分类变量，已知华东地区的样本占总样本的30%，华南地区的样本占总样本的40%，华北地区的样本占总样本的30%，则可以按照这个比例对缺失值进行分配。

通过随机或成比例地向NAs分配分类值，可以在一定程度上减少数据处理过程中缺失值对结果的影响，保持数据的完整性和一致性。

腾讯云提供了一系列相关产品和服务，以帮助用户处理和管理数据，包括数据库、云原生、人工智能等领域的解决方案。具体推荐的产品和产品介绍链接如下：

云数据库 TencentDB：提供多种数据库类型和规格，支持高可用、高性能的数据库服务。详情请参考腾讯云数据库产品介绍
云原生解决方案：提供容器、微服务、DevOps等云原生技术和工具，帮助用户构建和管理云原生应用。详情请参考腾讯云云原生解决方案
人工智能服务 Tencent AI Lab：提供图像识别、语音识别、自然语言处理等人工智能相关的服务和API。详情请参考腾讯云人工智能服务

以上产品和服务可以在云计算领域的开发过程中，对数据处理和管理提供支持和解决方案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ARM-CPU150FPS | PicoDet助力移动端达到超实时检测（强烈建议工程人员学习）

目标检测被广泛应用于许多计算机视觉任务中，包括自主驾驶、机器人视觉、智能交通、工业质量检测、目标跟踪等。

03

SAP CO主数据介绍-统计指标（组）

用于反映一些适用于成本中心、内部订单等的指标值，例如用电量。其作用主要是将辅助性成本中心费用通过指标分配到相应的承担部门，能更清楚反映各部门实际费用情况。例如：

03

自动模型压缩与架构搜索，这是飞桨PaddleSlim最全的解读

近年来，深度学习技术在很多方向都取得了巨大的成功，但由于深度神经网络计算复杂度高，模型参数量大，限制了其在一些场景和设备上进行部署，特别是在移动嵌入式设备的部署。因此，模型小型化技术成为最近几年学术界和工业界研究的热点，模型小型化技术也从最开始的网络剪枝、知识蒸馏、参数量化等发展为最新的神经网络架构搜索（NAS）和自动模型压缩等技术。

01

自动模型压缩与架构搜索，这是飞桨PaddleSlim最全的解读

近年来，深度学习技术在很多方向都取得了巨大的成功，但由于深度神经网络计算复杂度高，模型参数量大，限制了其在一些场景和设备上进行部署，特别是在移动嵌入式设备的部署。因此，模型小型化技术成为最近几年学术界和工业界研究的热点，模型小型化技术也从最开始的网络剪枝、知识蒸馏、参数量化等发展为最新的神经网络架构搜索（NAS）和自动模型压缩等技术。

02

再改YOLO | YOLO-ReT让边缘端也可以实时检测

目标检测模型的性能在模型精度和效率两个主要方面得到了快速的发展。然而，为了将基于深度神经网络(DNN)的目标检测模型部署到边缘设备，通常需要对模型进行比较大的压缩，但是与之而来的也降低了模型的准确性。

03

神经架构搜索研究指南，只看这一篇就够了

导读：从训练到用不同的参数做实验，设计神经网络的过程是劳力密集型的，非常具有挑战性，而且常常很麻烦。但是想象一下，如果能够将这个过程实现自动化呢？将这种想象转变为现实，就是本指南的核心内容。我们将探索一系列的研究论文，这些论文试图解决具有挑战性的自动化神经网络设计任务。在本指南中，我们假设读者尝试过使用 Keras 或 TensorFlow 等框架从头开始设计神经网络。

01

另一种可微架构搜索：商汤提出在反传中学习架构参数的SNAS

作者：Sirui Xie、Hehui Zheng、Chunxiao Liu、Liang Lin

04

NAS的挑战和解决方案—一份全面的综述

【导读】上一篇中，笔者翻译了国外一篇介绍Automl和NAS的博客，点这里回顾。这一篇是笔者对《A Comprehensive Survey of Nerual Architecture Search: Challenges and Solutions》这篇论文进行翻译和解读，这是2020年刚刚发到arxiv上的有关NAS的综述，内容比较多，30页152篇参考文献。对初学者来说，可以当作一个学习的目录，阅读文中提到的论文。文末用思维导图总结了整篇文章脉络，可以用来速览。

02

港中文、MIT 联合工作：利用NAS搜索针对对抗攻击的鲁棒神经网络结构

本文解读的是 CVPR 2020 论文《When NAS Meets Robustness: In Search of Robust Architectures against Adversarial Attacks》，作者来自香港中文大学、MIT。

01

告别深度学习炼丹术！谷歌大脑提出“权重无关”神经网络

前不久，新智元报道了谷歌给出首个神经网络训练理论的证明。这一研究在训练深度神经网络被戏谑为 “调参炼丹” 的当下，犹如一道希望的强光，射进还被排除在 “科学” 之外的深度学习领域，激动人心。

05

告别深度学习炼丹术！谷歌大脑提出“权重无关”神经网络

前不久，我们报道了谷歌给出首个神经网络训练理论的证明。这一研究在训练深度神经网络被戏谑为 “调参炼丹” 的当下，犹如一道希望的强光，射进还被排除在 “科学” 之外的深度学习领域，激动人心。

03

卷爆了 | 看SPViT把Transformer结构剪成ResNet结构！！！

Vision Transformers吸引了大量的研究，并成为各种图像识别任务的Backbone之一，如分类、分割和检测。

05

【干货】Elasticsearch的索引性能优化（3）

本文是Elasticsearch索引优化系列的第三篇，此前已发布第一篇和第二篇。本系列教程主要目的是通过对Elasticsearch配置进行调优来提升索引性能，并降低监控和管理压力。本文翻译自QBox官方博客，版权归原作者Adam Vanderbush所有。

03

【干货】Elasticsearch的索引性能优化（3）

本文是Elasticsearch索引优化系列的第三篇，此前已发布第一篇和第二篇。本系列教程主要目的是通过对Elasticsearch配置进行调优来提升索引性能，并降低监控和管理压力。本文翻译自QBox官方博客，版权归原作者Adam Vanderbush所有。

02

深度学习算法地图

本文是机器学习算法地图的下篇，系统地整理了深度学习算法，整张图的设计风格与机器学习算法地图保持一致。从去年底就开始酝酿深度学习算法地图，然而工程浩大。这张图是SIGAI算法工程师集体智慧的结晶，也是在研发SIGAI核心产品-简单易用的机器学习框架过程中的副产品。由于深度学习的算法变种太多，而且处于高速发展期，因此难免会有疏漏，后续版本将不断完善与优化。

04

【CNN调参】目标检测算法优化技巧

目标检测模型相比于分类模型的研究相比，更缺少普遍性，并且网络结构和优化目标更加复杂。

03

CVPR2021性能提升：Facebook提出FP-NAS——搜索速度更快、分类精度更高、性能更好

就职于 Facebook AI 的严志程博士和他的同事最近在 CVPR 2021 发表了关于加速概率性神经架构搜索的最新工作。该工作提出了一种新的自适应架构分布熵的架构采样方法来显著加速搜索。同时，为了进一步加速在多变量空间中的搜索，他们通过在搜索初期使用分解的概率分布来极大减少架构搜索参数。结合上述两种技巧，严志程团队提出的搜索方法 FP-NAS 比 PARSEC [1] 快 2.1 倍，比 FBNetV2 [2] 快 1.9-3.5 倍，比 EfficientNet [3] 快 132 倍以上。FP-NAS 可以被用于直接搜索更大的模型。搜索得到 FP-NAS-L2 模型复杂度达到 1.0G FLOPS，在只采用简单知识蒸馏的情况下，FP-NAS-L2 能够比采用更复杂的就地蒸馏的 BigNAS-XL [4]模型，提高 0.7% 分类精度。

01

CVPR 2021 | Facebook提出FP-NAS：搜索速度更快、分类精度更高、性能更好

机器之心发布作者：严志程来自 Facebook AI 的严志程团队发表一种新的神经架构的快速搜索算法。该算法采用自适应架构概率分布熵的架构采样，能够减少采样样本达 60%，加速搜索快 1.8 倍。此外，该算法还包括一种新的基于分解概率分布的由粗到细的搜索策略，进一步加速搜索快达 1.2 倍。该算法搜索性能优于 BigNAS、EfficientNet 和 FBNetV2 等算法。就职于 Facebook AI 的严志程博士和他的同事最近在 CVPR 2021 发表了关于加速概率性神经架构搜索的最新工作。

01

CVPR | Facebook提出FP-NAS：搜索速度更快、分类精度更高、性能更好

计算机视觉研究院专栏作者：Edison_G 来自 Facebook AI 的严志程团队发表一种新的神经架构的快速搜索算法。该算法采用自适应架构概率分布熵的架构采样，能够减少采样样本达 60%，加速搜索快 1.8 倍。此外，该算法还包括一种新的基于分解概率分布的由粗到细的搜索策略，进一步加速搜索快达 1.2 倍。该算法搜索性能优于 BigNAS、EfficientNet 和 FBNetV2 等算法。长按扫描二维码关注我们本篇文章转自于“机器之心” 就职于 Facebook AI 的严志程博士和他的同

02

万字解读商汤科技ICLR2019论文：随机神经网络结构搜索

本文作者对NAS任务中强化学习的效率进行了深入思考，从理论上给出了NAS中强化学习收敛慢的原因。该论文提出了一种全新的经济、高效且自动化程度高的神经网络结构搜索（NAS）方法。他们通过深入分析NAS任务的MDP，提出了一个更高效的方法——随机神经网络结构搜索，重新建模了NAS问题。与基于强化学习的方法（ENAS）相比，SNAS的搜索优化可微分，搜索效率更高。与其他可微分的方法（DARTS）相比，SNAS直接优化NAS任务的目标函数，搜索结果偏差更小。此外，基于SNAS保持了随机性（stochasticity）的优势，该论文进一步提出同时优化网络损失函数的期望和网络正向时延的期望，自动生成硬件友好的稀疏网络。

05

SAP 成本中心费用分摊操作笔记

说明：也可以用KSV5进入到执行分配的界面（分配分摊一般在后台搭建），通过附加-循环-创建

02

[ILSVRC] 基于OverFeat的图像分类、定位、检测引言相关理论计算机视觉三大任务Alexnet图片分类回顾基础学习OverFeat图片分类定位任务检测总结Reference

引言对于分类问题而言，一个常用的增加训练样本的方法是将训练样本随机移动一个小的位移，或者，等价的，在图像中随机取一些大的图像块。然后以这些图像块为输入训练分类模型。在测试阶段，可以采用滑窗的方法对每一个图像块进行分类，然后组合这些分类结果，得到一个置信度更高的类别标签。这种技巧被广泛运用于机器学习算法中，例如：瑞士一个研究组的文章：Multi-column Deep Neural Networks for Image Classiﬁcation. CVPR2012. 　　对于检测和定位问题，最自然（也是

06

3分钟速读原著《高性能MySQL》(三)

第八章优化服务器设置一.MySQL配置的工作原理 1.查找配置文件在类 UNIX 系统中，配置文件的位置一般在 /etc/my.conf 或者 /etc/mysql/my.conf 中 2.配置语法配置项设置都使用小写，单词之间用下划线或横线隔开 3.配置文件示例 [mysqld] #GENERAl datadir=/var/lib/mysql socket=/var/lib/mysql/mysql.sock pid_file=/var/lib/mysql/mysql.pid user=mysq

02

Facebook最新力作FBNetV3来了！相比ResNeSt提速5倍，精度不输EfficientNet

FBNetV2: https://arxiv.org/abs/2004.05565

02

腾讯提超强少样本目标检测算法，公开1000类检测训练集FSOD | CVPR 2020

不同于正常的目标检测任务，few-show目标检测任务需要通过几张新目标类别的图片在测试集中找出所有对应的前景。为了处理好这个任务，论文主要有两个贡献：

02

SAP 中各种分摊分配方法

SAP中成本可以在成本中心、订单、CO-PA间分配分摊。常见的分配分摊方法有：简单分配；基于指标分配；简单分摊；基于指标分摊；基于作业的分摊。一、简单分配。ksv1创建分配。将初级成本要素分配到相应成本中心二、基于指标的分配。 1、kk01创建统计指标。（关于统计指标的含义后续介绍）

02

SAP 中各种分摊分配方法

SAP中成本可以在成本中心、订单、CO-PA间分配分摊。常见的分配分摊方法有：简单分配；基于指标分配；简单分摊；基于指标分摊；基于作业的分摊。一、简单分配。ksv1创建分配。将初级成本要素分配到相应成本中心二、基于指标的分配。 1、kk01创建统计指标。（关于统计指标的含义后续介绍）

02

李飞飞等人提出Auto-DeepLab：自动搜索图像语义分割架构

近日，斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab，其在图像语义分割问题上超越了很多业内最佳模型，甚至可以在未经过预训练的情况下达到预训练模型的表现。Auto-DeepLab 开发出与分层架构搜索空间完全匹配的离散架构的连续松弛，显著提高架构搜索的效率，降低算力需求。

02

来自谷歌大脑的SpineNet：一种非常规的主干结构

由于编码器部分的解码器结构的分辨率不断降低，分类问题得到了很好的解决。然而，这种架构不能有效地生成用于目标检测(同时识别和定位)所需的强多尺度特征。

01

谷歌大脑新技术——多尺度特征金字塔结构用于目标检测

当前最先进的目标检测卷积结构是手动设计的。在这里，我们的目标是学习一个更好的特征金字塔网络结构的目标检测。

02

Mini but Mighty | 简直就是微调ViT神器，有了Mimi微调方法，别的不用选了！又稳又快！

在深度学习中，视觉Transformer（ViTs）已成为一种主流的卷积神经网络架构，被广泛应用于计算机视觉领域。预训练的ViT模型通常通过finetuning适应到新的任务，但是fine-tuning需要消耗大量的计算和内存资源。为了减少fine-tuning所需的资源和时间，许多参数高效的迁移学习方法被提出，例如Adapter（adapters）。

01

分析粪便微生物移植后患者高通量单分子实时测序数据的工作流程

有许多基于测序的方法来了解复杂宏基因组，从全样本鸟枪法测序到靶向扩增。虽然靶向方法在低测序深度提供有价值的数据，但它们受引物设计和PCR限制。全样本鸟枪法通常使用短读长测序，这导致数据处理困难。例如，长度小于500bp的读数很少覆盖完整的感兴趣的基因或区域，所以将需要组装。这不仅引入了来自不同社区成员的序列不正确地拼接的可能性，还需要高覆盖深度。因此，罕见的社区成员可能不会在结果集合中被表示。、

01

机器学习-07-分类回归和聚类算法评估函数

本系列是机器学习课程的系列课程，主要介绍机器学习中分类回归和聚类算法中的评价函数。

01

70页论文，图灵奖得主Yoshua Bengio一作：「生成流网络」拓展深度学习领域

机器之心报道编辑：杜伟、陈萍 GFlowNet 会成为新的深度学习技术吗？近日，一篇名为《GFlowNet Foundations》的论文引发了人们的关注，这是一篇图灵奖得主 Yoshua Bengio 一作的新研究，论文长达 70 页。在 Geoffrey Hinton 的「胶囊网络」之后，深度学习的另一个巨头 Bengio 也对 AI 领域未来的方向提出了自己的想法。在该研究中，作者提出了名为「生成流网络」（Generative Flow Networks，GFlowNets）的重要概念。 G

00

语义分割领域开山之作：Google提出用神经网络搜索实现语义分割

AI 科技评论按：本文作者陈泰红，邮箱 ahong007@yeah.net，他为 AI 科技评论撰写了 Google 利用神经网络搜索实现语义分割的独家解读。

01

真正的神经网络，敢于不学习权重

昨天，谷歌大脑 David Ha 等人一篇名为《Weight Agnostic Neural Networks》的论文引爆了机器学习圈。其「颠覆性」的理论让人惊呼：「到头来我们对神经网络一无所知？」

02

NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理，精度却超越ResNet50！！！

在中小型网络架构上，ViT的性能仍低于CNN，特别是与经过神经架构搜索(NAS)高度优化的CNN架构，如AlphaNet, FBNetV3等相比。

02

最先进的图像分类算法：FixEfficientNet-L2

FixEfficientNet 是一种结合了两种现有技术的技术：来自 Facebook AI 团队的 FixRes [2] 以及由 Google AI 研究团队首先提出的EfficientNet [3]。FixRes 是 Fix Resolution 的缩写形式，它尝试为用于训练时间的 RoC（分类区域）或用于测试时间的裁剪保持固定大小。EfficientNet 是 CNN 尺度的复合缩放，可提高准确性和效率。本文旨在解释这两种技术及其最新技术。

02

人际协调增强了脑间同步性并影响社会合作中的责任归因和奖励分配

在社会合作过程中，资源的公平分配是影响个人利益和群体和谐的关键。不同的分配规则，比如公平和平等原则，已经在奖励分配研究中得到了广泛的讨论，然而个人的合作方式，如人际协调，是否影响其后续的责任归因和奖励分配尚不清楚。在这里，46对双人进行了一项时间估计任务，分为合作（协同组）和单独（对照组）两种操作，同时使用功能性近红外进行超扫描。与对照组相比，协调组的背侧前额叶皮层（DLPFC）表现出更高的行为同步性和更高的人际脑同步性（IBS）。他们还表现出了对任务结果的责任归因的更平等的倾向。更重要的是，在背内侧前额叶皮层（DMPFC）IBS较高的协调组更倾向于进行平等的奖赏分配，且受责任归因中介，我们的研究结果阐明了人际协调对奖励分配的影响，以及前额叶皮层的关键作用。

03

详细解读 | CVPR 2021轻量化目标检测模型MobileDets（附论文下载）

构建在深度卷积上的Inverted bottleneck layers已经成为移动设备上最先进目标检测模型的主要构建模块。在这项工作中，作者通过回顾常规卷积的实用性，研究了这种设计模式在广泛的移动加速器上的最优性。

04

旷视张祥雨：神经网络架构设计新思路

深度学习模型在很多任务上都取得了不错的效果，但调参却是一项非常痛苦的事情，大量的超参数和网络结构参数会产生爆炸性的组合。因此最近几年神经网络的架构搜索和超参数优化成为一个研究热点。此外，对于架构设计新方法、新机制的探索，也是当下深度学习研究与落地的重点课题之一。

02

AutoFormer: Searching Transformers for Visual Recognition

最近，基于Transformers的模型在图像分类和检测等视觉任务中显示出了巨大的潜力。然而，变压器网络的设计是具有挑战性的。已经观察到，深度、嵌入尺寸和头部的数量在很大程度上影响视觉变形器的性能。以前的模型基于手工手工配置这些维度。在这项工作中，我们提出了一个新的一次性架构搜索框架，即AutoFormer，专门用于视觉Transformers搜索。在超网训练期间，自动前缠绕不同块的重量在同一层。受益于该战略，训练有素的超级网络允许数千个子网得到非常好的训练。具体来说，这些继承自超级网络权重的子网的性能与那些从头开始重新训练的子网相当。此外，搜索模型，我们参考的AutoFormers，超过了最近的先进水平，如ViT和DeiT。特别是AutoFormer-tiny/small/base在ImageNet上实现了74.7%/81.7%/82.4%的top-1精度，分别为5.7M/22.9M/53.7M参数。最后，我们通过提供下游基准和蒸馏实验的性能来验证自动成形机的可移植性。

03

3万字详细解析清华大学最新综述工作：大模型高效推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因，即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后，引入了一个全面的分类法，将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外，本文还对关键子领域的代表性方法进行了对比实验，以及分析并给出一定的见解。最后，对相关工作进行总结，并对未来的研究方向进行了讨论。

01

Dynamic Cloud Resource Allocation Considering Demand Uncertainty

本文提出了一种混合方法来为基于云的网络应用分配云资源。结合了按需分配和预付费资源的有点，实现了混合的解决方案来最小化总部署费用的同时，满足流量变化下的QoS。

02

目标检测算法综述之FPN优化篇

目标检测（Object Detection）的任务是找出图像或视频中的感兴趣目标，同时实现输出检测目标的位置和类别信息，是计算机视觉领域的核心问题之一。随着2012年ImageNet兴起的CNN，目标测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。在网络结构的设计上，从 two stage 到 one stage，从 bottom-up only 到 Top-Down，从 single scale network 到 feature pyramid network，各路大仙在backbone和特征提取、损失函数、NMS[1]、Anchor生成（free or no free）、IoU设计等各个环节分析短板，不断提高目标检测的性能。

02

人工智能凭借什么过关斩将？| 机器学习算法大解析

本篇是人工智能专辑文章的第二篇，为大家归类总结人工智能的三类工作方式、九大算法及五大应用系统。

04

CVPR 2020丨基于记忆增强的全局-局部整合网络：更准确的视频物体检测方法

终于把这篇NAS最新的综述整理的survey放了上来，文件比较大，内容比较多。这个NAS的survey是A Comprehensive Survey of Neural Architecture Search: Challenges and Solutions的写作过程中的整理的原材料，文章目前孩还在审稿阶段可以预览。

03

深入机器学习系列之分词和HMM

中文分词算法是指将一个汉字序列切分成一个一个单独的词，与英文以空格作为天然的分隔符不同，中文字符在语义识别时，需要把数个字符组合成词，才能表达出真正的含义。分词算法是文本挖掘的基础，通常应用于自然语言处理、搜索引擎、智能推荐等领域。

01

中本聪有一百万个比特币吗？

在 2013 年 4 月初，区块链研究员塞尔吉奥·德米安·勒纳试图争辩说，中本聪在 2009 年开采了一百万个比特币。这个断言背后的逻辑是基于 2009 年的哈希值一直处于低水平，大约每秒 700 万，这相当于仅一个矿工的垄断水平。与此同时，这个哈希值大约与比特币刚上线前 14 天的哈希值相同，塞尔吉奥认为这短时期整个网络只有中本聪一个矿工。社区中的许多人对塞尔吉奥的说法持怀疑态度。其持怀疑态度的主要原因基于以下几点：

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭