Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何将熊猫get_dummies函数应用于有效数据集?

如何将熊猫get_dummies函数应用于有效数据集?
EN

Stack Overflow用户
提问于 2021-07-11 06:11:30
回答 1查看 84关注 0票数 0

我尝试将熊猫get_dummies函数应用到我的数据集中。问题是类别值的个数不匹配,列集和有效集不匹配。例如,火车组列有5种类型的值。例: 1,2,3,4,5,有效集只有3种值。例: 1,3,5

当我使用训练数据集建立模型时,有5个假人正在被创建。例: dum_1,dum_2,dum_3,dum_4,dum_5

因此,如果我只对有效数据集使用相同的函数,则只会创建3个虚拟数据集。例: dum_1,dum_2,dum_3

无法预测使用我的模型的有效数据集。如何为列车和有效集合制作相同的假人?(无法连接2数据集。除使用pd.concat外,请提出其他方法)

另外,如果我为有效集添加了新列,我希望它会产生不同的结果。因为虚拟序列在列车和有效集合之间不匹配。

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-11 09:30:56

你要做的就是

  1. 在验证数据集中创建列,这些列存在于培训数据中,但在验证数据中缺失。

代码语言:javascript
运行
AI代码解释
复制
missing_cols = [col for col in train.columns if col not in valid.columns]
for col in missing_cols:
    valid[col] = 0

  1. 现在,这些列是在最后创建的,因此将更改列的顺序。因此,在接下来的步骤中,我们将重新排列列如下:

代码语言:javascript
运行
AI代码解释
复制
valid = valid[[train.columns]]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68336993

复制
相关文章
如何将Python应用于数据科学工作
假设你想开发一个能够自动检测图片内容的程序。给出图1,你希望程序识别这是一只狗。
CDA数据分析师
2019/08/30
1.1K0
如何将Python应用于数据科学工作
将文本特征应用于客户流失数据集
在我的上一篇博客“什么是嵌入,你能用它做什么”中,我谈到了嵌入可以把高维、非结构化的数据转换成低维的数值表示,可以用在各种机器学习模型中。
磐创AI
2021/09/03
8950
如何将Apache Hudi应用于机器学习
如果要将AI嵌入到企业计算系统中,企业必须重新调整其机器学习(ML)开发流程以使得数据工程师、数据科学家和ML工程师可以在管道中自动化开发,集成,测试和部署。本博客介绍了与机器学习平台进行持续集成(CI),持续交付(CD)和持续培训(CT)的平台和方法,并详细介绍了如何通过特征存储(Feature Store)执行CI / CD机器学习操作(MLOps)。以及特征存储如何将整体的端到端ML管道重构为特征工程和模型训练管道。
ApacheHudi
2021/04/13
1.9K0
如何将 Transformer 应用于时间序列模型
在机器学习的广阔前景中,transformers 就像建筑奇迹一样高高耸立,以其复杂的设计和捕获复杂关系的能力重塑了我们处理和理解大量数据的方式。
数据科学工厂
2023/09/24
7670
如何将 Transformer 应用于时间序列模型
如何将Beautiful Soup应用于动态网站抓取?
从大多数网站收集公共数据可能不是什么难事。但还有许多网站是动态的,并且使用JavaScript加载其内容。使用JavaScript动态加载内容,又被称为AJAX(非同步的JavaScript与XML技术)。面对这种情况,我们就需要用到不同的方法来从这些网站上收集所需的数据。今天,Oxylabs将为您重点介绍使用Beautiful Soup抓取AJAX动态网站的相关内容。
用户7850017
2022/11/11
2.1K0
如何将Beautiful Soup应用于动态网站抓取?
实现逻辑回归,并将其应用于两个不同的数据集。
ex2.m %% Machine Learning Online Class - Exercise 2: Logistic Regression % % Instructions % ------------ % % This file contains code that helps you get started on the logistic % regression exercise. You will need to complete the following functions
裴来凡
2022/05/28
6790
实现逻辑回归,并将其应用于两个不同的数据集。
Power BI窗口函数应用于图表设计
Power BI于2022年12月推出的窗口函数极大简化了使用SVG矢量图自定义图表的过程。OFFSET、INDEX和WINDOW函数对设计连续型图表有重大意义。(不了解窗口函数参考采总此文:Power BI本月正式推出的DAX新函数:OFFSET、INDEX、WINDOW)
wujunmin
2023/02/28
1.9K0
Power BI窗口函数应用于图表设计
数据分析-大熊猫来了
答案当然不是!!!!今天我们学习的是一个python中用来用于数据分析,操作和可视化的全功能数据分析库pandas~~~先来学习如何读取表格数据文件使用pandas,接下来开始吧:
XXXX-user
2019/08/20
9960
数据分析-大熊猫来了
如何将深度学习应用于无人机图像的目标检测
本文全面概述了基于深度学习的对无人机航拍图像进行物体检测的方法。我们还介绍了一个应用示例:利用无人机监测一个非洲住房项目的建设进度。
AI研习社
2018/12/24
2.3K0
TenSec 再掀 AI 热:腾讯云如何将 AI 应用于安全
中国互联网黑产的缩影 诈骗、“羊毛党”等场景离我们越来越近,据腾讯的统计,该行业超过100万从业人员、超1000万身份证流转、数亿网民数据泄漏、百亿级恶意链接、超1000亿产值。如此成熟的规模已给不少企业的业务安全造成极大困扰。8月30日,在腾讯安全国际技术峰会(TenSec)上,腾讯云安全总监周斌发表了名为《大数据下的黑产画像与反欺诈能力建设》的演讲, 分享了一些腾讯云在业务安全层面的对抗工作,详细介绍了基于 AI 在安全上的应用对抗,为企业业务安全提供一盏明灯。 △腾讯云安全总监周斌现
腾讯云安全
2018/06/12
1.3K0
数据集 | 图书数据集
下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。
数据科学人工智能
2022/03/30
2.3K0
数据集 | 图书数据集
数据集 | 鲍鱼数据集
通过物理测量预测鲍鱼的年龄。鲍鱼的年龄是通过将蛋壳切成圆锥形,对其进行染色并通过显微镜对其进行计数来确定的,这是一项无聊且耗时的工作。其他更容易获得的测量值可用于预测年龄。解决此问题可能需要更多信息,例如天气模式和位置(因此有无食物)。从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据集共4177个样本,8个字段
数据科学人工智能
2022/03/30
2.3K0
数据集 | 鲍鱼数据集
CVPR2019|DFAF模型应用于VQA,VQA 2.0数据集达到了SOTA效果
多模态特征的有效融合是VQA问题的一个热点。本文提出了一种动态融合多模态特征和模态内、模态间信息流的新方法,使信息在视觉和语言模态间交替传递。它能较好地捕捉语言和视觉域之间的高层次交互,从而显著提高VQA的性能。该研究还表明,基于其他模态的动态内模注意流可以动态地调节目标模态的内模注意,这是多模特征融合的关键。对VQA 2.0数据集的实验评估结果表明,该模型达到了SOTA效果。为了全面分析所提出的方法,进行了广泛的消融学习。
CNNer
2020/07/09
1.2K0
CVPR2019|DFAF模型应用于VQA,VQA 2.0数据集达到了SOTA效果
数据集 | 订购数据集
该数据集记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。
数据科学人工智能
2022/03/30
1.8K0
数据集 | 订购数据集
数据集 | 行星数据集
下载数据集请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于UCI机器学习库。
数据科学人工智能
2022/03/30
1.7K0
数据集 | 行星数据集
数据集 | 小费数据集
下载数据集请登录爱数科(www.idatascience.cn) 小费数据集 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源
数据科学人工智能
2022/03/30
1.5K0
数据集 | 小费数据集
数据集 | 广告数据集
数据集由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营)创建,适合用于数据分析与逻辑回归预测。
数据科学人工智能
2022/03/30
2.1K0
数据集 | 广告数据集
数据集 | 深海珊瑚数据集
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包含由NOAA和NOAA的合作伙伴收集的有关深海珊瑚和海绵的信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
数据科学人工智能
2022/03/30
1.4K0
数据集 | 深海珊瑚数据集
数据集 | 手机定价数据集
本数据集包含了一系列手机的型号,各种配置信息以及价格信息。您可以利用机器学习等算法来预测一个特定配置手机的售价。
数据科学人工智能
2022/03/30
3K0
数据集 | 手机定价数据集
数据集 | 印度污染数据集
下载数据集请登录爱数科(www.idatascience.cn) 数据集包含印度各州的污染数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
数据科学人工智能
2022/03/30
1.1K0
数据集 | 印度污染数据集

相似问题

熊猫get_dummies in for循环

23

如何将函数应用于多键熊猫数据

12

如何将函数链式应用于熊猫数据子集

25

熊猫get_dummies,同名/同名

11

如何将函数应用于熊猫数据的特定列?

28
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文