腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1284)
视频
沙龙
1
回答
从
数值
特征
中
去除
异
常值
、
、
、
您好,我正在尝试
从
具有数字
特征
的列
中
删除异
常值
,但是当我执行代码时,整个数据集都被删除了。any1可以告诉我我做错了什么吗?
浏览 28
提问于2021-01-29
得票数 1
回答已采纳
2
回答
在机器学习算法的
特征
准备
中
何时
去除
离群点
、
我有一个
数值
变量(价格),它在训练和测试数据集中都有一个长尾。我发现,如果删除这个变量在训练和测试数据集中的最高值1%,那么这个变量的直方图和测试数据集看起来基本相同。见下图。在这个例子
中
,由于这个变量在训练和测试数据集中的经验分布在
去除
“异
常值
”之前和之后看起来都是一样的,那么我们应该保持这个变量不变吗?此外,一般来说,在将
特征
放入机器学习算法之前,我们应该如何处理异
常值
?
浏览 0
提问于2018-03-06
得票数 5
回答已采纳
1
回答
K表示聚类:如果Elbow方法给我一条直线,那么我的输入
特征
意味着什么?
、
、
、
我正在尝试对零售数据进行聚类,以便根据6个输入
特征
提取客户分组。我已经使用Pandas get_dummies()将“部门”类别变量拆分成二进制n维数组。KMeans对输入非常敏感,这可能会影响弯头方法
中
的WCSS,并导致直线,但这只是一种倾向,我没有任何量化支持来支持这一论点。我是一个初级数据科学家,所以关于集群模型和算法的技术基础的知识还在发展
中
,所以如果我错过了什么,请原谅我。我还删除了客户的退货(即负数量和价格)的倾向下,我可能会创建一个二元变量‘返回’来捕捉这一
特征
。以下是一些指标: 以下是
去
浏览 0
提问于2020-05-15
得票数 0
3
回答
如果精度和交叉验证分数在删除后下降,我应该删除异
常值
吗?
、
、
、
、
当我绘制(到目前为止)最重要的
特征
,如盒子图,看看是否有异
常值
时,我发现了许多异
常值
。所以我试着
从
数据集中删除它们。print('Clean model shape (after clearing out &
浏览 0
提问于2018-12-20
得票数 5
回答已采纳
2
回答
测试数据帧
中
的离群值
我是R的新手,我尝试使用一个函数来测试包含600多个变量的大型数据帧
中
的异
常值
,除了最后两列之外,所有变量都是数字。我尝试了outliers包
中
的离群值函数,一次测试一列,最后得到了一个我无法使用的
数值
向量。有没有更好的方法来识别数据帧
中
的所有异
常值
。
浏览 2
提问于2013-03-05
得票数 1
1
回答
移除离群值会在pandas数据帧
中
创建空值
、
、
我希望
从
每一列
中
删除异
常值
,为此我执行以下操作。我的理解是它
去除
了异
常值
,但现在我用空值代替了异
常值
。我的理解正确吗?
浏览 23
提问于2019-03-19
得票数 0
1
回答
高维二元分类问题中如何改进基线logistic回归?
、
、
有关数据集的信息:所有的
特征
都是
数值
。以下是我采取的一些方法和相关结果:稳健标量Logistic回归 剔除异
常值
浏览 0
提问于2021-05-08
得票数 1
1
回答
从
R
中
的数据帧
中
删除异
常值
?
、
我正在尝试
从
我的数据
中
删除异
常值
。在我的例子
中
,异
常值
是在箱形图上绘制时远离其余数据的值。
去除
异
常值
后,我会将数据保存到新文件
中
,并运行一些预测模型来查看结果。它们与原始数据的不同之处。我使用了一个,并采用它从我的数据
中
删除了异
常值
。本教程使用箱线图来计算异
常值
。 当我在有异
常值
的列上运行它时,它工作得很好。但是,当我为没有异
常值
的列运行它时,它会引发错误。如何删
浏览 1
提问于2019-02-20
得票数 0
1
回答
使用深度学习混合文本和数字
特征
进行文本分类
、
、
、
除了文本之外,我还有一些我认为可能有用的数字
特征
(这些
特征
中
也有缺失值)。但最重要的信息当然是在正文中呈现的。将当前仅适用于文本输入的模型与数字
特征
混合的最佳实践是什么?在这个领域有什么技巧,最佳的通用实践,最先进的研究正在进行吗?有没有关于这个主题的论文/实验(可能是关于GitHub的)?让我们假设我们有来自用户的评论,他们在评论
中
描述了他们在接受服务或购买商品时面临的问题。目标特性是多标签:与用户抱怨相关的一组标签(类别/主题)(我们应该
从
数百个可能的主题中选择相
浏览 5
提问于2018-09-14
得票数 0
3
回答
标准定标器与MinMaxScaler的区别
、
MMS= MinMaxScaler(feature_range = (0, 1)) (在Program1
中
使用) sc = StandardScaler() (在另一个程序
中
,他们使用标准缩放器,而不是
浏览 2
提问于2018-07-09
得票数 25
回答已采纳
1
回答
Grok滤波器
中
数值
特征
的
去除
、
、
、
我正在尝试编写一个Grok过滤器来解析logstash
中
的WSO2日志。我能够映射所有必需的属性。但在一个属性
中
,我们需要删除10个数字字符。 谁能告诉我如何用Grok模式做这件事吗?
浏览 1
提问于2020-05-26
得票数 1
回答已采纳
1
回答
在使用LIME解释模型时处理类别、浮点和int类型的特性
、
、
、
、
我正在使用Lime (局部可解释模型-不可知论解释)与混合
特征
类型,以评估我的模型预测的分类任务。
浏览 6
提问于2020-09-30
得票数 0
回答已采纳
1
回答
在我训练机器学习模型时,标准化/规范化是减少离群值影响的好方法吗?
、
、
、
最近,我阅读了一些论文,其中作者指出,他们已经对变量进行标准化/规范化,以减少数据训练的机器学习模型
中
的异
常值
的影响。 说得通吗?为什么?我认为,在标准化之后,异
常值
与其他值之间的差异仍然存在于数据
中
。
浏览 0
提问于2021-09-29
得票数 1
回答已采纳
1
回答
处理异
常值
、
、
我有一个名为“每周小时”的数字
特征
和另一个叫做“年龄”的
特征
。这些是我在dataset中考虑的唯一的
数值
特性。我为每一项功能做了一个盒形图,以确定是否存在异
常值
,如下所示。data, ax=axes[i])plt.tight_layout()这是输出:通过收集数据,我能够处理“年龄”异
常值
下面是所讨论的变量的分布:我不知道是否应该删除这些异
常值
,我的目标是以后在分类机器学习模型
中</em
浏览 0
提问于2023-04-07
得票数 0
1
回答
pandas.DataFrame
中
无离群值的分组操作
、
、
、
、
对于pandas.Series,我知道如何
去除
异
常值
。i in range(1000)]) df.set_index('index') 我通常做像这样的事情 df = df.groupby('index').mean() 然而,在这种情况下,它还会对异
常值
进行平均,我希望
从
平均
中
忽略这些异
常值
。请注意,随机数据使每个列
中
的异
常值
处于不同的位置。因此,应该只忽略该列/系列
中
的异
浏览 9
提问于2021-11-02
得票数 1
回答已采纳
1
回答
树与回归算法--哪一种方法能更好地适用于具有大部分分类
特征
的模型?
、
、
、
总之,有四个分类
特征
和一个数字
特征
。总共大约有1000 K行。 在这种情况下,我认为决策树或随机森林比回归更有效。理由是只有一个
数值
特征
。
从
数据来看,我可以肯定地说,有一个4级的产品层次结构,但我不太确定一个数字特性(我认为这是提议的价格),因为在某些情况下,这个数字和售价(y变量)有很大的差别。此外,在本专栏中有许多异
常值
(可能是被迫引入的)。
浏览 3
提问于2021-01-07
得票数 0
回答已采纳
1
回答
检测和替换异
常值
、
、
Transforming using log or Bin> -> Test separately 我实际上打算使用median来
去
浏览 24
提问于2020-02-25
得票数 0
1
回答
规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么?
、
、
、
、
我检查了标准化/标准化的所有方法,这些方法对异
常值
的存在不敏感,适合本案例研究。根据科学知识-学习0.24.2关于不同标度对异
常值
数据影响的比较的研究,有人指出这里: 如果集合
中
存在一些异
常值
,则稳健的定标器或变压器更合适。关于数据集的合成性质,我需要对某些
特征
/列使用分类编码来将它们转换为基于表示的学习模型的
数值
(例如,使用图像形式的数据作为学习算法(如CNN )的输入。请查看这个纸
中
的参考文献:图6 )。
浏览 0
提问于2021-05-29
得票数 0
1
回答
特征
选择导致了更多的过度拟合
我认为
特征
选择是为了减少过度拟合。
浏览 0
提问于2019-03-27
得票数 1
2
回答
支持向量机:使用两个相反的符号
特征
有意义吗?
、
每个训练向量包含两个大小相等且有相反信号的
特征
,即F1 = -F2。其中一个功能是多余的,更好地被删除吗? 上述问题的答案是否取决于所使用的内核?
浏览 4
提问于2011-12-27
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从有年月日的 Excel 列表中,提取某年某月的所有数值并求和
从 Excel 列表中逐行提取单元格内的所有数字,没有数字的空行去除
我的起源:从毁灭中走向新生,感受不一样的异世界沙盒手游
机器学习数据预处理方法与技巧系统讲解
Java从入门到架构师之九月哥谈Java SE中如何去除子接口List的ArrayList中的重复自定义对象
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券