腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我们
能用
pyspark
中
的
预测
值
替换
异
常值
吗
?
、
、
、
、
select=housing.csv 现在我发现了下面的异
常值
(总共22行): def IQR(df,column): outliers = df.filter((df['RM'] > upper) | (df['RM'] < lower)) 下面是检测到
的
异
常值
4.138 23.34 20.2 249900 4
浏览 22
提问于2021-04-01
得票数 0
回答已采纳
1
回答
如何以及何时处理数据集中
的
异
常值
(一般策略)
、
、
、
我遇到了以下问题: 我正在做一个数据科学
的
初学者项目。我得到了测试和训练数据拆分,现在我正在分析每个特征,然后将其添加到离散连续变量
的
数据帧或连续变量
的
数据帧
中
。在这样做
的
时候,我遇到了一个离群
值
很大
的
特征。如果我要删除它们,我已经添加到我
的
子数据帧
中
的
其他特性将具有比这一个更多
的
列条目。我是应该找到一种策略,用“更好”
的
值
覆盖离群
值
,还是应该重
浏览 11
提问于2021-03-25
得票数 1
1
回答
如何在
pyspark
中用均值
替换
异
常值
?
、
、
、
、
我想知道如何用均值
替换
异
常值
。我有了dataframe,我可以找到离群
值
并过滤行,现在我想用平均值
替换
它。我该怎么做呢?27 03 80 25 46 42 10 1 3
浏览 24
提问于2021-03-29
得票数 0
回答已采纳
3
回答
C#
中
的
单应性、内部性/ Emgu CV/ SURF
、
、
如何使用C#
中
的
单应性或其他方法获取匹配眼点
的
内
值
/异
常值
?我找到matchedFeature了。代码使用HomographyMatrix (单应性)。我想区分内部和异
常值
。在C++
中
: int cvFindFundamentalMat(const CvMat* points1, const CvMat* points2我可以在C#中看到类似的代码
浏览 0
提问于2011-01-10
得票数 4
回答已采纳
1
回答
是否可以访问计算度量
中
的
预测
结果?
我正在尝试使用Tableau
预测
来查找时间序列异
常值
。我需要将实际
值
与
预测
结果
中
的
95%置信水平进行比较,以确定它是否为异
常值
。 我知道我可以在图表上查看
预测
结果。但我想以计算
的
方式使用
预测
结果。有什么办法可以做到
吗
?我找不到任何Tableau函数来检索
预测
结果。
浏览 7
提问于2019-10-28
得票数 0
1
回答
GPflow
中
是否有关于
异
方差高斯过程
的
代码或研究?
、
我现在正在研究具有异方差噪声
的
GP模型,我想知道GPflow社区
中
是否有代码或注释,以便我可以了解它们。非常感谢!
浏览 42
提问于2021-10-30
得票数 2
1
回答
使用重复循环查找多个异
常值
?
、
我有一个大但不可靠
的
矩阵形式
的
数据集。我使用包异
常值
来搜索数据集中
的
异
常值
,特别是在我
的
数据矩阵
的
每一行
中
,但是每一行都有多个异
常值
。为了寻找一个以上
的
异
常值
,我尝试使用一个重复循环来
替换
异
常值
(用行平均值),直到该行
的
标准偏差低于某个指定
值
为止。standarddeviationthreshold) {
浏览 4
提问于2014-06-21
得票数 1
回答已采纳
2
回答
Spark
中
的
多输出分类
、
、
、
我们
可以在
Pyspark
中
预测
多个目标变量
吗
,就像
我们
在sklearn
中
执行MultiOutputClassifier一样?我有一个包含多个目标变量
的
数据集0 Pbl1 Low“问题和复杂性”,我必须
预测
特定问题
的
“技能”,而我
的
目标变量是“Ski
浏览 0
提问于2019-02-15
得票数 1
2
回答
如何通过转换使用熊猫来去除而是处理异常点呢?
、
、
、
、
我想做
的
是识别记录这是我试过
的
,但不正确,效率不高。38是最大
值
,因为它在3sd限制内,并且是一个有效
的
最大
值
(意思是不存在异
常值
)。类似地,36是最
浏览 4
提问于2019-12-26
得票数 1
回答已采纳
1
回答
如何获取row_number is
pyspark
数据帧
、
、
、
为了排名,我需要让row_number是一个
pyspark
数据帧。我看到在
pyspark
的
窗口函数中有row_number函数,但这是使用HiveContext所必需
的
。我尝试用HiveContext
替换
sqlContext self.sc =
pyspark
.SparkContext() #self.sqlContext =
pyspark
.sql.SQLContext(s
浏览 0
提问于2016-10-30
得票数 2
1
回答
如果您
的
数据集中有很多异
常值
呢?
、
、
我试图处理数据集中
的
异
常值
,但是当检查它们
的
编号时,我发现在每一列中都有大约95%
的
异
常值
!太奇怪了。 train[col] = np.where(train[col] <lowerLimit,lowerLimit,train[col]) 我认为这些
值
可能是人为错误或系统故障
的
结果因此,
我们
不能简
浏览 2
提问于2021-09-08
得票数 0
回答已采纳
2
回答
在机器学习算法
的
特征准备
中
何时去除离群点
、
我发现,如果删除这个变量在训练和测试数据集中
的
最高
值
1%,那么这个变量
的
直方图和测试数据集看起来基本相同。见下图。📷 我
的
问题是:我仍然需要使用训练数据(包括特性和标签)对测试数据进行
预测
(仅使用特性)。在这种情况下,我应该如何处理这个特性变量?我在考虑删除训练和测试数据集中
的
前1%
的
数据,但是由于我仍然需要对1%
的
测试数据进行
预测
,所以我想这不是一个好主意。在这个例子
中
,由于这个变量在训练和测试数据集中
的<
浏览 0
提问于2018-03-06
得票数 5
回答已采纳
1
回答
如何使用XGBoost为高度不平衡
的
类构建自己
的
评估指标,以最小化测试错误?
、
、
、
我收集了一个产品在发布管道
中
需要多长时间才能发布
的
数据。到目前为止,95%
的
数据花费了<400分钟
的
异
常值
= 0。然后,5%
的
数据在700,40000分钟
的
异
常值
= 1之间。我想使用xgboost构建一个分类器,它可以
预测
一个事件是否会是一个“异
常值
”。问题是,异
常值
非常少见,我有大约200个异
常值
数据点和3200个非异
常值
数据点。目前,在没有调整
的
浏览 3
提问于2019-03-05
得票数 1
2
回答
用数组
替换
数据框
值
、
我有一个时间序列数据帧,我想用LSTM
预测
,但我不
能用
缩放后
的
值
替换
训练
值
和测试
值
。 这是数据帧 ? 这是缩放后
的
数据 ? 我如何将缩放
值
替换
为训练数据帧
中
的
值
?因为索引是日期,而我不能循环
替换
数据。我也不能
替换
数据帧
中
的
数据。 提前感谢
浏览 14
提问于2021-01-27
得票数 0
回答已采纳
4
回答
在决策树
中
处理异
常值
和空
值
、
、
、
离群
值
:据我所知,决策树对异
常值
是稳健
的
。有人能证实我
的
假设是否正确
吗
?(如果我
的
特征从0到9不等,但存在一个
值
为10000
的
异
常值
,那该怎么办?)它是否为这个离群点样本创建了一个单独
的
叶子,还是会与其他树
的
叶子合并?谢谢。
浏览 0
提问于2018-05-09
得票数 6
回答已采纳
2
回答
基于
异
方差一致标准差绘制平均置信区间
的
状态模型
、
、
这个问题类似于,但有一个附加
的
细微差别: 我
的
数据是
异
方差
的
,我想用统计模型提供
的
任何一种
异
方差一致标准误差(HC0_se、HC1_se等)来绘制平均值
的
置信区间。对于每个拟合
的
值
,我找不到任何容易获得这些信息
的
方法(虽然很容易得到每个系数
的
间隔)。它似乎也不像标准
的
平均置信区间数据那样包含在stats.outliers
的
结果汇总表
中
。两个问题:
浏览 5
提问于2014-01-28
得票数 1
回答已采纳
2
回答
(但不减少它们
的
影响)
、
、
、
、
我有一个小
的
数据集(大约60个样本),我需要它来很好地
预测
高目标值。只有几个高
值
,而我尝试过
的
所有模型对于这些高
值
都表现不佳。因此,我想知道有什么技术可以使算法在不能被视为异
常值
的
高
值
情况下表现得更好。你看,这几个高
值
使得MSE非常大,因为模型往往低估这些高
值
,
预测
它们要小2倍或更多。我有一个为异
常值
生成假数据
的
想法,但我还没有找到正确
的
回归方法
浏览 0
提问于2018-10-05
得票数 0
回答已采纳
1
回答
BigQuery取代了我大部分
的
火花工作,我是不是遗漏了什么?
、
、
、
、
几年来,我一直在使用机顶盒开发星火工作,
我们
的
团队最近搬到了Google平台,允许
我们
利用BigQuery等
的
力量。问题是,我现在经常发现自己在SQL
中
编写
的
处理步骤比用
PySpark
编写
的
要多,因为它是: 如果需要,可以在GUI上轻松地运行它最后,我只在我有一些不
能用
SQL来表达
的
事情时才使用Spark。为了明确起见,我
的
浏览 2
提问于2019-05-07
得票数 18
1
回答
Tensorflow : tf.argmax()作为
预测
值
还是最大
值
?
我正在学习tensorflow,在各种例子
中
,我看到为了从logits获得
预测
,
我们
使用了tf.argmax(logits, 1)。根据我站下
的
情况,logits是概率
值
,tf.argmax()将给出指定轴上最大
值
的
指数。但是,
我们
如何用指数来代替概率
值
呢?
我们
不应该用最大
值
作为
预测
吗
? 但我已经看到,上面的代码运行良好。我肯定我在这里错过了一些基本
的</
浏览 0
提问于2018-06-30
得票数 3
回答已采纳
1
回答
如何
替换
时间序列分析
中
的
异常数据?
、
、
我应用了隔离森林算法来识别我
的
时间序列
中
的
异常数据。现在,我想在将这些离群
值
送入机器学习模型之前
替换
它们。
我们
如何在时间序列分析
中
替换
这些异
常值
?
浏览 9
提问于2021-07-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
一个Python大数据处理利器:PySpark入门指南
数据预处理——数据清洗
机器学习入门案例分析-泰坦尼克号生存预测
PySpark,一个大数据处理利器的Python库!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券