首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何正确去除异常值并为线性模型定义预测器?

如何正确去除异常值并为线性模型定义预测器?
EN

Stack Overflow用户
提问于 2018-01-05 12:52:17
回答 2查看 6.5K关注 0票数 0

我正在学习如何建立一个简单的线性模型,以找到一个统一的价格基于其平方米和房间的数量。我有一个具有多个特征的.csv数据集,'Price‘当然是其中之一,但它包含几个可疑的值,如'1’或'4000‘。我想根据平均值和标准差删除这些值,因此我使用以下函数删除异常值:

代码语言:javascript
运行
AI代码解释
复制
 import numpy as np
 import pandas as pd

 def reject_outliers(data):
    u = np.mean(data)
    s = np.std(data)
    data_filtered = [e for e in data if (u - 2 * s < e < u + 2 * s)]
    return data_filtered

然后我构造函数来建立线性回归:

代码语言:javascript
运行
AI代码解释
复制
def linear_regression(data):
    data_filtered = reject_outliers(data['Price'])
    print(len(data)) # based on the lenght I see that several outliers have been removed 

下一步是定义数据/预测器。我设置了我的功能:

代码语言:javascript
运行
AI代码解释
复制
features = data[['SqrMeters', 'Rooms']]
target = data_filtered

X = features
Y = target

这是我的问题。如何才能获得X和Y的相同观测值?现在我的样本数量不一致(去除异常值后,X为5000,Y为4995 )。感谢您在此主题中提供的帮助。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-01-05 13:01:08

要素和标注的长度应相同

并且您应该将整个数据对象传递给reject_outliers:

代码语言:javascript
运行
AI代码解释
复制
def reject_outliers(data):
 u = np.mean(data["Price"])
 s = np.std(data["Price"])
 data_filtered = data[(data["Price"]>(u-2*s)) & (data["Price"]<(u+2*s))]
 return data_filtered

您可以这样使用它:

代码语言:javascript
运行
AI代码解释
复制
data_filtered=reject_outliers(data)
features = data_filtered[['SqrMeters', 'Rooms']] 
target = data_filtered['Price']
X=features
y=target
票数 1
EN

Stack Overflow用户

发布于 2018-01-05 13:59:39

以下工作适用于Pandas DataFrames (数据):

代码语言:javascript
运行
AI代码解释
复制
def reject_outliers(data):
    u = np.mean(data.Price)
    s = np.std(data.Price)
    data_filtered = data[(data.Price > u-2*s) & (data.Price < u+2*s)]
    return data_filtered
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48114054

复制
相关文章
Apache编译后无法正常工作
因为某个场景的需求,要在一个国产系统Rocky4.2(国产凝思4.2操作系统)上安装Apache,虽说此系统是基于Redhat 5.8开发的,但是发现yum安装源包管理,RPM命令倒是能用,但是底层依赖完全没有,这就尴尬了,so,只能源码编译安装了。
后场技术
2020/09/03
2.9K0
K3组件kdsvrmgr无法正常工作
1.在服务器上创建一个用户名和口令,和客户端登陆的用户名和口令一致的;  2.通过网上邻居访问服务器,如果没有提示输入用户和密码,那么网络没问题;  3.看COM+和DTC服务有没有设置好;  4.是XP sp3系统或Home系统的话,可能不稳定;  5.再者看感染病毒没有。 。
py3study
2020/01/08
4.7K0
vue在IE下无法正常工作,Promise未定义?
用vue写了一个日历组件,在Firefox、Edge、Chrome以及360等浏览器极速模式中运行一切正常,如图:
Yiiven
2022/12/15
4.3K0
vue在IE下无法正常工作,Promise未定义?
为什么redis哨兵集群只有2个节点无法正常工作?
由于redis的响应速度快,每秒支持的并发极高(号称10万),现在redis越来越流行了
JAVA葵花宝典
2019/11/08
7.9K1
安装ElasticSearch无法正常启动
在用docker安装 ElasticSearch 时,能正常创建容器,返回容器ID,但却无法正常启动,使用浏览器访问 127.0.0.1:9200 时无法访问,使用 docker logs 查看错误日志,发现报了两个错:bootstrap checks failed,下面分别是这两个错误的解决方法。
子润先生
2021/06/23
3.8K0
安装ElasticSearch无法正常启动
在用docker安装 ElasticSearch 时,能正常创建容器,返回容器ID,但却无法正常启动,使用浏览器访问 127.0.0.1:9200 时无法访问,使用 docker logs 查看错误日志,发现报了两个错:bootstrap checks failed,下面分别是这两个错误的解决方法。
Petrochor
2022/06/07
3.2K0
安装ElasticSearch无法正常启动
jira无法正常显示图片
jira安装之后,图片在富文本编辑器内能正常显示,但是在附件内无法显示,如果查看会发现图片的连接是127.0.0.1.
obaby
2023/02/23
2.6K0
jira无法正常显示图片
树莓派鼓捣记 - 4b 安装 wiringPi 无法正常运行
通过命令 sudo apt-get install wiringPi 安装,执行命令 gpio readall无法正常运行,是因为安装的版本不支持4b,最新版目前已经支持
晓晨
2020/11/06
1.9K0
正常的工作流程
修改文件,将它们更新的内容添加到索引中。 $ git add file1 file2 file3 你现在为commit做好了准备,你可以使用git diff命令再加上–cached参数,看看哪些文件将被提交(commit)。 (如果没有–cached参数,git diff会显示当前你所有已做的但没有加入到索引里的修改。)你也可以使用git status命令来获得当前项目的一个状况。
用户3004328
2018/09/06
7900
NSTimer 导致UIViewController无法正常释放
原因:当我们使用NSTimer的方法时,定时器对象会对它的target(即self:当前控制器)持有强引用,如果定时器不销毁,则控制器无法释放。
赵哥窟
2018/12/12
1.1K0
jsp无法正常加载CSS样式
今天写项目时,发现jsp页面不能加载css样式 检查css和引入代码都没有问题,重启eclipse和tomcat都没有解决 在浏览器中F12调试查看css文件都没有问题。 后来百度寻找解决方法,终于找
白胡杨同学
2020/04/17
4.2K0
jsp无法正常加载CSS样式
ubuntu下无法正常启动eclipse
最近用SpringMVC+Freemarker+AJAX作了个例子.遇到了一些关于中文编码的问题.通过查资料把问题解决了. 在这里总结一下.
EltonZheng
2021/01/26
1.1K0
小程序<live-pusher>、<live-player>标签无法正常使用?
出于政策和合规的考虑,微信暂时没有放开所有小程序对 <live-pusher> 和 <live-player> 标签的支持:
hhualiu
2019/03/11
2.3K0
小程序<live-pusher>、<live-player>标签无法正常使用?
pip无法正常使用解决办法
python -m pip install xxx 相当于import,叫做当做模块来启动
一点儿也不潇洒
2018/08/07
1.1K0
mongos崩溃后无法重启的问题
从上次重启config节点,或者重新选举90或180天后,所有mongos会同时crash,并且无法重新启动。
MongoDB中文社区
2021/03/01
1.3K0
centos7无法正常启动network
当我们执行systemctl restart network时出以下报错 image.png 解决方法:直接关闭 NetworkManger 服务就好了 systemctl stop NetworkManger
云计算小黑
2021/06/16
1.1K0
Crontab脚本无法正常执行问题
Crontab执行时若有异常首先要到/var/log下查看cron日志文件文件(vi /var/log/cron),也可以使用用tail -f /var/spool/mail/root 查看最近的crontab执行情况。通常在日志中能够查看到异常都是脚本写的不正确导致的,可以手动执行看下具体原因。若在日志中看到脚本正常执行,但是无正确的预期结果,则无非是两种原因:
我是李超人
2020/08/21
2.2K0
点击加载更多

相似问题

Django模板标签可以像Django模板可调用一样使用吗?

124

从django模板标签调用python函数

30

Django -使用模板标签和'with'?

30

Django模板标签

10

Django模板标签

12
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档