前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python机器学习算法KNN、MLP、NB、LR助力油气钻井大数据提速参数优选及模型构建研究

Python机器学习算法KNN、MLP、NB、LR助力油气钻井大数据提速参数优选及模型构建研究

作者头像
拓端
发布于 2024-12-19 12:46:43
发布于 2024-12-19 12:46:43
1070
举报
文章被收录于专栏:拓端tecdat拓端tecdat

全文链接:https://tecdat.cn/?p=38601

分析师:Huayan Mu

随着机器学习和大数据分析技术的发展,帮助客户进行油气行业数字化转型势在必行,钻井提速参数优选呈现由经验驱动、逻辑驱动向数据驱动转变的趋势。机械钻速最大化、机械比能最小化是钻井过程中常考虑的双目标,有利于提高钻头破岩能量利用率、降低非生产时间和钻井成本,而提速预测模型与钻井参数的优选是核心痛点

一、任务/目标

评估主流分类算法,确定适用于实例井的最佳提速预测模型;构建提速评价函数,按地层优选关键参数取值范围。

  • 数据清洗与特征选择

2.1数据整体清洗

原始数据来源于某油田A井,共154810条钻井数据、55列特征项。数据预处理包括删除空值及无效值、删除冗余特征项、重复值检测、极端值处理,处理后共保留114973条非空数据、19列特征项。

经归一化处理后使用箱型图检测数据整体异常值,对部分存在异常值的特征项进行四次中位数迭代修正。数据整体异常值处理对比如图2.1和图2.2。

图2.1数据整体异常值检测箱型图

图2.2 数据整体清洗后箱型图

2.2特征选择

使用清洗后的数据计算出两两变量间的互信息值并可视化为热力图(图2.3),根据机械钻速与各特征变量之间的互信息值大小,最终选择井深(0.75)、转盘转速(0.54)、钻压(0.52)、入口流量(0.47)、立管压力(0.31)、扭矩(0.22)、大钩负荷(0.21)共7个钻井参数作为后续模型的特征变量。

2.3机械钻速异常值剔除

使用孤立森林算法检测并剔除每个地层中的机械钻速异常值,T2k1地层数据从5971行筛选出5374行,T1b3地层数据从4516行筛选出4069行,T1b2地层数据从6470行筛选出5825行,T1b1地层数据从98016行筛选出88222行。对比分析剔除前后数据集中机械钻速(ROP)的取值范围、均值、标准差如表2.1,可知各地层机械钻速的标准差均减小,数据离散程度减小,有利于提高后续模型的精确度。

  • 提速预测模型优选

3.1模型构造及评价指标

为进行提速效果评价,将常见的钻速回归按照给定的地层和钻头尺寸转换为二分类问题,即判断当前ROP是否高于历史ROP均值(若高于均值表示可提速),在剔除ROP异常值后的数据集中添加Class分类列,Class为1表示能提速,Class为0表示不能提速。

二分类模型的预测效果优劣通常用ROC(Receiver Operating Characteristic)曲线和AUC(Area Under the Curve)值来评价,ROC曲线以真正类率为纵坐标、假正类率为横坐标,是反映模型敏感性和特异性的综合指标,曲线下面积AUC值用于评价模型预测真实度(AUC值越大分类结果越符合实际)。

3.2建模预测与优选

对各地层使用K最近邻(KNN)、多层感知机(MLP)、朴素贝叶斯(NB)、逻辑回归(LR)等分类算法模型预测判断在指定钻井参数输入下是否能够达到提速效果,各模型的ROC曲线对比如图3.1。由图可知在A井4个地层中,K最近邻(KNN)模型的AUC值分别为0.91、0.90、0.96、0.97,多层感知机(MLP)模型的AUC值分别为0.73、0.45、0.77、0.68,朴素贝叶斯(NB)模型的AUC值分别为0.71、0.68、0.81、0.71,逻辑回归(LR)模型的AUC值分别为0.74、0.64、0.80、0.65。量化指标表明KNN模型在A井中性能最佳,因此本项目选用KNN模型预测提速效果。

  • 提速评价函数构建与参数优选

4.1提速评价函数构建

结合机械比能理论,假设在提速效果评价中钻压(WOB)权重为ω1

,转速(RPM)权重为ω2

,扭矩(TOR)权重为ω3

,不同钻头直径(Db

)权重为ω4

,构造目标为ROP最大化、MSE最小化的评价函数如下:

化简得:

随机森林模型训练过程中约有1/3的袋外数据没被利用,对袋外数据中所有样本特征随机加入噪声干扰能说明各特征对模型预测结果的重要性程度,因此式中各项权重依据随机森林回归模型的特征重要性确定。

4.2提速参数优选

以井深、转速、钻压、入口流量、扭矩、立管压力、大钩负荷作为随机森林回归模型的输入变量,输出变量为机械钻速,对A井4个地层分别预测提速评价函数中各参数权重。

表4.1给出了模型中特征变量权重值,对应各特征的重要性

在按地层划分的实钻数据表中添加评价函数列,并基于评价函数U从小到大排序,由预设优选率(假设为5%,若计算结果为小数则向上取整)进行筛选,各地层优选参数钻压(WOB,KN·m)、转速(RPM,r/min)、排量(Flow In,L/s)、立管压力(SPP,MPa)、扭矩(TOR,KN·m)、大钩负荷(Hook Load,KN)的取值范围如表4.2。

表4.2 提速关键参数优选范围

五、提速预测模型优选结果分析

基于A井的4个地层数据分别建立KNN模型,训练集和验证集按7:3划分,通过10折交叉验证设定超参数k的最佳取值为3。KNN模型对正类(Class=1,能提速)预测的性能评价汇总如表5.1,验证集中模型准确度为0.86~0.94、f1-score为0.81~0.94、加权f1-score为0.85~0.94,模型预测提速效果表现良好。在钻井施工前,可使用该模型预测判断钻井参数组合能否提速,有利于科学决策、规避风险。

表5.1 A井提速预测性能评价(KNN模型)

六、 提速评价函数应用结果分析

优选前后各地层机械钻速(ROP)和机械比能(MSE)均值对比分析可视化如图6.1,可知优选后T2k1地层的ROP均值同比提高48.6%、MSE均值同比降低26.6%,T1b3地层的ROP均值同比提高89.9%、MSE均值同比降低33.8%,T1b2地层的ROP均值同比提高41.3%、MSE均值同比降低39.0%,T1b1地层的ROP均值同比提高29.2%、MSE均值同比降低37.3%,满足机械钻速最大化、机械比能最小化的双目标。

图6.1 优选前后各地层ROP和MSE均值对比

关于分析师

在此对 Huayan Mu 对本文所作的贡献表示诚挚感谢,她在西南石油大学完成了材料与化工专业(研究方向:钻井提速大数据分析)的硕士学位,专注于机器学习预测分析领域。擅长 Python(Anaconda)、数据分析 。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
算法工程师-机器学习面试题总结(1)
损失函数是在机器学习和优化算法中使用的一种衡量模型预测结果与真实值之间差异的函数。其目标是最小化模型的预测误差,从而提高模型的性能。
机器学习AI算法工程
2023/09/04
6040
算法工程师-机器学习面试题总结(1)
机器学习-04-分类算法-03KNN算法案例
本例实验采用UCI开放的葡萄酒样本数据,数据下载地址为 http://archive.ics.uci.edu/ml/datasets/Wine。该数据记录了意大利同一地区种植的葡萄酿造的3个不同品种的葡萄酒数据,包含了178组葡萄酒经过化学分析后记录的13种成分的数据。
用户2225445
2025/04/02
1210
机器学习-04-分类算法-03KNN算法案例
基于传统机器学习模型算法的项目开发详细过程
1、 pandas读取数据: pd.read_csv(),训练数据一般从csv文件加载。读取数据返回DataFrame,df.head() 查看前5条件数据分布
用户1414696
2024/01/14
2950
机器学习-07-分类回归和聚类算法评估函数
本系列是机器学习课程的系列课程,主要介绍机器学习中分类回归和聚类算法中的评价函数。
用户2225445
2024/04/10
2810
机器学习-07-分类回归和聚类算法评估函数
图解机器学习 | 模型评估方法与准则
教程地址:http://www.showmeai.tech/tutorials/34
ShowMeAI
2022/03/10
1.6K0
图解机器学习 | 模型评估方法与准则
机器学习模型评估的方法总结(回归、分类模型的评估)
这也是线性回归中最常用的损失函数,线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。 MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
全栈程序员站长
2022/11/08
2.7K0
机器学习模型评估的方法总结(回归、分类模型的评估)
《机器学习算法竞赛实战笔记1》:如何看待机器学习竞赛问题?
更新《机器学习算法竞赛实战》一书的阅读笔记,更多详细的内容请阅读原书。本文的主要内容包含:
皮大大
2023/02/21
5470
《机器学习算法竞赛实战笔记1》:如何看待机器学习竞赛问题?
大数据学习初学者必知的十大机器学习算法
本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念。我们希望本文能为理解机器学习基本算法提供简单易读的入门概念。
加米谷大数据
2020/06/19
5560
大数据学习初学者必知的十大机器学习算法
完全汇总,十大机器学习算法!!
接下来我会从每个算法模型的介绍、基本原理、优缺点以及适用场景注意叙述,最后会基于开源数据集给出一个比较入门型的案例供大家学习~
Python编程爱好者
2024/04/12
4610
完全汇总,十大机器学习算法!!
《机器学习实战指南:CSDN 经验集成》
机器学习作为人工智能的重要分支,在各个领域都有广泛的应用。本文将结合 CSDN 上的丰富资源,为读者提供一份机器学习实战指南。
正在走向自律
2024/12/18
1800
《机器学习实战指南:CSDN 经验集成》
推荐算法背后的机器学习技术
机器学习是一种利用统计和其他数学理论给予计算机学习能力的方法。机器学习和统计其实都有相同的目标:从数据中学习知识。但是具体的手段和理念有所不同。机器学习是计算机科学的一个分支,侧重的是从数据中建立有机的系统,而不是用目的很明显的规则去编程。而统计学是数学的一个分支,侧重的是用数学公式建立变量之间的联系。近年来,随着计算机硬件成本的不断降低和数据量的极大增加,数据科学家得以充分利用机器学习手段来分析和挖掘数据。另一方面,统计建模技术则早在计算机问世前就已经存在。
张小磊
2022/10/31
5520
你知道这11个重要的机器学习模型评估指标吗?
【磐创AI导读】:评估一个模型是建立一个有效的机器学习模型的核心部分,本文为大家介绍了一些机器学习模型评估指标,希望对大家有所帮助。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
磐创AI
2019/08/23
3.7K0
机器学习笔记之机器学习算法XGBoost
在上一篇Boosting方法的介绍中,对XGBoost有过简单的介绍。为了更还的掌握XGBoost这个工具。我们再来对它进行更加深入细致的学习。
Jetpropelledsnake21
2021/03/04
2.4K0
机器学习笔记之机器学习算法XGBoost
谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念
选自Google Developers 机器之心编译 机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正。本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。之后,我们也将表内术语更新到了机器之心 GitHub 项目中。 机器之心人工智能术语项目:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology A 准确率(accuracy) 分类
机器之心
2018/05/08
1K0
谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念
重点!11个重要的机器学习模型评估指标
构建机器学习模型的想法应基于建设性的反馈原则。你可以构建模型,从指标得到反馈,不断改进,直到达到理想的准确度。评估指标能体现模型的运转情况。评估指标的一个重要作用在于能够区分众多模型的结果。
用户9861443
2022/09/01
1.9K0
重点!11个重要的机器学习模型评估指标
自动驾驶中机器学习算法应用大盘点
今天,机器学习算法被广泛应用于解决自动驾驶汽车制造的各种挑战问题中。人类将传感器数据处理集成到汽车的ECU(电子控制单元)中。 提高机器学习的利用率去完成新的任务是十分必要的,潜在的应用包括对驾驶员条件的评估,或者通过不同的外部和内部传感器进行数据融合,比如激光雷达、雷达、相机或物联网。 运行车载信息娱乐系统的应用程序可以接收来自传感器数据融合系统的信息,例如,如果它发现司机有什么不对劲的地方,就有能力直接将汽车开到医院。这个基于机器学习的应用程序还包括驾驶员的语音、手势识别和语言翻译。算法被分为
AiTechYun
2018/03/02
7850
自动驾驶中机器学习算法应用大盘点
A.机器学习入门算法(三):K近邻(k-nearest neighbors),鸢尾花KNN分类,马绞痛数据--kNN数据预处理+kNN分类pipeline
kNN(k-nearest neighbors),中文翻译K近邻。我们常常听到一个故事:如果要了解一个人的经济水平,只需要知道他最好的5个朋友的经济能力, 对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。
汀丶人工智能
2023/03/22
1.8K0
A.机器学习入门算法(三):K近邻(k-nearest neighbors),鸢尾花KNN分类,马绞痛数据--kNN数据预处理+kNN分类pipeline
大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标
  一组数据的集合被称作数据集,用于模型训练的数据集叫训练集,用于测试的数据集叫测试集。一个数据集包含多条数据,一条数据包含多个属性。
黑泽君
2019/05/14
5520
大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标
机器学习的第一个难点,是数据探索性分析
当我们在进行机器学习领域的学习和研究时,遇到的第一个难点就是数据探索性分析(Exploratory Data Analysis)。虽然从各种文献中不难了解到数据探索性分析的重要性和一般的步骤流程,但是在面对实际问题时,往往会有不知道从哪儿下手以及不知道怎么根据分析结果来优化算法的困境。
AI科技大本营
2021/03/12
6610
机器学习的第一个难点,是数据探索性分析
机器学习-03-机器学习算法流程
定义问题(Problem Definition) -> 数据收集(Data Collection) -> 数据分割(Dataset Spit up) -> 模型训练(Model Training) -> 模型评估(Model Evaluation) -> 应用部署(System Deployment) -> 改变世界(Impact the world)!
用户2225445
2024/02/29
2120
机器学习-03-机器学习算法流程
推荐阅读
相关推荐
算法工程师-机器学习面试题总结(1)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档