开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么用纯python计算ROC-AUC得分太长？

使用纯Python计算ROC-AUC得分可能会导致计算时间过长的问题。这是因为Python是一种解释型语言，相比于编译型语言，其执行速度较慢。此外，Python中的一些内置函数和数据结构在处理大规模数据时也可能效率较低。

为了提高计算ROC-AUC得分的效率，可以考虑以下优化方法：

使用NumPy和SciPy库：这些库提供了高性能的数值计算和科学计算功能，可以加速计算过程。例如，可以使用NumPy的数组操作和向量化计算来替代Python的循环操作，从而提高计算效率。
并行计算：利用多核处理器的并行计算能力，可以将计算任务分解为多个子任务并行执行，加快计算速度。可以使用Python的多线程或多进程库（如multiprocessing）来实现并行计算。
使用专门的机器学习库：许多机器学习库（如scikit-learn、TensorFlow等）提供了高效的ROC-AUC计算方法，这些方法经过了优化和并行化处理，可以大幅提高计算速度。
数据预处理和特征选择：在计算ROC-AUC之前，可以对数据进行预处理和特征选择，以减少计算的复杂性和数据量。例如，可以使用特征选择算法来选择最相关的特征，从而减少计算的维度。
使用其他编程语言的扩展库：如果对计算速度有更高要求，可以考虑使用其他编程语言（如C++）编写扩展库，并通过Python的接口进行调用。这样可以充分利用其他语言的高效性能。

总之，纯Python计算ROC-AUC得分可能会导致计算时间过长，但通过使用优化方法和相关库，可以提高计算效率并加快计算速度。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

机器学习模型的度量选择（下）

从数学上讲，它是由灵敏度曲线（TPR）下的面积计算的。 FPR（1-特异性）。理想情况下，我们希望具有高灵敏度和高特异度，但在实际情况下，敏感性和特异度之间始终存在权衡。...ROC-AUC的一些重要特征是该值的范围可以是0到1。然而，平衡数据的随机分类器的auc得分是0.5 ROC-AUC评分与分类阈值集无关。...此外，你可以注意，对于不同的阈值，F1得分会变化，在默认阈值为0.5时，F1更喜欢模型1而不是模型2。...让我们看看F1得分和ROC-AUC得分是否都能捕捉到这种差异模型（1）的F1得分=2*(1)*(0.1)/1.1 = 0.095 模型（2）的F1得分= 2*(1)*(0.9)/1.9 = 0.947...目前还没有成熟的ROC-AUC多类评分。多类的log损失定义为：在微平均法中，将系统中不同集合的真正例、假正例和假反例进行汇总，然后应用它们得到统计数据。

7792 0

在不平衡数据上使用AUPRC替代ROC-AUC

每个阈值代表一个二元分类器，其预测对其上方的点为正，对其下方的点为负——评估度量是针对该分类器计算的。图 1：在给定概率和基本事实的情况下，计算 ROC 曲线和 PRC。...ROC-AUC 是“均匀抽取的随机正例比均匀抽取的随机负例得分更高的概率”。...对于上述严重的数据不平衡的数据集，当我们统一绘制一个随机负样本时，因为数据的不平衡，负样本更容易收集，所以我们无法确认这个负样本的有效性，但是得分确实很高。...对于不平衡的数据我们高兴取得的是，正例（数据量少的）是如何得分的而不是负例（数据量大的），ROC-AUC 不区分这些，但 AUPRC 却很敏感。...总结尽管 ROC-AUC 包含了许多有用的评估信息，但它并不是一个万能的衡量标准。我们使用 ROC-AUC 的概率解释进行了实验来支持这一主张并提供了理论依据。

1.2K1 0

在不平衡数据上使用AUPRC替代ROC-AUC

每个阈值代表一个二元分类器，其预测对其上方的点为正，对其下方的点为负——评估度量是针对该分类器计算的。图 1：在给定概率和基本事实的情况下，计算 ROC 曲线和 PRC。...ROC-AUC 是“均匀抽取的随机正例比均匀抽取的随机负例得分更高的概率”。...对于上述严重的数据不平衡的数据集，当我们统一绘制一个随机负样本时，因为数据的不平衡，负样本更容易收集，所以我们无法确认这个负样本的有效性，但是得分确很高。...对于不平衡的数据我们高兴取得是，正例（数据量少的）是如何得分的而不是负例（数据量大的），ROC-AUC 不区分这些，但 AUPRC 却很敏感。...总结尽管 ROC-AUC 包含了许多有用的评估信息，但它并不是一个万能的衡量标准。我们使用 ROC-AUC 的概率解释进行了实验来支持这一主张并提供了理论依据。

1K2 0

每个Kaggle冠军的获胜法门：揭秘Python中的模型集成

那么，我们该如何使用 Python 集成各类模型呢？本文作者，曼彻斯特大学计算机科学与社会统计学院的在读博士 Sebastian Flennerhag 对此进行了一番简述。...决策树的 ROC-AUC 得分：0.672 每个叶节点记录它们在训练样本中的比例、类别分布和类别标签预测。我们的决策树根据捐款金额是否超过 101.5 进行预测：它竟然作出了同样的预测！...决策树的 ROC-AUC 得分：0.751 该模型并不比简单的决策树好太多：预测到的共和党捐款金额比例只有 5%，远远低于 25%。...决策树的 ROC-AUC 得分：0.740 ROC-AUC 得分与上树得分类似，但是共和党捐款比例增加至 7.3%。还是很低，但比之前稍高一些。...计算复杂度 2. 结构复杂度（信息泄露的风险） 3. 内存用量理解它们对于高效使用集成方法来说非常重要，让我们一一道来。 1. 计算复杂度假设我们需要使用 10 折堆叠。

3.2K10 0

基于AI的脑电信号独立成分的自动标记工具箱

ML模块基于Python库，该库根据专家标记训练ML模型，并使用预先训练的ML模型应用于新的IC数据。图1....然后选择最佳模型，并将其导出为Python pickle-object（Python的一种数据存储方式）。...独立组件分类：将LR、XGB和SVM作为ML模型，并计算ROC-AUC和PR-AUC评分作为性能指标。我们分别为每种IC类型选择了三种型号。...基于ROC-AUC曲线，所有模型对于大多数IC类都显示出可比较的性能（ROC曲线见图3，数值见表2）。其中Brain、Eyes和Muscle模型的ROC-AUC均大于0.9。...随着越来越多的研究人员和临床医生为这个平台做出贡献，该平台逐渐发展为医学科学家和极客社区的中心，涵盖睡眠研究、中风康复、癫痫诊断、脑机接口等等。

4582 0

将文本特征应用于客户流失数据集

基于TF-IDF的词汇抽取 # 加载程序包 from sklearn.feature_extraction.text import TfidfVectorizer import math # 计算语料库中的词...我将fold数设置为10，并将平均准确度和平均roc_auc_score分数作为最终输出。...如你所见，通过添加这三个新特征，准确度得分比基础模型提高了2.7%，roc-auc分比基础模型提高了1.3%。...如图所示，最终的准确度得分和roc_auc得分分别上升了3.8%和1%。...对于超参数调整，我发现本文可能很有用：https://towardsdatascience.com/hyperparameter-tuning-the-random-forest-in-python-using-scikit-learn

8694 0

效果绝了！用爬山算法集成6个机器学习模型

，~23% 为真）。...接下来，我们计算每个输入特征中唯一值的数量，如下所示。...score is ==>', hill_ens_score_fold)1 print('10-folds 的 ROC-AUC 平均集合得分是', np.mean(ens_cv_scores)) print...('10-folds 的 ROC-AUC 爬山策略得分是', np.mean(hill_ens_cv_scores)) 10-folds 的 ROC-AUC 平均集合得分是0.7917392082505299...10-folds 的 ROC-AUC 爬山策略得分是0.7932600401008065 写作最后下面给大家总结了一个爬山策略的工程代码，大家可酌情使用。

1411 0

搞定NLP领域的“变形金刚”！手把手教你用BERT进行多标签文本分类

对于多标签分类，更重要的指标是ROC-AUC曲线。这也是Kaggle比赛的评分指标。我们分别计算每个标签的ROC-AUC，并对单个标签的roc-auc分数进行微平均。...如果想深入了解roc-auc曲线，这里有一篇很不错的博客。...各个标签的ROC-AUC分数：普通恶评：0.9988 严重恶评：0.9935 污言秽语：0.9988 威胁：0.9989 侮辱：0.9975 身份仇视：0.9988 微观平均ROC-AUC得分：0.9987...现在看看我们在Kaggle排行榜上的得分。 Kaggle竞赛结果我们在Kaggle提供的测试数据集上运行推理逻辑，并将结果提交给竞赛。...以下是结果：我们的roc-auc评分达到了0.9863，在所有竞争者中排名前10％。为了使比赛结果更具说服力，这次Kaggle比赛的奖金为35000美元，而一等奖得分为0.9885。

1.8K3 0

图与图学习（中）

的邻居可以表示为： ? image ? 的邻居： ? image 1. 相似度分数我们可以根据它们的邻居为这两个节点建立几个相似度分数。公共邻居： ? ，即公共邻居的数量。...image 因此，Jaccard系数由粉红色与黄色的比率计算出： ? image 值是 ? 。 Adamic-Adar指数： ? 。...Adamic-Adar # 我们现在计算Adamic-Adar指数和对应的ROC-AUC分数 # Prediction using Adamic Adar pred_adamic = list(nx.adamic_adar_index...Preferential Attachment # 同样，我们可以计算Preferential Attachment得分和对应的ROC-AUC分数 # Compute the Preferential...接下来我们用python来实现节点标签的预测。为了给我们使用到的标签添加更多的特征，我们需要使用来自Facebook的真实数据。你可以再这里下载，然后放到facebook路径下。

1.2K1 0

机器学习模型性能的10个指标

与准确率不同，精确度计算的是模型预测为正样本的实例中，实际为正样本的比例。换句话说，精确度回答了一个问题：“当模型预测一个实例为正样本时，这个预测有多少概率是准确的？”...具体来说，召回率计算的是模型预测为真阳性的实例与实际正样本总数的比率。这个指标回答了一个问题：“在所有实际为正样本的实例中，模型正确预测了多少？”...即使模型对某个正样本的预测概率较低，只要该样本实际上是正样本，并且被模型正确预测为正样本，那么这个预测就会计入召回率的计算中。...通过观察和比较不同模型的ROC-AUC得分，我们可以更加全面地了解模型的性能，并选择出具有更好辨别能力的模型。 6....与ROC-AUC相比，PR-AUC更注重精确性和召回率之间的权衡。精确性衡量的是模型预测为正样本的实例中实际为正样本的比例，而召回率衡量的是在所有实际为正样本的实例中，模型正确预测为正样本的比例。

2.3K2 0

TensorFlow Eager 教程

精准率得分上面计算的混淆矩阵使得计算平均精确率非常容易。我将在下面实现一个函数，它会自动为你计算。你还可以指定每个类的权重。例如，由于某些原因，第二类的精确率可能对你来说更重要。...在这些情况下，评估网络性能的更合适的指标是 ROC-AUC 得分。那么，让我们构建我们的不平衡数据集并开始研究它！...ROC-AUC 得分为了计算 ROC-AUC 得分，我们将使用tf.metric.auc的相同方法。...ROC-AUC 得分并获得每个阈值的 TPR 和 FPR auc_score, fpr_list, tpr_list = roc_auc(y, preds, thresholds) print('ROC-AUC...这个指标计算输入特征与目标之间的变异百分率，由我们的模型解释。R^2 得分的值范围介于 0 和 1 之间。R^2 得分为 1 意味着该模型可以进行完美的预测。

8512 0

秋招被虐，最终拿下腾讯和字节offer！

unuse1字符； 2、FastText和Word2vec的区别； 3、Xgboost和Adaboost、GBDT、随机森林，随机森林如何采样； 4、怎么解决人工漏标、错标，NER的损失函数，关系抽取为什么用这个模型...、语言模型，Word2vec，具体流程，损失函数，优化算法（hierarchical softmax、negative sampling）； 3、逻辑回归损失函数为什么取log； 4、模型评估，F1、ROC-AUC...的Resnet的区别，Densenet； 2、Transformer在哪些地方体现了共享和并行； 3、is 和 ==区别； 4、re match 和 search； 5、range返回的是什么； 6、python...opinion、sentiment； 3、反问：部门规模、氛围、交流，管理；四面（通过）： 1、比赛负责什么，每个人的分工； 2、情感识别的建模思路； 3、知识图谱：项目背景，有考虑意图识别么，实体消歧，为什么用...glove（推导公式）、fasttext、ELMO、CoVE（不了解）、GPT、BERT、ERNIE（清华的不了解）、ERNIE 2.0、Bert-wwm、Roberta、Xlnet；你好，我是对白，清华计算机硕士

5982 0

盘一盘 Python 系列特别篇 - Sklearn (0.22)

在〖机器学习之 Sklearn〗一贴中，我们已经介绍过 Sklearn，它全称是 Scikit-learn，是基于 Python 语言的机器学习工具。...一行画出 ROC-AUC 图实现堆积法 (stacking) 为任何模型估计特征重要性用 k-近邻法来填充缺失值首先加载下面例子共用的包。...AUC 将所有可能分类阈值的评估标准浓缩成一个数值，根据 AUC 大小，我们得出如何计算 AUC 和计算 PR 曲线下的面积一样的，把横坐标和纵坐标代表的变量弄对就可以了，如下图。...gbc.score(X_test, y_test) clc.score(X_test, y_test) 0.9482142857142857 0.8391428571428572 1.0 集成分类器的得分比随机森林分类器和梯度提升分类器都高...一行画出 ROC-AUC 图，代码用 from sklearn.metrics import plot_roc_curve II.

1.1K4 0

机器学习中评估分类模型性能的10个重要指标

准确度指标的得分为72%，这可能给我们的印象是，我们的模型在分类方面做得很好。但是，仔细看，这个模型在预测负面的类标签方面做得很糟糕。在100个总的阴性标记观察中，它只预测了20个正确的结果。...上图所示的示例表明，精度得分为75%。精度通常用于最重要的情况，即不存在大量误报。...这就是ROC-AUC如何帮助我们判断分类模型的性能，并为我们提供从多个分类模型中选择一个模型的方法。...在这里，您可以看到大多数数据都在负标签下，ROC-AUC不会捕获该信息。在这些场景中，我们转向PR曲线，这只是精确召回曲线。...在PR曲线中，我们将计算并绘制Y轴上的精度和X轴上的调用，实际情况PR曲线正好与ROC曲线相反，所以这里就不再展示了。作者：Juhi

1.5K1 0

初学Python

1989年的圣诞节期间，吉多·范罗苏姆为了了在阿姆斯特丹打发时间，决心开发一个新的脚本解释程序，作为ABC语言的一种继承。...目前Python主要应用的领域有:云计算、web开发、科学运算、人工智能、系统运维、金融。　　...编译型：把写好的程序编译成计算机认识的二进制　　优点：一次编译到处运行、运行效率高、开发效率低　　缺点：编译之后如果需要修改就需要整个模块重新编译　　解释型缺点：运行慢、代码不能加密...　　优点：开发效率高、简单当我们编写Python代码时，我们得到的是一个包含Python代码的以.py为扩展名的文本文件。...不能数字开头, 更不能是纯数字　　3. 不能用关键字　　4. 不要用中文　　5. 要有意义　　6. 不要太长　　7. 区分大小写　　8.

5411 0

独家 | 利用深度学习来预测Spotify上的Hip-Hop 流行程度

其中，基于循环神经网络的最复杂的模型表现最好，准确率为 59.8%，而ROC-AUC 为 0.646。这意味着比起基准情况，其准确度提高了 9.1% 和 0.146。...使用 Spotify Web API 的 Python 接口 Spotipy，我收集了2019-2021年发布的“Hip-Hop”类型的随机歌曲的信息。随机音轨是根据此处概述的方法生成的。...而且它们都有不同的流行程度得分。尽管有来自不同专辑（单曲、专辑等）的重复歌曲，但它们通常有不同的流行程度，所以这仍然是有用的信息。故只要它们的流行程度不同，我就会保持这些重复值。...Jack Harlow)”—一首非常受欢迎的歌曲，它的原始流行程度得分为 90。如你所见，它长达 30 秒并具有各种幅度。...如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

7521 0

ACS Cent Sci｜机器学习辅助药物高通量筛选中的优先级识别

使用GBM代替神经网络计算样本影响的优点是：重要性得分的计算速度更快、鲁棒性更强，以及对不平衡的高通量筛选数据的分类性能。LightGBM是GBM模型的一个常用的实现框架。...在本研究中，将所有数据集的MVS-A分数最低的10%的样本视为真阳性，最高的10%的样本为假阳性。图1 MVS-A结构图作者在补充材料中详细说明了MVS-A的计算过程。...analysis，MVS-A）得分。...因此，MVS-A分数可以刻画样本为假阳性的概率，更高的MVS-A得分意味着样本更可能为假阳性，反之则意味着样本更可能为真阳性。结果作者将MVS-A与一些具有代表性的方法进行了比较。...BEDROC（α=20）表示在计算ROC-AUC的过程中进行加权，使得20%的样本（在MVS-A中是指MVS-A分数最低的20%的样本）具有80%的权重。

1951 0

ElasticSearch实战指南必知必会：安装分词器、高级查询、打分机制

在Lucene和es中这种相关性称为得分。在开始计算得分之前，es使用了被搜索词条的频率和它有多常见来影响得分，从两个方面理解：一个词条在某篇文档中出现的次数越多，该文档就越相关。...以达到实际的相关性得分将会对查询的词条有一个更准确地描述。当词频和逆文档词频计算完成。就可以使用TF-IDF公式来计算文档的得分了。...这里简要的介绍BM25几种主要设置，即k1、b和discount_overlaps：k1 和 b 是数值的设置，用于调整得分是如何计算的。k1 控制对于得分而言词频（TF）的重要性。...只有一个字节用于存储浮点型数值（存不下就损失精度了），所以，计算文档的最终得分时可能会损失精度。最后，boost是应用与词条的。...这一小节，我们来研究下es和Lucene内部使用了怎样的公式来计算得分。我们通过explain=true来告诉es，你要给洒家解释一下为什么这个得分是这样的？！背后到底以有什么 py 交易！

5175 0

ElasticSearch实战指南必知必会：安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

在Lucene和es中这种相关性称为得分。在开始计算得分之前，es使用了被搜索词条的频率和它有多常见来影响得分，从两个方面理解：一个词条在某篇文档中出现的次数越多，该文档就越相关。...以达到实际的相关性得分将会对查询的词条有一个更准确地描述。当词频和逆文档词频计算完成。就可以使用TF-IDF公式来计算文档的得分了。...这里简要的介绍BM25几种主要设置，即k1、b和discount_overlaps： k1 和 b 是数值的设置，用于调整得分是如何计算的。 k1 控制对于得分而言词频（TF）的重要性。...只有一个字节用于存储浮点型数值（存不下就损失精度了），所以，计算文档的最终得分时可能会损失精度。最后，boost是应用与词条的。...这一小节，我们来研究下es和Lucene内部使用了怎样的公式来计算得分。我们通过explain=true来告诉es，你要给洒家解释一下为什么这个得分是这样的？！背后到底以有什么 py 交易！

7603 0

M1 MacBook Pro vs. Intel i9 MacBook Pro，数据科学终极笔记本之战

今天，我们将在复合 benchmarks、纯 Python、 Numpy、 Pandas 和 Scikit-Learn 中比较这两台机器的性能： 2019年16寸 MacBook Pro — 英特尔...比较纯 Python 的性能第一次为数据科学配置 M1 芯片可能是一种痛苦。如果你想原生运行所有的东西，这个过程和英特尔的芯片不一样。...对相应的平方和平方根执行整除因为这是一个纯 Python 测试，所以不允许使用第三方库。...图6 ー纯 Python 性能比较虽然差别不大，但对于 M1 芯片来说仍然是一个明显的胜利。赢家: M1 MacBook Pro。以三分之一的价格获得第一名。...比较 Pandas 的性能这个 benchmark 与使用纯 Python 完成的 benchmark 非常相似。

2.7K3 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭