为什么我的confusionMatrix中有NAs在做KNN？ - 腾讯云开发者社区

knn = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2) knn.fit(X_train, y_train) previsoes...= knn.predict(X_test) cm = ConfusionMatrix(knn) cm.fit(X_train, y_train) cm.score(X_test, y_test) score_knn...0.02, random_state = 0) ada_boost.fit(X_train, y_train) previsoes = ada_boost.predict(X_test) cm = ConfusionMatrix...，我们可以看到我们的大部分数据没有睡眠问题，那些有睡眠问题的数据在两个类别之间很好地平衡(睡眠呼吸暂停和失眠)，当我们查看连续变量时，我们没有发现它们之间的模式，查看箱线图时，我发现没有必要处理异常值，...当我们看可变职业时，有趣的是看到一些职业比其他职业更容易有睡眠问题，另一个引起我注意的变量是年龄变量，老年人更容易有睡眠问题。

2731 0

数据分析中非常实用的自编函数和代码模块整理

我一直认为这是一个很好的习惯，你的自编函数或者说是代码模块积累得越多，对于以后的建模工作来说会更加轻车熟路，这也是每一个数据分析师在工作的过程当中积累的宝贵经验。...说了这么多，今天给大家分享几个我平时用得比较多，实用性也比较强的自编函数和代码模块，方便大家借鉴参考。...（基于knn算法）上述按照中心趋势进行缺失值填补的方法，考虑的是数据每列的数值或字符属性，在进行缺失值填补时，我们也可以考虑每行的属性，即根据变量之间的相关关系填补缺失值。...当我们采用数据集每行的属性进行缺失值填补时，通常有两种方法，第一种方法是计算k个（我用的k=10）最相近样本的中位数并用这个中位数来填补缺失值。...在数据分析最头痛，最花时间的数据清洗和数据预处理环节，通过直接调用模块化函数，大大的节省了我们耗费的时间，提高数据分析工作的效率。我是雷锋，下次再见！

1.1K10 0

您找到你想要的搜索结果了吗？

是的

没有找到

分类模型的评价方法

4、R&Python中的混淆矩阵及指标计算 4.1 R语言中的混淆矩阵这里使用iris数据集来实现简单的knn分类，并使用R中的混淆矩阵来对其进行性能解读。...，这里我删掉一类，并将字符型的类别进行数字编码。...(train_data,test_data,train_label,k =5,prob=TRUE) #混淆矩阵输出： confusionMatrix(test_label,test_pre_labels...c("Prediction","Actutal")) table(test_label,test_pre_labels,dnn = c("Actutal","Prediction")) caret包中的confusionMatrix...= neighbors.KNeighborsClassifier() model_KNN.fit(X_train,train_target) #预测结果 Pre_label = model_KNN.predict

1.4K2 0

独家 | 规范性分析的实用介绍（附R语言案例研究&演示代码）

我还提供了我的Github存储库上的完整代码。...制定我们的模型构建方法现在我们有了数据集、问题陈述和假设要测试，是时候让我们开始做事情了。让我们仔细研究一下数据，看看能得出什么样的见解。我在下面的插图中总结了我的方法。...请注意，这是我的方法——您可以改变内容，并在您的终端上利用数据。例如，我们正在删除丢失值超过30%的变量，但您可以对此进行自己的调用。 ?...names(mydata)%in%Variables_with_High_NAs] #13 variables removed 如上图所示，我们删除了所有丢失值超过30%的变量。...与其他模型相比，逻辑回归似乎给出了最好的结果。LG_26是一个逻辑回归模型，阈值为26%。如果你在这方面有所提高，请告诉我——我很高兴听到你对如何处理这个问题的想法。

1.1K2 0

写给开发者的机器学习指南（六）

所以在开始工作之前，我假设你在你最喜欢的IDE中创建了一个新项目，并将smile-core和smile-plot库添加到你的项目中。使用时的额外的库，以及如何获取示例数据按照示例进行处理。...对于此，GUI是开源的，因为它没有真正添加任何值。回忆一下机器学习的全局概念，在机器学习中有两个关键部分：预测和验证。首先我们来看看验证，因为使用没有任何验证的模型永远不是一个好主意。...这里验证模型的主要原因是防止过拟合。然而，即使我们可以在做验证之前，也应该选择正确的K. 这个算法地缺点是没有用于找到正确的K值的黄金规则。...这就是为什么有一个足够大和代表性的数据集是一个良好的机器学习应用程序的关键。然而，当意识到这个问题，你可以不断根据新的数据和已知正确的分类不断更新你的模型。让我们回顾一下我们迄今为止做了什么。...这是更容易分类的点之一，因为它清楚地在图中的数据点的 Alpha字段中。因为现在很清楚如何做这些预测，我不会介绍给你其他点，但随时可以尝试不同的点去进行预测。

4582 0

Reddit用户长文「哭诉」：我不是算法工程师，我是「调参侠」

我想不是每个人都有勇气回答，但这种焦虑确实存在每个从业人员心中。各大公司都在研发机器学习平台，想要把搭模块当做积木一样。前两年火爆的神经网络架构搜索（NAS）相关研究的目的也是「搭积木做模型」。...我不知道自己在做什么，无论做什么都都觉得没有意义。有一次采访，他们问我，你们是否使用Git或单元测试？谁来review代码？如何交付代码和持续集成？我知道这些问题我都回答不了。...我很焦虑，或许我的同事们都在泡沫里工作吧！他们不想学习新的技术，甚至讨厌我的进取心。我已经工作4年了，但我觉得我比刚毕业的时候更沮丧。后来我开始找工作，然后面试。...面试官问我KNN的原理，我才发现我根本不知道公式！是的，我学过，但是我忘了！现在我只需要 sklear.neighbors 就可以了。我感觉很难过，我觉得我的能力没有进步。...我想知道如果我当初选择做软件开发，是否会好一些？可能我命中注定是失败者吧！我身边也都是充满了自我感觉良好的人，我觉得10年后，们的工作内容也还是这些。理想和现实的差距在哪里？

5951 0

群晖（Synology）NAS 后台安装 Docker 后配置 PostgreSQL

群晖（Synology）NAS 的后台在新版本对 Docker 不再称为 Docker，现在改称为 Container Manager 了。单击进入后运行 Container Manager。...在 PostgreSQL 的容器设置中有 2 个参数比较重要。端口第一个是 PostgreSQL 的端口，默认是 5432，但是不知道为什么我的 NAS 提示 5432 端口被占用了。...我选择的端口是 5433 来进行映射。在局域网中，我们需要端口 5433 来链接运行在 5422 的 PostgreSQL 服务。...环境变量另外一个重要的环境变量是 POSTGRES_PASSWORD，这个是连接 PostgreSQL 的默认密码。如果这个变量不设置的话，PostgreSQL 容器是没有办法启动的。...https://www.isharkfly.com/t/synology-nas-docker-postgresql/14719

8852 0

Reddit用户长文「哭诉」：我不是算法工程师

6795 1

一个CV算法工程师的小反思

还有全连接的耗时可能在有些平台上也不太行。简单来说除了conv relu，其他的东西都要在做之前有个调研和考虑。还有可能会有限制输出Tensor数量和输入Tensor数量的问题。...FP16训练，量化训练，demo可视化，BadCase分析，多测试集评估，NAS搜索，跨数据集训练(A数据中有人体，B数据也有人体，但是标注的label不同，需要制定一套方案把不同的数据集中的标签重定义...其中有些不是必要的就不加要用好vim和shell,在CV任务里面vim最常用的是一些文件的合并，交集，差集，排序，去重等等。...，attention模块，多尺度，特征融合，合适的backbone，NAS搜索(应该大家都在做)，量化训练，剪枝。...我要做的就是总结下为什么没有把事情做好，去反思自己遇到的哪些问题，走了哪些弯路，下次不要再犯。不要抱怨家庭的出生，抱怨永远解决不了问题，已经五六十岁的父母难道还指望他们改变你的命运让你成为富二代？

7611 0

什么是语义分割_词法分析语法分析语义分析

大家好，又见面了，我是你们的朋友全栈君。...此外：对列求和的理解挺“别扭”的，分享一下我的理解技巧：看列时，首先想到是以模型预测为出发点（既然是预测，肯定有对有错），其次是模型对该列对应类别的预测总数是多少，最后才判断预测的对与错，即：“列是预测...：模型对类别 i 的预测值有很多，其中有对有错，预测对的值占预测总值的比例混淆矩阵计算：类1：P1 = TP / (TP + FP) 类2：P2 = TN / (TN + FN) 类3：… MPA...) # 取对角元素的值，返回列表 union = np.sum(self.confusionMatrix, axis=1) + np.sum(self.confusionMatrix,...不知道我说清楚了吗？

1.3K2 0

「我」做算法工作的小反思！

2962 0

工业界第一手实战经验：深度学习高效网络结构设计

这一年来一直在做高效网络设计的工作，2018年即将结束，是时候写一篇关于高效网络设计的总结。首先看看当前业界几个最负盛名的高效网络简介： ? 以上网络的目标主要有三个：权重少、计算少、速度快。...convolution 4、避免网络分支太多，或者group太多 5、减少element wise的操作既然已经有这么多高效网络，为什么要我们还要重新设计网络？...网络设计的未来从nasnet和mnasnet的相继推出，以及我自己设计网络的实践经历来看，我认为最终网络设计会完全被机器替代。...如果有公司能够提供比算法工程师更便宜的nas服务，我想大部分从事网络设计的算法工程师就可以下岗了，就跟当年工业革命，纺纱机出现了之后，纺织工人最后要么被裁，要么自谋出路。...nas服务是一群这个领域内最厉害科学家所设计的服务，nas所设计出来的模型以后必然会比大部分算法工程师好，如果nas服务又好又便宜，那么大部分公司应该都不需要雇佣算法工程师。

5344 0

入门必备 | 一文读懂神经架构搜索

ResNet是一个巨大的架构，遍布各种跳跃连接。当我使用这个ResNet作为自己机器学习项目的预训练网络时，我想的是“怎么会有人提出这样的体系结构呢?”' ?...大型人类工程图像分类体系机构不久之后，我了解到许多工程师和科学家用他们多年的经验构建了这种架构后。并且还有更多的直觉而不是完整的数学将告诉你“我们现在需要一个5x5过滤器以达到最佳精度”。...因此神经架构搜索(NAS)，自动化架构工程的过程就出现了。我们只需要为NAS系统提供数据集，它将为我们提供该数据集的最佳架构。NAS可以被视为AutoML的子域，并且与超参数优化具有明显的重叠。...要了解NAS，我们需要深入研究它在做什么。它通过遵循最大化性能的搜索策略，从所有可能的架构中找到架构。下图总结了NAS算法。 ? NAS方法的维度它有3个独立的维度：搜索空间、搜索策略和性能评估。...PNAS的步骤差异化架构搜索（DARTS）用于神经架构的搜索空间是离散的，即一种架构与另一种架构的不同之处至少在于该架构中有一层或一些参数，例如，5x5滤波器对7x7滤波器。

1.1K1 0

机器学习-7：MachineLN之激活函数

你要的答案或许都在这里：小鹏的博客目录很长一段时间都在想，有些问题不去弄明白为什么，遇到瓶颈就傻逼了，一个bug整你一个月，原来只是一个细节问题，就好如：你不知道从哪里来？...现在遗留的小问题，将来都会是大问题！真的，有时候需要回过头来重新开始，整理总结再去前行，也许会走的更远。那么我的问题是：（1）什么是激活函数？（2）激活函数的作用是什么？...（4）各自的优缺点是什么？（解答完1、2、3，就有了答案了）看到这里，你的答案是什么？下面是我的答案：（1）什么是激活函数？...下面图来自公众号忆臻笔记，一个用心在做的公众号。...机器学习-13：MachineLN之kNN 14. 机器学习-14：MachineLN之kNN源码 15. 机器学习-15：MachineLN之感知机 16.

3043 0

All in 区块链迅雷“去中心化”再升级

在采访中陈磊告诉记者，如今的迅雷的确需要转型，但是转型的机会并不是发现行业中什么最火热我们就做什么，“如果我们像BAT一样提出口号‘All in AI’，我估计我们的四亿用户肯定会觉得迅雷疯掉了。”...业内人士都知道，nas是给专业用户使用的，这些用户的使用深度和使用习惯与普通用户有区别，nas的设计想必是复杂而又不便操作；玩客云解锁了“轻nas”的模式，产品上更贴近网盘的便捷，但隐私保护和服务系统却堪比...nas，更重要的一点比nas更便宜，最最重要的一点是玩客云充当了迅雷共享计算的节点。...从区块链1.0开始，业界就意识到以暴涨暴跌为特质的比特币其实是有一些先天的问题，我们说比特币为什么值钱？...谷歌为什么能够改变互联网技术的体系架构？是因为它最早遇到了这么大规模的挑战。迅雷也在做同样的事情。”陈磊补充道。

1.4K8 0

睡前闲聊 | 为KNN鸣不平

今天聊KNN。 KNN不是“夸你呢”的缩写，全称K-NEAREST NEIGHBOR，取首字母缩写为KNN，中译一般叫“K最近邻算法”，是一种常用的机器学习算法。为什么想起来聊KNN呢？...这是因为最近读了好几本机器学习的书，发现了一个很有趣的现象，忍不住和大家分享。机器学习的书我常说，一般分两种，一种偏数学，一种偏编程。偏编程的机器学习教材，基本都把KNN排在前几章比较靠前的位置。...那么，有趣的事情就来了。偏数学的机器学习教材恰恰相反，我发现很多干脆不提KNN，连那本著名的神书PRML，厚达700多页，基本上把机器学习中值得一提的题材都八卦完了，却也没有提KNN半个字。...KNN是何方神圣，为什么会造成这么大的反差呢？因为简单。 KNN真的很简单，主要算法都写在名字里了。...为什么好用？那就是另一个故事了，找机会再聊。现在讲图像识别的书相当多，各种CNN模型眼花缭乱，不过，如果要我来写的话，我会从KNN这款图像分类算法的老前辈写起，历史传承，饮水思源嘛。下次再聊。

2362 0

NAS 扩容简明指南：使用各种外设给 NAS 们扩容

这篇文章分享下我目前使用外设给 NAS 扩容的思路，如何以相对低的成本来获取更大的容量和更稳妥的数据存放体验，也聊聊入手了几个月的硬盘阵列盒，以及之前使用过的各种模式的好处和踩坑之处。...而且，除了要考虑磁盘位的平均成本之外，还需要考量的是，未来在做数据迁移时的成本：你的硬盘在使用三年五载之后，或许该换了。如果你存储的数据真的对自己是有价值的，珍贵的回忆的话。...说起来，NAS 扩容确实有很多方案，我这里提几种我使用过的。硬件升级：购置更高规格的磁盘或 NAS 这个是初期最简单的方案，也是终极方案，但是不是本文推荐的方案。...（不能吐槽了，容易收不住）阵列硬盘盒聪明的你，看完上文后，一定会好奇，为什么不插上两套上文提到的 USB 硬盘盒，来搞定问题呢？...我个人希望，我的 NAS 扩展的是可靠的存储，外部存储也能够使用 RAID 镜像模式存储，多一分可靠性。所以，从 NAS 中定期备份一些我认为还比较宝贵的记忆到这个扩展阵列里。

8961 0

深入浅出KNN算法

1、大致了解KNN 一提到KNN，很多人都想起了另外一个比较经典的聚类算法K-means，但其实，二者之间是有很多不同的，这两种算法之间的根本区别是：K_means本质上是无监督学习而KNN是有监督学习...这两句话的大概意思就是，你周围大部分朋友是什么人，那么你大概率也就是这种人，这句话其实也就是KNN算法的核心思想。...表达式如下： 2.明可夫斯基距离（Minkowski Distance）明可夫斯基距离是一种对多种距离的概括性描述，其表达式如下：为什么说是一种概括性描述，因为当p=2时，明氏距离其实就是欧氏距离...算法步骤可以大致分为如下几个步骤： 1.计算想要分类的点到其余点的距离2.按距离升序排列，并选出前K(KNN的K)个点，也就是距离样本点最近的K个点3.加权平均，得到答案这里大致解释一下三个步骤，...比如我要预测x是属于哪一类，训练集里面有很多数据，我先算出x到其他所有点之间的距离，取前K个距离样本比较小的点，然后我们发现这K个点当中有5个属于class 1，K-5个属于class 2 。

5412 0

NAS打造自己的私有云存储

今天给大家分享下我的NAS搭建方案，去年双十一的时候入手了一套NAS设备，用了几个月时间，好用是好用，但确实还没发挥出其价值，目前它最大的功能就是给我的mac做time-machine备份，要是没这个备份的话...先说下我为什么不用云盘备份数据，而是选择要自建NAS。其实几年前，我用某度网盘还比较多，但最近由于众所周知的原因，我放弃了某度网盘（超级会员劝退），网盘存的那些学习资料我也不准备要了。...，如果再不相信那么一摔…… 第三个原因，自建NAS的成本相对的也不再那么的贵，入门级的NAS几千块钱就能搞定，但对我数据存储的体验却是质的提升。...硬盘我买的是希捷酷狼6T NAS专用盘，单盘双十一入手价1256￥ (现价1199)，我买了俩组了RAID1。为什么我买4盘位的NAS却这买俩硬盘？...NAS上的frpc和云服务器上的frps链接成功后，我就可以通过云服务器作为跳板，在公网访问到我NAS上的数据了。

12.1K4 1

「冒名顶替综合征，还是我真的不行？」硕士学位、4年CS工作经验，但我感觉自己什么都不会

看起来是在做机器学习的相关工作，实则这个工作可以被任何人取代。从这位 reddit 用户的学历和经历来看，情况应该不至于这么糟糕吧。有学历，又有工作资历，为什么会怀疑自己什么都不会呢？...有一天她问我为什么要用 GitHub 来编写所有代码。还有一次她问我为什么写函数，为什么需要函数式编程。她认为写函数是无用的，会使代码变得复杂。」...发帖人认为自己每天都在做重复性的工作，没有尝试新事物的空间，更别提做项目提升自己了。甚至没有人在意自己。...怪不得我在别的地方找不到工作。我有 4 年的工作经验，但现在的状况比刚毕业时还糟糕。」发帖人表示申请过其他职位，但面试机会很少，而且面试时经常被问一些基础问题，例如 KNN 的工作原理。...你每天做的大部分事情对你来说都很简单，但那只是因为你每天都在做。根据我的经验，大多数数据科学家都在做你所说的事情。」发帖人还表示后悔从 IT/CS 转到生物信息学，后悔接受学术职位。

3041 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

睡眠健康数据分析

数据分析中非常实用的自编函数和代码模块整理

分类模型的评价方法

独家 | 规范性分析的实用介绍（附R语言案例研究&演示代码）

写给开发者的机器学习指南（六）

Reddit用户长文「哭诉」：我不是算法工程师，我是「调参侠」

群晖（Synology）NAS 后台安装 Docker 后配置 PostgreSQL

Reddit用户长文「哭诉」：我不是算法工程师

一个CV算法工程师的小反思

什么是语义分割_词法分析语法分析语义分析

「我」做算法工作的小反思！

工业界第一手实战经验：深度学习高效网络结构设计

入门必备 | 一文读懂神经架构搜索

机器学习-7：MachineLN之激活函数

All in 区块链迅雷“去中心化”再升级

睡前闲聊 | 为KNN鸣不平

NAS 扩容简明指南：使用各种外设给 NAS 们扩容

深入浅出KNN算法

NAS打造自己的私有云存储

「冒名顶替综合征，还是我真的不行？」硕士学位、4年CS工作经验，但我感觉自己什么都不会

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐