我们的第87篇原创 作者:才哥 ---- ☆ 大家好,我是才哥。 最近在工作中用到了华夫饼图,不过我这边主要是excel去制作,这里我们试着看看excel和python绘制华夫饼图的一些小技巧吧!...华夫饼图(Waffle Chart),或称为直角饼图,可以直观的描绘百分比完成比例情况。与传统的饼图相比较,华夫饼图表达的百分比更清晰和准确,它的每一个格子代表 1%。...Excel绘制华夫饼图 其实,用excel绘制华夫饼图的方式有多种,比较复杂的是通过插入柱状图图表后调整柱状图的规范实现;另外一种比较简单的操作则是采取单元格格式的形式,也是我们今天要介绍的方案。...一般来说,华夫饼图是由100个格子组成,一个格子代表1%。用不同颜色的格子区分不同的分类数据,以展示各部分在整体中的占比。 3.1....如果是这样,最后一个类别的格子将不会完全显示出来。因此,虽然nearest是默认的舍入规则,但floor实际上是最一致的规则,因为它避免了格子溢出。
导读:今天,我们来跟大家聊聊 Pie Chart,饼图。 我们今天讨论的问题大概就是如何作出风味不同的饼,比如,“甜甜圈”和“华夫饼”,让吃饼人不要审美疲劳。...注意一下,这个图表是三个哑铃图不是一个,但是它给提供了一些包含有用信息的维度。 ? 从上面演示的视觉角度来看,咱们很容易看出2018年家具的销售额低于办公用品和科技产品。...华夫饼图通常用100个正方形表示整体,所以可以根据几个部分与整体的关系进行着色或填充。就像饼图一样,它也适合显示单个变量的百分比。 ? 华夫饼图的关键优势是其多样性。...它可以显示整体的各个部分并比较每个类别的单个百分比。而另一个优点就是类似于树图,它更清楚地用面积而不是角度来表示每个类别的百分比。...缺点是当涉及太多的种类时它变得太过复杂了,并且没有位置放下咱们想放下的数字…… 下面是一个华夫饼图例子,巧妙地显示了癌症类型的比较存活率: ?
往期回顾: 上一篇文章结束了时间序列型图表的绘制,我们掌握了以下的绘制方法(滑动以浏览),对以往的工作做个总结。目的就是简化大家代码的书写过程,拓宽绘图方法,为科研和商业绘图提供帮助。...2 圆环图 相对于饼图,圆环图面积更小,用的也更多,也可以在中间的空洞添加文字。圆环图和饼图代码上的差异仅仅是在Pie语句中wedgeprops参数的不同。...主要缺点是难以阅读,较为适合进行数据概览。 该数据要求计算出每个类别在横向和纵向上的累计百分比,可以理解成:原来ABCD四列上的四个变量的百分比堆积图放置到了一起。...如图,数据集(dfm)已经计算了在x轴和y轴上的累计数值,绘图代码如下: from plotnine import * from plotnine.data import * base_plot = (...块状图也就是常见的华夫饼图,它以不同的颜色来表示不同的数据类别,适合快速检查出不同类别的分布和比例,并且与其他数据集比较,更容易发现其中的规律。
缺失值的常见处理方式有三种:删除缺失值、填充缺失值和插补缺失值,pandas中为每种处理方式均提供了相应的方法。...2.1.2 删除缺失值 pandas中提供了删除缺失值的方法dropna(),dropna()方法用于删除缺失值所在的一行或一列数据,并返回一个删除缺失值后的新对象。...2.1.3填充缺失值 pandas中提供了填充缺失值的方法fillna(),fillna()方法既可以使用指定的数据填充,也可以使用缺失值前面或后面的数据填充。...,但保留最后一次出现的值 df.drop_duplicates(keep = 'last') 2.4 异常值处理 2.4.1 异常值的检测 异常值的检测可以采用 3σ原则 和 箱形图检测。...需要说明的是,0和1并不代表数量的多少,而代表不同的类别。 假设变量“职业”有司机、学生、导游、工人、教师共5个类别,这5个类别分别有0和1两种取值,0代表非此种类别,1代表此种类别。
如上图所示,第一列是数据点标签,第二列第三列分别为X轴、Y轴数据,第四列(size)数据是散点面积大小(没错是为做气泡图准备的,下节会讲到),最后一列是分列标签。...从我们的案例图可以看出,该图不需要标签、只有一类,size列也可以省略。 数据整理如下:(因为是长数据,所以没有无法列出全部数据) ?...特别要注意左侧的数据标签列和size列、最后的类别列,即使你的数据不需要这三列数据,但是也要空出位置来(作图时也要框选这些空白列),不要问我为什么,think-cell chart就是这么任性。...有人会好奇我案例中那个底部带颜色的背景是怎么做出来。 ? ? 没错是用ppt的形状插入功能插入法,插入三个大小一样的矩形,填充不同颜色衬底放就可以了(就是这么简单)。...有了上面制作经验,我们可以很快的组织好散点图的数据: ? 为散点图添加标签: ? 为每一类别的散点图添加散点图形及填充色,便于区分类别。 ? 还可以为每一个数据点添加数据标签。 ?
对缺失值处理有两种方法,一种是直接对某一列中的缺失值进行处理,一种是根据类别标签,分类别对缺失值进行处理。 我们先看如何在没有类别标签的情形下修补数据。...这里需要注意的是删除某一个缺失值时,需要把和该值一个维度/行的值也一起删除,但是其他值可能对数据整体的影响比较大,所以用这种方法的时候要慎重。...我们有的时候可能需要根据类别(比如我们要根据性别这个分类来分别给身高这个缺失值进行填充)分别进行缺失值的处理,这个时候需要先把不同类别的数据找出来,这里用的是np.where()函数,该函数在前面有提到...,用该函数找出不同类别以后,处理方法就和不分类别处理的方法一致,只不过是根据类别的不同,处理的次数不同。...02|缩放数据: 缩放数据集的目的是为了防止“大数吃小数”的现象发生,大数吃小数就类似于生活中同样一个环境下声音大的盖过声音小的,最后导致只能听见声音大的发声,导致了最后的结果只考虑了声音较大的那一部分
2.1 数据漫话史—抽象、表示与存储 2.1.1“数”的起源 《山海经》、《周易》、《黄帝内经》并称为"上古三大奇书",书中记述的事情年代久远, 内容宏大而又神秘,其中都有“数术”方面的论述和演绎。...… 正当你仰天长叹根本无法完成这个艰巨的任务的时候,抬头看见密密的树林突然给 了你灵感:有了,用两根树枝,两根一样长的树枝摆在地上,这个时候你准备变一个“戏法”, 将一和二的概念变化出来,因为你确信,不管是原始人还是现代人...图 2-1 结绳记数 “结绳计数”是人们对于“数”的概念理解和数的表示运用上一个重要的里程碑,它早 于文字的产生而发展的,每增加一个“节”表示增大一个数,就跟前面虚构的那个用树枝表 示数的概念一样...“序列”的重要特点就是它的元素有大小,元素排列是有序的,总是从大到小或者从小 到大的一种顺序排列。比如现在进行数据库查询的时候,对某一列数据进行排序,排序之后 的这列数据就是一个序列。...图2-3 图灵机原理示意图 可能思路跳跃的有点快,这里简单总结下,由事物二元对立的状态古人发现了最早的自 然数“一”和“二”,然后发展到了通过一种事物的“序列”来表示更多的自然数,古人发 明了
图3-1 随机森林原理示意图 S矩阵是源数据,有1-N条数据,A、B、C 是feature,最后一列C是类别: ? 由S随机生成M个子矩阵: ?...这M个子集得到 M 个决策树:将新数据投入到这M个树中,得到M个分类结果,计数看预测成哪一类的数目最多,就将此类别作为最后的预测结果。 ?...这段文字,将仅由一些单词和它们的计数代表: ? 原始问题是:给你一句话,它属于哪一类 ?通过bayes rules变成一个比较简单容易求得的问题: ?...图6-2 NB算法结果展示图 K近邻算法 给一个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪一类。...图11-1 马尔科夫原理图 这是一句话计算出来的概率,当你用大量文本去做统计的时候,会得到更大的状态转移矩阵,例如the后面可以连接的单词,及相应的概率。 ?
DNN的输入(原始文本特征)是一个高维的术语向量,例如,查询或文档中的术语的原始计数,而DNN的输出是一个低维语义特征空间的概念向量。...马尔科夫链假定可以根据用户的最后(或最后几个)行动来预测他们的下一个行动,而RNN原则上允许发现更长期的语义。...层归一化是用来归一化各特征的输入(即零均值和单位方差),这有利于稳定和加速神经网络训练。与批量归一化不同,层归一化中使用的统计数据与同一批次中的其他样本无关。...我们以二叉树为例,首先,对所有类别进行随机排序,并将属于同一类别的项目以类别内的随机顺序放在一起。如果一个项目属于一个以上的类别,将该项目分配到一个随机的类别,以保证其唯一性。...最后,直接用组成用户行为的物品嵌入集合来表示用户行为。 多兴趣抽取层。MIMD用多个向量分别表示用户的兴趣。为学习这一表示,利用聚类方法来将用户的历史行为聚成多个簇。
图a为输入,图b为我第2部分结构图中14 × 14 deconvolutional layer中的最后一层的输出,然后经过Unpooling,得到图c,可以看到c是一个sparse map,详见我的①中...④系统分析 他们的算法将语义分割作为实例分割问题,也就是说,网络采用可能包含对象的子图像(我们以后称为实例)作为输入,并产生像素级类预测作为输出。...(如错位),他们证明 对应所有类别的得分图的像素最大值或平均值 是足够有效 来获得鲁棒的结果的。...来代表第i个proposal的得分图,W X H代表这个proposal的尺寸,C代表类别的数量。...我们首先把它放在gi的外围有零填充的图像空间上,我们用下面的Gi来表示 在原始图像尺寸中与gi对应的分割图。
一行画出 ROC-AUC 图 实现堆积法 (stacking) 为任何模型估计特征重要性 用 k-近邻法来填充缺失值 首先加载下面例子共用的包。...不知道删除行好还是删除列好 对缺失数据的测试集没用 推算法 根据特征值是分类型或数值变量,两种方式: 用众数来推算分类型 用平均数来推算数值 特征“性格”的特征值是个分类型变量,因此计数未缺失数据得到...2 个好和 7 个坏,根据众数原则应该将缺失数据用“坏”来填充。...下图举例用决策树将“收入缺失”和“收入低”归纳成同一类。 这时缺失值是实实在在的一个类别了。...X 的每一列代表一个特征,原始的 X 为 [[1. 2. nan] [3. 4. 3. ] [nan 6. 5. ] [7. 8. 9. ]] 在第一列中,离 nan 最近的 2 个邻居是
假设我们有一个包含100个观测值的数据集,我们的目标是将其聚成5类。首先我们需要计算每个观测值到5个中心点的距离,然后从5个距离中筛选出距离最小值,并将该样本归到对应的类别中。...步骤四:重新计算类中心 接下来我们需要重新计算各个类别的中心值。某个类的中心值等于该类别中所有样本点的均值。因此,如果某个类别中的样本点由于步骤三的计算导致了重分配,那么相应的类中心也会随之改变。...一个常用的标准化方法是——所有的观测值减去均值然后除以标准差。 接下来,让我们利用K均值聚类算法来识别数据集中的异常值。假设数据集中某一个类别的特征完全不同于其他类别,如下表所示: ?...作为一名分析师,拟合多少个类别的模型都是由你决定的。但需要注意的是,你必须在建模前标准化处理数据。 我们可以利用一些统计量来评估最佳类别数目,比如类内平方和,类间平方和,方差贡献比和统计差异值。...上图展现了 twss 随类别数目变化的趋势图,从图中可以看出:当类别数目大于4时,twss的下降率大大降低。
步骤三:计算距离 分别计算所有观测值到聚类中心的欧式距离,并将其归到距离最近的中心类别中。假设我们有一个包含100个观测值的数据集,我们的目标是将其聚成5类。...假设数据集中某一个类别的特征完全不同于其他类别,如下表所示: 上表是某个 app 的部分用户数据。表中有 5 个变量,其中 3 个数值变量,2 个分类变量。分析过程中,我们将忽略第一列变量。...作为一名分析师,拟合多少个类别的模型都是由你决定的。但需要注意的是,你必须在建模前标准化处理数据。 我们可以利用一些统计量来评估最佳类别数目,比如类内平方和,类间平方和,方差贡献比和统计差异值。...上图展现了 twss 随类别数目变化的趋势图,从图中可以看出:当类别数目大于4时,twss的下降率大大降低。...第 4 类的变量值与其他三个类别相差甚远,比如较低的样本个数,较高的访问量、交易值和 Z-score。
显然,这里针对的是序列状态,即CRF是用来标注或划分序列结构数据的概率化结构模型,CRF可以看作无向图模型或者马尔科夫随机场。...此时为求最大似然概率) > C(d)=argmax {P(C_i)*P(d|c_i)}:求出近似的贝叶斯每个类别的概率,比较获取最大的概率,此时文档归为最大概率的一类,分类成功。...数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。...2 特征提取:特征提取是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。...因此,我们要做的就是把这些原始数据数值化,这就对应了特征提取。如何做呢? 对训练数据集的每篇文章,我们进行词语的统计,以形成一个词典向量。
针对每种作物所有的预测结果,统计每个类别的真实标签和预测结果,根据 Jaccard Index 计算 IOU,最后取平均。...最后对所有4个类别的 IOU 取平均,得到最后的 MIOU 作为评测结果。...不同类别的标签统计,背景类最多,人造建筑最少 和普通的语义分割任务相比,本次任务有着以下几个特点, 一是类间差异小,不同种类农作物之间外观差异小, 二是物体尺度相差大,要分割的类别中农作物于人造建筑两个类别的尺度不同...最终结果 冠军整体方案 1.1 数据预处理 1.1.1 滑窗裁剪 原始数据为分辨率几万的PNG大图,需对原始数据预处理,本次比赛中我们采取的是滑窗切割的策略,主要从以下三个方面考量: 类别平衡:过滤掉...本次比赛中我们主要考虑了以下两类数据: 图像边缘:卷积时零填充太多,信息缺少,难以正确分类(参考3.1的方格效应) 不同类间交界处: 标注错误,类间交界难以界定,训练时可能梯度不稳定 类间交界的点,往往只相差几个像素偏移
针对每种作物所有的预测结果,统计每个类别的真实标签和预测结果,根据 Jaccard Index 计算 IOU,最后取平均。...最后对所有4个类别的 IOU 取平均,得到最后的 MIOU 作为评测结果。 不同类别的标签统计,背景类最多,人造建筑最少。...和普通的语义分割任务相比,本次任务有着以下几个特点: 一是类间差异小,不同种类农作物之间外观差异小, 二是物体尺度相差大,要分割的类别中农作物与人造建筑两个类别的尺度不同, 三是标签不是非常精细,标注存在着不少的噪声...数据预处理 滑窗裁剪 原始数据为分辨率几万的PNG大图,需对原始数据预处理,本次比赛中我们采取的是滑窗切割的策略,主要从以下三个方面考量: 类别平衡:过滤掉mask无效占比大于7/8的区域,在背景类别比例小于...伪标签方法提分显著,但对A榜数据过拟合的风险极大。即使不用伪标签,我们的方案在A榜也和第二名拉开了较大差距。在更换B榜前,我们同时准备了用伪标签和不用伪标签的两套模型。
格式化图表 保证图表的完整性 一个完整的图表必须包含以下基本元素:图表标题、数据系列、图例、坐标轴、数据单位 格式化图表区/绘图区 图表区格式的设置主要包括字体、背景填充、边框、大小、属性等 格式化图表标题...格式化数据序列 数据序列需要格式化的内容可能包括:①设置边框/填充色 ②分类间距和重叠比例 ③坐标轴位置 数据标签主要包括标签内容、标签位置、字体、对齐等 Excel数据透视表 数据透视表对原始数据的要求...理解字段 字段列表中显示了原始数据中所有的字段,在这里可根据需求勾选需要的字段。...如需要分析不同业务员不同商品的销量,那么就需要勾选“业务员”、“品名”、“销量”三个字段。 如需要分析不同业务员,不同商品类别的销售额,就需要勾选“业务员”、“类别”、“金额(元)”三个字段。...最终效果 分析不同业务员不同商品的销量 分析不同业务员,不同商品类别的销售额 添加数据透视图 添加透视图的方法:选中透视表区域的单元格,在【数据透视表分析】选项卡下【工具】组中选择【数据透视图】 数据透视图内容筛选
(公众号中回复关键字“思维导图”可下载查看全图) 2. 特征工程 特征工程目的是最大限度地从原始数据中提取特征以供算法和模型使用。...本特征工程思维导图涵盖的知识点包括:特征工程的意义、数据的采集、数据的处理(数据的清洗和采样)、数值型、类别型、时间型、文本型、统计型、组合型特征的处理、特征的选择和降维。...7.聚类算法 聚类算法是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。本导图为大家介绍了K-means、层次聚类、GMM三种聚类算法。...本导图从网络的概念讲起,为大家介绍了贝叶斯网络的优点、例子(朴素贝叶斯和隐马尔科夫模型),最后又为大家补充了有关条件独立和有向分割的知识点。...具体的思维导图如下所示: 12.卷积神经网络与计算机视觉 本导图详细的讲解了CNN层级结构(数据输入层、卷积计算层、激励层、池化层、全连接层)、训练算法、如何防止过拟合、训练调优和模型评价,最后为大家介绍了七种典型的模型结构
大家好,又见面了,我是你们的朋友全栈君。 一,SVM(Support Vector Machine)支持向量机 a. SVM算法是介于简单算法和神经网络之间的最好的算法。 b....五,朴素贝叶斯 应用场景:源于推理的需要,例如:通过商品的描述(特征X)来推理商品的类别(Y)。 “朴素”:特征与特征之间是独立的,互不干扰。...算法和贝叶斯算法有某种神秘的联系,用贝叶斯算法估算KNN的误差。...用SSE误差平方和指标判断,SSE越小越好,也就是肘部法则的拐点处。也可以用轮廓系数法判断,值越大,表示聚类效果越好,簇与簇之间距离越远越好,簇内越紧越好。...十,EM算法 EM算法是概率图算法的一个简单 附录: 模型是已知的:条件概率表(射线)已知( P(Xi|C1) P ( X i | C 1 ) P(X_i|C1)),类别的概率是已知的
扩散模型 [35, 75–77] 是一类受非平衡热力学启发的基于似然的模型 [77, 78]。这些模型通过逐渐向样本数据中添加噪声来定义扩散前向过程的马尔可夫链。...然后我们将 DiffusionDet 与之前在 MS-COCO [51] 和 LVIS [31] 数据集上建立良好的检测器进行比较。最后,我们提供了 DiffusionDet 组件的消融研究。...MS-COCO [51] 数据集在 train2017 集中包含约 118K 个训练图像,在 val2017 集中包含约 5K 个验证图像。总共有 80 个对象类别。...LVIS 与 MS-COCO 共享相同的源图像,而其注释捕获 1203 个类别的长尾分布。...图中的数字表示平均值。 GT 框填充策略。如第 3.3 节所述,我们需要将额外的框填充到原始真实值,以便每个图像具有相同数量的框。
领取专属 10元无门槛券
手把手带您无忧上云