之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...对year列进行唯一值计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() ?...object类型包括字符串和混合值(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议用object。...默认是False method:填充方式,pad,ffill,bfill分别是向前、向前、向后填充 创建一个df: values_1 = np.random.randint(10, size=10) values
之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...object类型列推断为更合适的数据类型。...object类型包括字符串和混合值(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议用object。...默认是False method:填充方式,pad,ffill,bfill分别是向前、向前、向后填充 创建一个df: values_1 = np.random.randint(10, size=10) values
在该系列的上一篇文章中,我与大家讲述了可以用表和字段作为基准,进行分析的4个维度以及采用的相应的方法,接下来为大家讲解下常用的字段级别和标级别的分析方法。...故可以对异常值数据进行溯源,从根本上规避;或采用代码来兼容异常数据的处理方式。 值域分析 值域分析主要是分析字段值的统计指标。eg:针对数值型的统计指标有最大值、最小值、中位数、均值、极差值和方差等。...针对字符类的统计指标有最大长度、最小长度和长度方差等。(加粗的为常见指标) 数据分布分析 数据分布分析主要是分析各个维度值在总体数据中的分布情况。...表级别分析 主键唯一性检测方法可参考如下SQL语句。...(distinct concat(b,c)) from table2; --num4 以上是对字段级别分析方法和表级别唯一性方法的补充。
2.如何查看某个操作的语法? 3.MySql的存储引擎有哪些? 4.常用的2种存储引擎? 6.可以针对表设置引擎吗?如何设置? 6.选择合适的存储引擎?...30.Mysql删除表的几种方式?区别? 31.like走索引吗? 32.什么是回表? 33.如何避免回表? 34.索引覆盖是什么? 35.视图的优缺点? 36.主键和唯一索引区别?...本质区别,主键是一种约束,唯一索引是一种索引。 主键不能有空值(非空+唯一),唯一索引可以为空。 主键可以是其他表的外键,唯一索引不可以。 一个表只能有一个主键,唯一索引 可以多个。...比较的值可以是常量,也可以是使用在此表之前读取的表的列的表达式。 相对于下面的ref区别就是它使用的唯一索引,即主键或唯一索引,而ref使用的是非唯一索引或者普通索引。...八、ref 表示上述表的连接匹配条件,即哪些列或常量被用于查找索引列上的值。 九、rows rows 也是一个重要的字段。 这是mysql估算的需要扫描的行数(不是精确值)。
设计物理模型,STG的物理模型一般包括源系统的所有字段和审计字段,例如:源系统名称,源表名称,加载时间,加载方式。可以去掉其他约束条件,比如主键、索引,默认值。...主要步骤 1.数据标准化 从数据的内容、格式、命名、计算规则等输出为唯一的版本数据,把各个源系统的相同描述对象但是不同取值进行统一,比如:性别字段,有的源系统用0和1或Man和Wonen。...例如相同的客户号,二个源系统都维护了这个客户的联系方式,这时候就要根据业务规则来选择保留哪那个源系统的值。...提交维度表和事实表 提交维度表主要步骤 1.确认粒度 维度表的粒度就是表的业务主键,根据业务主键来判断记录的唯一性。 2.选择代理键生成器 ETL工具和数据库都有设置字段自增长的功能。...3.选择维度表类型 根据业务系统的实际情况选择合适的维度表类型,一般采用缓慢变化维类型1和类型2。 4.增量加载维度数据 维度表的每个字段都要设置默认值,不能为空。
故事还得从半年前数据隔离的那个事情说起...... 1.1 数据隔离 预发,灰度,线上环境共用一个数据库。 每一张表有一个 env 字段,环境不同值不同。 特别说明:env 字段即环境字段。...环境字段值} and {condition} 1.4 隔离方案 最拉胯的做法:每一张表涉及到的 DO、Mapper、XML等挨个添加 env 字段。...新增时填充环境字段值,查询时添加环境字段条件,真正实现改一处即可。...,只要环境不同,env 值不同 借助 JSqlParser 开源工具,改写 sql 语句,修改重新填充、查询拼接条件即可。...开闭原则符合了吗 改漏了应该办呢 其他人遇到跳过的检查的场景也加这样的代码吗 业务代码和功能代码分离了吗 填充到应用上下文对象 user 合适吗 .......
1#查看数据表的维度 2df.shape 3(6, 6) 数据表信息 使用 info 函数查看数据表的整体信息,这里返回的信息比较多,包括数据维度,列名称,数据格式和所占空间等信息。 ...Python 中使用 unique 函数查看唯一值。 查看唯一值 Unique 是查看唯一值的函数,只能对数据表中的特定列进行检查。下面是代码,返回的结果是该列中的唯一值。...对于空值的处理方式有很多种,可以直接删除包含空值的数据,也可以对空值进行填充,比如用 0 填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。 ...1#使用数字 0 填充数据表中空值 2df.fillna(value=0) 我们选择填充的方式来处理空值,使用 price 列的均值来填充 NA 字段,同样使用 fillna 函数,在要填充的数值中使用...= 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count() 34 还有一种筛选的方式是用 query
1 索引的类型 UNIQUE唯一索引 不可以出现相同的值,可以有NULL值。 INDEX普通索引 允许出现相同的索引内容。...fulltext index 全文索引 上述三种索引都是针对列的值发挥作用,但全文索引,可以针对值中的某个单词,比如一篇文章中的某个词,然而并没有什么卵用,因为只有myisam以及英文支持,并且效率让人不敢恭维...数据列中不重复值出现的个数,这个数量越高,维度就越高。 如数据表中存在8行数据a,b ,c,d,a,b,c,d这个表的维度为4。 要为维度高的列创建索引,如性别和年龄,那年龄的维度就高于性别。...如果分别在 vc_Name,vc_City,i_Age 上建立单列索引,让该表有 3 个单列索引,查询时和上述的组合索引效率一样吗?答案是大不一样,远远低于我们的组合索引。...前缀索引 如果索引列长度过长,这种列索引时将会产生很大的索引文件,不便于操作,可以使用前缀索引方式进行索引前缀索引应该控制在一个合适的点,控制在0.31黄金值即可(大于这个值就可以创建)。
1 索引的类型 UNIQUE唯一索引 不可以出现相同的值,可以有NULL值。 INDEX普通索引 允许出现相同的索引内容。...fulltext index 全文索引 上述三种索引都是针对列的值发挥作用,但全文索引,可以针对值中的某个单词,比如一篇文章中的某个词,然而并没有什么卵用,因为只有myisam以及英文支持,并且效率让人不敢恭维...数据列中不重复值出现的个数,这个数量越高,维度就越高。 如数据表中存在8行数据a,b ,c,d,a,b,c,d这个表的维度为4。...如果分别在 vc_Name,vc_City,i_Age 上建立单列索引,让该表有 3 个单列索引,查询时和上述的组合索引效率一样吗?答案是大不一样,远远低于我们的组合索引。...前缀索引 如果索引列长度过长,这种列索引时将会产生很大的索引文件,不便于操作,可以使用前缀索引方式进行索引前缀索引应该控制在一个合适的点,控制在0.31黄金值即可(大于这个值就可以创建)。
因此,为了描述一个大的图像,很直观的想法就是对不同位置的特征进行聚合统计。例如,可以计算图像在固定区域特征上的平均值(或最大值)来代表这个区域的特征。...卷积层 池化层 结构 零填充时输出维度不变,而通道数改变 通常特征维度会降低,通道数不变 稳定性 输入特征发生细微改变时,输出结果会改变 感受域内的细微变化不影响输出结果 作用 感受域内提取局部关联特征...“SAME”填充通常采用零填充的方式对卷积核不满足整除条件的输入特征进行补全,以使卷积层的输出维度保持与输入特征维度一致;“VALID”填充的方式则相反,实际并不进行任何填充,在输入特征边缘位置若不足以进行卷积操作...,则对边缘信息进行舍弃,因此在步长为1的情况下该填充方式的卷积层输出特征维度可能会略小于输入特征的维度。...宽卷积可以看作在卷积之前在边缘用0补充,常见的有两种情况,一个是全补充,如下图右部分,这样输出大于输入的维度。另一种常用的方法是补充一部分0值,使得输出核输入的维度一致。
每一张表有一个 env 字段,环境不同值不同。特别说明:env 字段即环境字段。...{环境字段值} and ${condition} 1.4 隔离方案 最拉胯的做法:每一张表涉及到的 DO、Mapper、XML等挨个添加 env 字段。...新增时填充环境字段值,查询时添加环境字段条件。真正实现改一处即可。...,只要环境不同,env 值不同 借助 JSqlParser 开源工具,改写 sql 语句,修改重新填充、查询拼接条件即可。...开闭原则符合了吗 改漏了应该办呢 其他人遇到跳过的检查的场景也加这样的代码吗 业务代码和功能代码分离了吗 填充到应用上下文对象 user 合适吗 .......
设计物理模型,STG的物理模型一般包括源系统的所有字段和审计字段,例如:源系统名称,源表名称,加载时间,加载方式。可以去掉其他约束条件,比如主键、索引,默认值。...主要步骤: 1.数据标准化 从数据的内容、格式、命名、计算规则等输出为唯一的版本数据,把各个源系统的相同描述对象但是不同取值进行统一,比如:性别字段,有的源系统用0和1或Man和Wonen。...例如相同的客户号,二个源系统都维护了这个客户的联系方式,这时候就要根据业务规则来选择保留哪那个源系统的值。...维度表的提交: 1.确认粒度 维度表的粒度就是表的业务主键,根据业务主键来判断记录的唯一性。 2.选择代理键生成器 ETL工具和数据库都有设置字段自增长的功能。...3.选择维度表类型 根据业务系统的实际情况选择合适的维度表类型,一般采用缓慢变化维类型1和类型2。 4.增量加载维度数据 维度表的每个字段都要设置默认值,不能为空。
让我用一个简单的图表来解释一下 正如你在下图中所看到的,在生成输出时还使用了最后一个元素,即padding标记。这是由PyTorch中的填充序列来处理的。 压缩填充会对填充标记忽略输入时间步。...我正在使用spacy分词器,因为它使用了新的分词算法 Lower:将文本转换为小写 batch_first:输入和输出的第一个维度总是批处理大小 接下来,我们将创建一个元组列表,其中每个元组中的第一个值包含一个列名...词汇表包含了整篇文章中出现的词汇。每个唯一的单词都有一个索引。下面列出了相同的参数 参数: min_freq:忽略词汇表中频率小于指定频率的单词,并将其映射到未知标记。...BucketIterator以需要最小填充量的方式形成批。...如果没有填充包,填充输入也由rnn处理,并返回填充元素的隐状态。这是一个非常棒的包装器,它不显示填充的输入。它只是忽略这些值并返回未填充元素的隐藏状态。
机器之心编译 本文用可视化的方式介绍了 NumPy 的功能和使用示例。 ? NumPy 软件包是 Python 生态系统中数据分析、机器学习和科学计算的主力军。它极大地简化了向量和矩阵的操作处理。...图像 图像是尺寸(高度 x 宽度)的像素矩阵。 如果图像是黑白(即灰度)的,则每个像素都可以用单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 的像素吗?...因此彩色图像由尺寸为(高 x 宽 x3)的 ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本的数字表示需要一个构建词汇表的步骤(模型知道的唯一字清单)和嵌入步骤。...让我们看看用数字表示以下文字的步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇表(71,290 个单词): ?...现在这是 numeric volume 形式,模型可以处理并执行相应操作。其他行虽然留空,但是它们会被填充其他示例以供模型训练(或预测)。
转自:机器之心(ID:almosthuman2014) 本文用可视化的方式介绍了 NumPy 的功能和使用示例。 ?...数据表示 考虑所有需要处理和构建模型所需的数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格和电子表格 电子表格或值表是二维矩阵。...图像 图像是尺寸(高度 x 宽度)的像素矩阵。 如果图像是黑白(即灰度)的,则每个像素都可以用单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 的像素吗?...因此彩色图像由尺寸为(高 x 宽 x3)的 ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本的数字表示需要一个构建词汇表的步骤(模型知道的唯一字清单)和嵌入步骤。...让我们看看用数字表示以下文字的步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇表(71,290 个单词): ?
用NumPy表示日常数据 日常接触到的数据类型,如电子表格,图像,音频......等,如何表示呢?Numpy可以解决这个问题。 表和电子表格 电子表格或数据表都是二维矩阵。...如果对图像做处理,裁剪图像的左上角10 x 10大小的一块像素区域,用NumPy中的image[:10,:10]就可以实现。 这是一个图像文件的片段: ?...用数字表示文本需要两个步骤,构建词汇表(模型知道的所有唯一单词的清单)和嵌入(embedding)。...你可以看到此NumPy数组的维度为[embedding_dimension x sequence_length]。 在实践中,这些数值不一定是这样的,但我以这种方式呈现它是为了视觉上的一致。...我留空了许多行,可以用其他示例填充以供模型训练(或预测)。 事实证明,在我们的例子中,那位诗人的话语比其他诗人的诗句更加名垂千古。
选自Jay Alammar Blog 作者:Jay Alammar 机器之心编译 参与:高璇、路 本文用可视化的方式介绍了 NumPy 的功能和使用示例。 ?...图像 图像是尺寸(高度 x 宽度)的像素矩阵。 如果图像是黑白(即灰度)的,则每个像素都可以用单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 的像素吗?...因此彩色图像由尺寸为(高 x 宽 x3)的 ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本的数字表示需要一个构建词汇表的步骤(模型知道的唯一字清单)和嵌入步骤。...让我们看看用数字表示以下文字的步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇表(71,290 个单词): ?...现在这是 numeric volume 形式,模型可以处理并执行相应操作。其他行虽然留空,但是它们会被填充其他示例以供模型训练(或预测)。
这是最常见的数据重复情况。 数据主体相同但匹配到的唯一属性值不同。这种情况多见于数据仓库中的变化维度表,同一个事实表的主体会匹配同一个属性的多个值。...去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录。但当遇到以下几种情况时,请慎重(不建议)执行数据去重。 1. 重复的记录用于分析演变规律 以变化维度表为例。...例如在商品类别的维度表中,每个商品对应的同1个类别的值应该是唯一的,例如苹果iPhone7属于个人电子消费品,这样才能将所有商品分配到唯一类别属性值中。...但是变与不变是一个相对的概念,随着企业的不断发展,很多时候维度也会随着发生变化。因此在某个时间内的维度是不变的,而从整体来看维度也是变化的。 对于维度的变化,有3种方式进行处理: 直接覆盖原有值。...注意:真正的变化维度表或维度表不会以中文做主键,通常都会使用数字或字符串类作为唯一关联ID,本节的示例仅做说明之用。 2.
大部分人的回答如此自信:用8字节的 BIGINT 做主键,而不要用INT。错 ! 这样的回答,只站在了数据库这一层,而没有 从业务的角度 思考主键。主键就是一个自增ID吗?...表数据如下: image-20230705100106124 在这个表里,哪个字段比较合适呢?...显然是错误的! ==结论:千万不能把会员卡号当做主键。== 选择会员电话 或 身份证号 会员电话可以做主键吗?不行的。在实际操作中,手机号也存在 被运营商收回 ,重新发给别人用的情况!...3、淘宝的主键设计 在淘宝的电商业务中,订单服务是一个核心业务。请问, 订单表的主键 淘宝是如何设计的呢?是自增ID吗?...可以在总部 MySQL 数据库中,有一个管理信息表,在这个表中添加一个字段,专门用来记录当前会员编号的最大值。
领取专属 10元无门槛券
手把手带您无忧上云