本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。...1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。
字典特征提取 ---- 将字典数据转换为one-hot独热编码。one-hot不难理解,也就是将特征的取值范围组成列名,然后一行样本取什么值,就在对应列下面标1,其余标0即可。...如(0,0) 18.0表示第0行第0列的数据是18,(0,1) 1.0表示第0行第1列的数据是1,一一对应之前独热编码表示的矩阵,极大降低冗余。...对于机器学习中的CSV数据集,使用字典特征提取就能完成特征提取,方便的完成了独热编码转换。比如对我们来说更直观的yes和no,转成one-hot中的0和1后,计算机更好操作。...文本特征提取 对文本数据进行特征提取,统计词频。根据这些特征可以进行文章分类、相关文章推荐等操作。 英文 ---- 英文文本由于有空格作为两个单词的分隔,所以是比较好处理的。...如下: 自动筛选掉了每篇都出现的“I”,也可以用stop_words手动定义要筛掉的单词。
One-hot Encoding 首先来看一下 One-hot 编码,它将词语进行编码,本质上是用一个只含一个 1、其他都是 0 的向量来唯一表示词语。...One-hot 编码的问题 虽然 One-hot 编码能够通过一种非常简单的方式对词语进行编码,但它的缺点也非常明显。 众所周知,维数越少越好,但 One-hot 编码却增加了大量的维度。 数据稀疏。...模型的输入是经过 One-hot 编码的向量 图片 ,正如我们前面提到的,这个向量中只有一个 1,其余都是 0。...那么能不能通过 图片 中的这某一行来作为这个单词的向量表示呢? 答案是肯定的,每个词语的 One-hot 编码里面 1 的位置是不同,因此对应的矩阵 图片 中的那一行向量也是不同的。...在 Word2Vec 中,作者认为以下简化的训练目标能够产生高质量的词嵌入,而不是使用一种产生明确的后验多叉分布的负向抽样。
将向量与标记相关联的方法 对标记做 one-hot 编码(one-hot encoding)与标记嵌入[token embedding,通常只用于单词,叫作词嵌入(word embedding)] one-hot...0 (也可以进行字符级的 one-hot 编码) Keras one-hot编码Demo from keras.preprocessing.text import Tokenizer samples...one-hot 编码的一种变体是所谓的 one-hot 散列技巧(one-hot hashing trick),如果词表中唯 一标记的数量太大而无法直接处理,就可以使用这种技巧 将单词散列编码为固定长度的向量...,通常用一个非常简单的散列函数来实现 这种方法的主要优点在于,它避免了维护一个显式的单词索引,从而节省内存并允许数据的在线编码,缺点就是可能会出现散列冲突 词嵌入 one-hot 编码得到的向量是二进制的...在这种情况下,一开始是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同 在不同于待解决问题的机器学习任务上预计算好词嵌入,然后将其加载到模型中。
由于机器学习模型通常是一个数学模型,而非数值型属性是不能直接处理,所以一般对邮件的特征进行编码。首先将所有的邮件中出现的词统计出来作为一个词典,并对每一个词进行编码向量化(即词序)。...一封邮件对应的One-hot表示如下: 其中表示第封邮件,,表示词典中的第个词,如果第个词在第封邮件中出现则,反之为。可以看出这种表示忽略了文本的大量信息,上下文信息,词出现的次数等。...其中表示类别,对应垃圾邮件分类取值为(),表示第个特征,表示特征的取值。由于垃圾邮件中采用one-hot编码,所以的取值为(),表示出现。...B、N元多项分布模型 同样,上述贝叶斯模型中只考虑单词是否出现,即单词特征服从伯努利分布,样本服从n次独立的伯努利分布。而忽略了一个单词可能出现次数对邮件分类的影响。...文档的表示: one-hot表示 编号表示 可以看出两者方式的样本表示不同之处在于一个以词典维度对邮件中的词是否出现进行编码,一个是以邮件维度对邮件中的词在词典中的编号进行编码,这就导致了两者表示的维度不同
参考文章: https://www.jianshu.com/p/471d9bfbd72f 理解word2vec之前,首先来理解一下什么是One-Hot 编码,这个简单的编码方法处理可枚举的特征时还是很有用的...编码 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。...one-hot编码就是保证每个样本中的单个特征只有1位处于状态1,其他的都是0。上述状态用one-hot编码如下图所示: ?...那么怎么考虑上下文的信息呢?很简单,输入的时候不光是一个词,而是上下文多个词一起当成输入: ? 这是一种多对一的模型(CBOW),还有一种一对多(Skip-Gram)模型,我们先说这种多对一模型。...这是多对一的方式,还有一种一对多的方式:同理,目的为了保证上下文的顺序关系的同时实现降维。 ?
下图中,蓝色代表input word,方框内代表位于窗口内的单词。 ? 我们的模型将会从每对单词出现的次数中习得统计结果。...最常用的办法就是基于训练文档来构建我们自己的词汇表(vocabulary)再对单词进行one-hot编码。 假设从我们的训练文档中抽取出10000个唯一不重复的单词组成词汇表。...我们对这10000个单词进行one-hot编码,得到的每个单词都是一个10000维的向量,向量每个维度的值只有0或者1,假如单词ants在词汇表中的出现位置为第3个,那么ants的向量就是一个第三维度取值为..., "at", "mailman"),我们对这个词汇表的单词进行编号0-4。...我们基于成对的单词来对神经网络进行训练,训练样本是 ( input word, output word ) 这样的单词对,input word和output word都是one-hot编码的向量。
一、算法的基本思想 word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。最常见的表示方法是counting 编码。...它的基本思想是首先将所有词语进行one-hot编码,输入只有一个隐藏层的神经网络,定义好loss后进行训练,后面我们会讲解如何定义loss,这里暂时按下不表。...你可能会想,(fox,brown)也是一个单词对,它输入神经网络后,岂不是希望神经网络告诉我们,在8个单词中,brown是更可能出现在fox周围?...答案是取决于(fox,brown)和(fox,jumps)两个单词对谁在训练集中出现的次数比较多,神经网络就会针对哪个单词对按照梯度下降进行更多的调整,从而就会倾向于预测谁将出现在fox周围。...方法也很简单,就是用one-hot编码,如下图所示: ?
这里主要是要去讲一下one-hot(独热编码)。 One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。...可以看到经过编码后的质量特征已经变成了上面的形式。 那么进行one-hot编码有什么好处呢?...当然,one-hot编码也有很明显的缺点,首先它对信息的表达肯定是不完全的,再就是当特征类别特别多的时候这个one-hot编码就会极其庞大,这就涉及到后面关于自然语言的编码了。...one-hot编码,结果是这句话的ont-hot编码是一个矩阵,每一行表示一个单词,总共有11行,说明有11个单词,每个单词使用词典全集的长度7261作为one-hot编码,只有在它所在的位置置为1,其他位都是...但是它的问题显而易见,7000多位的向量只有1位是1,这是对空间大大的浪费,而且这只是一本英文小说,英文都是按单词来分的,总单词量不是特别多,还相对容易一点,对于中文来说,要按中文的分词结果进行处理,可能有几十万上百万的词
,且上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫做continuous bag-of-words模型。...skip-gram预测上下文 skip-gram预测主要围绕下面这个图进行: ? 1.one-hot编码:one-hot编码是一个(V * V)的矩阵,其中V代表字典库的大小。...左图中每一列代表一个10000维的词向量和隐层单个神经元连接的权重向量。从右边的图来看,每一行实际上代表了每个单词的词向量。 ?...中心词“nature”one-hot编码的向量和共享矩阵相乘就得到它的词向量,用Vc表示,对向量进行归一化得到Vc=(0.46 0.15 0.39): ?...中心词向量矩阵跟one-hot编码是有关系的,只要将one-hot编码和W相乘就是我们要查的那个单词的word embedding了,这个也叫查表(Lookup table)。
pivot_cols参数中的列名,代表需要按值转成多列的数据列。转置列的值。...我们将根据piv和piv2两列的值进行行转列,piv有3个不同值,piv2有4个不同值,因此结果中将包含12个由行转成的列,共3行。 (10) 聚合多列。...One-hot编码与哑编码类似,两者的区别是前者为每种分类值建立数字类型的0/1指示列。在每行数据中(对应一个数据点),只有一个分类编码列的值可以为1。One-hot编码中没有参考类别。 1....row_id指定的列不会被编码,但会出现在结果表中。...如果参数值是整数,按分类值出现的比例对前n个值进行编码。如果参数值浮点型的范围(0.0, 1.0),按分类值出现的比例,编码指定的部分值,例如,0.1表示编码前10%的分类。
图是一种信息丰富且易于理解的数据结构,在机器学习中必须对图进行嵌入的原因如下: 直接在图上进行机器学习是很困难的。...在邻接矩阵中,非零值表示对应行和列的两个节点之间有边。然而对节点数众多的图来说,使用邻接矩阵对图进行描述是不现实的。想象一下有1M节点的图,其邻接矩阵大小会是1M x 1M。...由于这样的任务只会在训练阶段出现,skip-gram的上下文单词预测也被称为伪任务。网络的输入为一个单词,通过优化最大化该单词在句子中相邻单词的概率。...输入层输入当前词的one-hot编码(one-hot编码是长度为字典数量的向量,其中除当前词位置为1外其余位均为0);隐藏层没有激活函数,该层输出表示单词的嵌入;输出层通过softmax分类器输出邻域词的预测概率...于是,可以通过最大化输入图子图的概率的方法对skip-gram进行训练。最终, 可以得到输入图的one-hot向量表示。
word2vector中的skip-gram模型是利用类似于自动编码的器网络以中心词的one-hot表示作为输入来预测这个中心词环境中某一个词的one-hot表示,即先将中心词one-hot表示编码然后解码成环境中某个词的...单词 i i i出现在单词 j j j的环境中(论文给的环境是以 j j j为中心的左右10个单词区间)叫共现。 什么是共现矩阵? 单词对共现次数的统计表。...· 在窗口内,统计上下文环境中单词 j j j出现的次数,并将该值累计到 ( i , j ) (i,j) (i,j)位置上。 · 不断滑动窗口进行统计即可得到共现矩阵。 什么是叫共现概率? ...共现概率是指在给定的环境下出现(共现)某一个词的概率。注意:在给定语料库的情况下,我们是可以事先计算出任意一对单词的共现概率的。 2....GloVe模型算法 最后,关于glove模型算法,大致是这样的:从共现矩阵中随机采集一批非零词对作为一个mini-batch的训练数据;随机初始化这些训练数据的词向量以及随机初始化两个偏置;然后进行内积和平移操作并与
如果某列取值为字符型,需要做数值转换,今天就来总结下 TensorFlow 中的指标列和嵌入列。...指标列,采取 one-hot 编码方法,有多少类输入就会得到一个多少维的向量。如果输入类别为 4 类,那么可以编码为如下,0,1,2,3 类分别编码为4维的向量。...通过使每个单元格能够包含更丰富的数字,嵌入列包含的单元格数量远远少于指标列。 每个嵌入向量的维度是怎么确定的呢?嵌入矢量中的值如何神奇地得到分配呢? 1、设定词汇表单词个数为 1 万。...如果选用指标列,则每个单词的取值为 1 万维,采取嵌入列,每个单词的维度仅为 10,这相比 one-hot 编码绝对是低维度了,维度取值一般经验公式是单词个数的4次方根。...2、初始时,将随机数字放入嵌入向量中,分配值在训练期间进行,嵌入矢量从训练数据中学习了类别之间的新关系。
从文本中提取特征 文本通常为自然语言 3.1 词袋模型 不会编码任何文本句法,忽略单词顺序,忽略语法,忽略词频 可看做 one-hot 的一种扩展,会对文本中关注的每一个单词创建一个特征 可用于文档分类和检索...词汇数量相当大,需要的内存很大,为了缓和这个矛盾,采用稀疏向量 后序还有降维方法,来降低向量的维度 3.2 停用词过滤 降维策略: 所有单词转成小写,对单词的意思没有影响 忽略语料库中大部分文档中经常出现的单词...词干提取、词形还原,进一步降维 例如,jumping\jumps\jump,一篇报道跳远比赛的文章中,这几个词时分别编码的,我们可以对他们进行统一处理,压缩成单个特征 corpus = [ 'He...n,v 开头的词性的单词进行了词性还原 3.4 TF-IDF 权重扩展词包 词频是很重要的,创建编码单词频数的特征向量 import numpy as np from sklearn.feature_extraction.text...出现了 1 次 sandwiches 出现了 1 次 sklearn 的TfidfVectorizer 可以统计单词的权值:单词频率-逆文本频率 TF-IDF ?
标为高亮蓝色的是我们的输入单词。 ? 该神经网络会学习每一对单词出现频率的统计信息。...模型细节 首先,要知道我们不可能直接将字符串输出给神经网络,所以需要对单词进行编码,以满足神经网络的输入要求。为了做这件事,我们可以使用训练文档集,去构建一个单词字典。...所以隐藏层将由一个10,000行(每一行都针对的是词汇表中的每个单词)和300列(每个隐藏的神经元一个列)的权重矩阵来表示。...Word2Vec的作者在他们的第二个解决这些问题的文章。 第二篇论文有三个创新: 1,在他们的模型中将常见单词对或短语视为单个“单词”。 2,对频繁的词进行抽样以减少训练样例的数量。...然后,为了选出一个负样本,你仅仅只需要产生一个随机整数,整数范围是0-100M,然后使用当前索引在表中指定的word。由于高概率的单词在表中出现的次数多,你有更高的概率选择到这些。
1算法的基本思想 word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。最常见的表示方法是counting 编码。...我们今天学习的skip gram算法可以成功克服以上三个缺陷。它的基本思想是首先将所有词语进行one-hot编码,输入只有一个隐藏层的神经网络,定义好loss后进行训练。...你可能会想,(fox,brown)也是一个单词对,它输入神经网络后,岂不是希望神经网络告诉我们,在8个单词中,brown是更可能出现在fox周围?...答案是取决于(fox,brown)和(fox,jumps)两个单词对谁在训练集中出现的次数比较多,神经网络就会针对哪个单词对按照梯度下降进行更多的调整,从而就会倾向于预测谁将出现在fox周围。...方法也很简单,就是用one-hot编码,如下图所示: ?
我们可以看到分布编码占用的空间比 One-Hot 要小。 今天要聊的 Word2Vec 是一种典型的分布编码方式,通过训练浅层神经网络获得词向量。...输入层到隐藏层的映射矩阵为 ,隐藏层到输出层的映射矩阵为 ,也就是说对于任意的单词 我们都可以有两种表示向量: 其中, 为单词 k 的 One-Hot 编码,大小为 (1, N)。...4.2 Sub-Sampling 在训练样本中,类似 “the”、“a”、“an” 之类的停用词非常多,重复训练这些停用词没有多大意义,Word2Vec 通过实现 Sub-sampling 以一定概率舍弃单词...是类似于 Sub-Sampling Frequent Words,对每一个单词都进行一个判断吗?那样时间复杂度又回到了原来的 O(n)。...6.Application Word2vec 主要原理是根据上下文来预测单词,一个词的意义往往可以从其前后的句子中抽取出来。 而用户的行为也是一种相似的时间序列,可以通过上下文进行推断。
编码的特点如下: 词向量长度是词典长度; 在向量中,该单词的索引位置的值为 1 ,其余的值都是 0 ; 使用One-Hot 进行编码的文本,得到的矩阵是稀疏矩阵(sparse matrix); 缺点...: 不同词的向量表示互相正交,无法衡量不同词之间的关系; 该编码只能反映某个词是否在句中出现,无法衡量不同词的重要程度; 使用One-Hot 对文本进行编码后得到的是高维稀疏矩阵,会浪费计算和存储资源;...在词袋模型中不考虑语序和词法的信息,每个单词都是相互独立的,将词语放入一个“袋子”里,统计每个单词出现的频率。...)进行编码; 编码后的向量长度是词典的长度; 该编码忽略词出现的次序; 在向量中,该单词的索引位置的值为单词在文本中出现的次数;如果索引位置的单词没有在文本中出现,则该值为 0 ; 缺点 该编码忽略词的位置信息...n-gram模型中的概率计算: n-gram 是对语言模型的一个简化(马尔科夫假设 Markov Assumption):一个词的出现仅与它之前出现的若干(n)个词有关。
领取专属 10元无门槛券
手把手带您无忧上云