前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Word2Vec

Word2Vec

作者头像
用户1171305
发布于 2017-12-28 03:39:31
发布于 2017-12-28 03:39:31
1.1K0
举报
文章被收录于专栏:成长道路成长道路

       以前对于文本类型的数据,都是通过tf-idf进行处理的,这个可以参见以前写的博客,这里就不在详细介绍了。最近项目组老大跟我说了word2vec这种文本型特征提取的方式。特地给我讲解了一下俩者之间的区别:

      一个词经过tf-idf处理之后,是一个数字,如果是相近的词语,它是无法区分的。Word2Vec就不一样了,比如研究和科研这俩个词,经过Word2Vec处理之后,是向量的形式。科研:[1,0,0,1,0],研究[1,0,0,0.8,0]。是可以判断是否相近的。

      对于概念,我在spark官网翻译了一段话:计算一系列词的分布式向量。分布式的主要优点是相近的词在向量空间中是相近的,使泛化的新模式更容易和模型的评估更强大。分布式向量显示在许多自然语言处理应用中是有用的。命名实体类别,消歧。解析,标注和机器翻译

代码如图:

package com.iflytek.features import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.ml.linalg.Vector import org.apache.spark.sql.Row import org.apache.spark.sql.SparkSession object wordtovec {   def main(args: Array[String]): Unit = {       val spark=SparkSession.builder().appName("pca").master("local").getOrCreate()       // Input data: Each row is a bag of words from a sentence or document.       val documentDF = spark.createDataFrame(Seq(         "Hi I heard about Spark".split(" "),         "I wish Java could use case classes".split(" "),         "Logistic regression models are neat".split(" ")          ).map(Tuple1.apply)).toDF("text")

      // Learn a mapping from words to Vectors.       val word2Vec = new Word2Vec()         .setInputCol("text")         .setOutputCol("result")         .setVectorSize(3)         .setMinCount(0)

      val model = word2Vec.fit(documentDF)

      val result = model.transform(documentDF)       result.select("result").take(3).foreach(println)       val vecs=model.getVectors       vecs.foreach { x => println(x.apply(0)+":"+x.apply(1))}       val synonyms =model.findSynonyms("are", 3)         synonyms.select("word", "similarity").foreach { x => println(x.apply(0)+":"+x.apply(1)) }   } }

result的输出结果:

[[-0.028139343485236168,0.04554025698453188,-0.013317196490243079]] [[0.06872416580361979,-0.02604914902310286,0.02165239889706884]] [[0.023467857390642166,0.027799883112311366,0.0331136979162693]]

vecs的输出结果:

heard:[-0.053989291191101074,0.14687322080135345,-0.0022512583527714014] are:[-0.16293057799339294,-0.14514029026031494,0.1139335036277771] neat:[-0.0406828410923481,0.028049567714333534,-0.16289857029914856] classes:[-0.1490514725446701,-0.04974571615457535,0.03320947289466858] I:[-0.019095497205853462,-0.131216898560524,0.14303986728191376] regression:[0.16541987657546997,0.06469681113958359,0.09233078360557556] Logistic:[0.036407098174095154,0.05800342187285423,-0.021965932101011276] Spark:[-0.1267719864845276,0.09859133511781693,-0.10378564894199371] could:[0.15352481603622437,0.06008218228816986,0.07726015895605087] use:[0.08318991959095001,0.002120430115610361,-0.07926633954048157] Hi:[-0.05663909390568733,0.009638422168791294,-0.033786069601774216] models:[0.11912573128938675,0.1333899050951004,0.1441687047481537] case:[0.14080166816711426,0.08094961196184158,0.1596144139766693] about:[0.11579915136098862,0.10381520539522171,-0.06980287283658981] Java:[0.12235434353351593,-0.03189820423722267,-0.1423865109682083] wish:[0.14934538304805756,-0.11263544857501984,-0.03990427032113075]

synonyms的输出:

classes:0.8926231541787831 I:0.8009102388269147 Hi:0.24258211195587995

getVectors:得到语料中所有词及其词向量

transform:将训练语料中,一行,也就是一个句子,表示成一个向量。它的处理方式是,对句子中所有的词向量取平均作为句子的向量表示,最native的表示方法。

findSynonyms("are",3):得到的是与词are相近的3个词。

经过我的实际测试,发现使用Word2Vector可以提高各项评价指标,大家也不妨试试啊。

spark2.0的分类、回归、聚类算法我都测试了一遍,只有分类的朴素贝叶斯是行不通的(特征值不接受负的),其他的都是行的通的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-06-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于 GBase 数据库的分布式存储实现与性能优化
随着企业对数据处理能力要求的不断提升,分布式存储成为数据库架构设计的重要方向。GBase 数据库通过支持分布式存储、高效的查询优化和事务处理,为大规模数据处理场景提供了强有力的支持。本文将深入探讨 GBase 数据库的分布式存储实现,并结合 GBase8a 和 GBase8s 的特性,给出优化方法和代码示例。
用户11381600
2024/12/09
810
mysql数据库优化总结
innodb_buffer_pool_size = 50% of system memory innodb_max_dirty_pagesPer_latch = 1000 复制代码
samRsa
2025/04/28
1020
mysql数据库优化总结
探索 MySQL 冷门功能:全面了解与实用案例分析
MySQL 作为一种广泛使用的关系型数据库管理系统,拥有丰富的功能集。然而,在日常使用中,有许多功能可能被忽视或误解。本篇文章将对一些 MySQL 中较为冷门的功能进行扫盲,探讨它们为何不常被使用以及在什么情况下可以考虑使用这些功能。
一键难忘
2024/07/06
4941
基于 GBase 数据库的海量数据处理与性能优化
随着大数据时代的到来,海量数据的存储和高效处理成为各行业的核心需求。GBase 系列数据库(包括 GBase8a、GBase8s 和 GBase8c)以其强大的性能、灵活的存储架构以及高效的查询优化功能,成为处理大规模数据的理想选择。
用户11381600
2024/12/03
1320
GBase 数据库的性能优化与扩展性分析
数据库性能优化是保障系统高效运行的重要课题。在现代化企业应用中,GBase 系列数据库(如 GBase8a、GBase8s、GBase8c)凭借其强大的功能和灵活性,成为企业构建高性能数据库解决方案的优选。本文将从性能优化与扩展性设计的角度,深入探讨 GBase 数据库的核心技术和实际应用。
用户11381600
2024/12/09
1130
GBase 数据库的高并发场景下的查询优化策略
在现代数据库应用中,高并发查询是一个关键挑战。GBase 系列数据库(包括 GBase8a、GBase8s 和 GBase8c)凭借其先进的架构设计和优化能力,能够在高并发环境中表现出色。
用户11381600
2024/12/03
1380
从 GBase8a 到 GBase8s:不同场景下的性能对比与优化建议
GBase 数据库系列产品包括 GBase8a 和 GBase8s,它们分别面向不同的应用场景。本文将详细分析两者的架构特点、性能差异,并提供相应的优化建议。
用户11381600
2024/12/10
2910
深入探讨 GBase 数据库性能优化的最佳实践
随着企业级数据库系统的广泛应用,性能优化成为数据库管理中至关重要的一环。GBase 数据库作为一款高性能关系型数据库,支持分布式存储、强大的事务处理能力以及复杂的查询优化技术。然而,实际应用中,如何最大化地发挥 GBase8a、GBase8s 和 GBase8c 的性能潜力,是每位开发者和运维人员必须面对的挑战。
用户11381600
2024/12/03
1430
GBase 数据库中的 SQL 优化与性能调优实战
随着数据规模的快速增长,数据库的性能优化成为了技术团队不可回避的挑战。GBase 数据库作为国产数据库的佼佼者,以其灵活的架构和强大的性能优化能力,广泛应用于各种场景。无论是 GBase8a 的高效事务处理,GBase8s 的实时流处理,还是 GBase8c 的分布式计算,都离不开对 SQL 查询性能的深入优化。
用户11381600
2024/12/03
1770
深入解析 GBase 数据库的事务处理与一致性保障
随着现代业务场景对数据库需求的不断升级,高并发事务处理与数据一致性已成为数据库性能的关键指标。GBase 系列数据库(如 GBase8s 和 GBase8c)因其卓越的事务处理能力与一致性保障机制,成为众多企业级应用的核心支柱。
用户11381600
2024/12/03
1550
深入探索 GBase 数据库的分布式架构与高可用实践
在现代数据驱动的世界中,企业对高性能、高可用性的数据库需求愈发强烈。GBase 数据库以其卓越的分布式架构设计,在性能与可靠性方面展现了巨大的优势。特别是 GBase8a、GBase8s 和 GBase8c 系列,结合分布式存储与计算技术,为各类复杂业务场景提供了解决方案。
用户11381600
2024/12/03
960
GBase8s 的分区策略与性能调优
数据分区是数据库性能优化的关键策略,尤其在大数据场景下尤为重要。GBase8s 提供了多种分区方式,灵活应对复杂的查询需求。本文将深入探讨 GBase8s 的分区技术及其在性能优化中的实际应用。
用户11381600
2024/12/10
1470
GBase 数据库在企业大数据仓库中的应用与优化
随着企业数字化转型的加速,大数据仓库的建设成为提升业务分析能力的关键环节。GBase 数据库作为高性能大数据解决方案,凭借其卓越的存储与计算能力,在企业数据仓库中扮演着核心角色。本文将探讨如何利用 GBase 构建高效的大数据仓库,并结合实际案例分析优化技术。
用户11381600
2024/12/10
1140
GBase 数据库中的多版本并发控制(MVCC)及应用场景
在现代数据库系统中,支持多用户并发访问的同时,保证数据的一致性是一个重要的挑战。多版本并发控制(Multi-Version Concurrency Control,MVCC)是一种有效的解决方案。GBase 数据库通过优化 MVCC 技术,支持高效的并发访问和事务处理。本文将详细介绍 MVCC 在 GBase 数据库中的实现及应用场景,并通过代码示例说明其优势。
用户11381600
2024/12/09
1090
GBase 数据库索引技术的深度解析与性能优化
索引是数据库性能优化的核心工具,它通过加速数据查询与定位操作,在数据量庞大的情况下发挥了重要作用。GBase 系列数据库(如 GBase8s 和 GBase8c)在索引设计与优化上具备独特优势,为用户提供了强大的性能支持。
用户11381600
2024/12/03
1410
基于 GBase 数据库的分布式架构与高可用性实践
随着大数据时代的到来,分布式数据库成为应对海量数据存储和处理的核心技术之一。GBase 数据库通过支持分布式架构,实现了高可用性和高性能,为企业级应用提供了可靠的解决方案。本文将深入分析 GBase 数据库的分布式架构设计及高可用性实现,并结合代码示例探讨实践中的关键技术。
用户11381600
2024/12/09
1340
【金仓数据库征文】-不懂数据库也能看懂!一文解析金仓技术介绍以典型应用
想象一下,你点外卖时突然发现所有店铺消失,网购付款总提示失败,去银行办业务被告知查不到账户信息…… 这些崩溃瞬间,大概率是数据库 “罢工” 了。在数字化时代,数据库就像一个 24 小时在线的 “超级大管家”,默默管理着各行各业的海量数据。比如,电商平台用它记录你的购物车、订单和支付信息;医院用它存储患者病历、检查报告;交通系统用它实时监控红绿灯、车辆轨迹。如果把互联网比作人体,数据库就是 “大脑”—— 负责存储、整理和快速调取数据,让每一个业务流程顺利跑起来。
羑悻的小杀马特.
2025/04/26
1350
【金仓数据库征文】-不懂数据库也能看懂!一文解析金仓技术介绍以典型应用
深入探索 GBase 数据库的高可用架构与灾备策略
数据库的高可用性与灾难恢复能力是衡量其可靠性的重要指标。在日益复杂的业务场景中,GBase 数据库通过独特的架构设计和灵活的容灾机制,为用户提供了稳定、快速的服务。无论是 GBase8a 面向事务处理的高可用设计,还是 GBase8s 和 GBase8c 的分布式架构优化,都体现了 GBase 在高可用与容灾方面的优势。
用户11381600
2024/12/03
1440
GBase 数据库在分布式查询中的优化与实现
随着大数据技术的快速发展,传统的单机数据库已难以满足海量数据存储与查询的需求。在这样的背景下,分布式数据库成为主流,GBase 系列数据库(如 GBase8a、GBase8s 和 GBase8c)以其卓越的性能和灵活性,成为企业选择分布式数据库解决方案的首选之一。
用户11381600
2024/12/03
1400
GBase 数据库在医疗行业中的应用与优化
医疗行业正快速进入数字化时代,患者信息、药物研发数据、设备监控数据等各类信息爆发式增长。传统数据库无法满足医疗行业对数据安全、高效存储、实时分析的需求,而 GBase 数据库以其分布式架构和高效处理能力,为医疗行业提供了强大的技术支撑。
用户11381600
2024/11/27
1700
推荐阅读
相关推荐
基于 GBase 数据库的分布式存储实现与性能优化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档