腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(6892)
视频
沙龙
1
回答
如何
组合
不同
算法
生成
的
不同
嵌入
,
如
Word2vec
,
GLOVE
,
BERT
?
、
、
、
我想知道将我从
不同
算法
(
如
word2vec
、
GLOVE
或
BERT
)
生成
的
不同
嵌入
组合
在一起以
生成
最终
嵌入
的
最佳方法。
浏览 4
提问于2021-04-05
得票数 1
1
回答
BERT
词
嵌入
的
大小/范数
的
意义是什么?
、
我们通常将词
嵌入
之间
的
相似度与余弦相似度进行比较,但这只考虑了向量之间
的
角度,而不是范数。对于
word2vec
,随着单词在更多
的
上下文中使用,向量
的
范数会减少。因此,停用词接近于0,并且非常独特,高意义
的
词往往是大
的
向量。
BERT
是上下文敏感
的
,所以这个解释并不完全涵盖
BERT
嵌入
。有没有人知道矢量震级对
BERT
有什么意义?
浏览 1
提问于2019-07-23
得票数 4
1
回答
pandas数据框列
的
BERT
字
嵌入
、
、
、
我正在做一个使用Tamil Universal Dependency dataset
的
NLP项目。我已经将数据预处理成一个数据框,其中
的
列是令牌及其依赖标记。我想使用mBERT模型执行单词
嵌入
。由于数据集是一个预先训练
的
模型,因此它已经被标记化,
如
附加
的
数据框所示。我不确定
如何
继续,因为当令牌被转换为令牌id时,令牌器错误地标记了令牌id。
浏览 15
提问于2021-10-31
得票数 0
2
回答
如何
利用文字
嵌入
来进行文档分类等?
、
、
、
、
我刚开始学习NLP技术,
如
GPT,
Bert
,XLnet,
word2vec
,
Glove
等,我尽力阅读论文和查看源代码。但我仍然不能很好地理解。当我们使用
word2vec
或
Glove
将一个单词转换成一个向量时,它就像: [0.1,0.1,0.2...]如果要用随机森林等传统方法对文档进行分类,那么
如何
使用这些数据呢?我被告知伯特或其他NLP模型可以做到这一点。但是我真的很好奇
嵌入
这个词在传统方法中是
如何
应用
的
?
浏览 0
提问于2019-09-24
得票数 1
回答已采纳
1
回答
对于同一语料库,
Word2vec
和
Glove
模型
生成
的
词汇表是
不同
的
、
、
、
、
我正在使用
Word2vec
和
Glove
使用CONLL2003 dataset来
生成
单词
嵌入
。word2vecmodel.wv.vocab返回
的
单词数与
glove
.dictionary
不同
(少得多)。下面是代码:
Word2Vec
:X = word2vecmodel[word2vecmodel.wv.vocab
浏览 1
提问于2020-09-23
得票数 0
1
回答
字到向量
嵌入
的
替代方案
、
、
我只是好奇,有什么替代词2向量表示
的
技术吗?因此,单词/短语/句子不是用向量表示
的
,而是有
不同
的
形式。谢谢。
浏览 0
提问于2022-11-05
得票数 0
回答已采纳
1
回答
如何
从头开始在gensim中训练
Glove
嵌入
?
、
如何
从头开始在gensim中训练
Glove
嵌入
?我可以使用gensim来做这件事吗?
浏览 1
提问于2021-04-09
得票数 0
1
回答
如何
使数组作为一个字
嵌入
,类似于tf.keras.datasets.imdb.get_word_index?
、
、
、
我看到了来自IMDB
的
Movie二进制分类代码。我试图对自己
的
数据集使用相同
的
代码(其中列是"text":这是我
的
情绪化句子,“标签”:0或1)。我想做一个名为word_index
的
单词
嵌入
,类似于tf.keras.datasets.imdb.get_word_index {'fawn': 34701, 'tsukino': 52006, 'nunnery我试过这样做,但我不确定是否与get_word_index<em
浏览 4
提问于2021-06-20
得票数 0
回答已采纳
2
回答
语境
嵌入
和词
嵌入
有什么区别?
、
、
我试图理解深层次学习模式
的
嵌入
概念。然而,最近我看到了大量
的
博客文章,上面写着ELMo、
BERT
等关于上下文
嵌入
的
文章。单词
嵌入
与上下文
嵌入
有什么
不同
?
浏览 0
提问于2020-06-08
得票数 12
回答已采纳
1
回答
如何
将伯特字
嵌入
保存为类似于.vec
的
word2vec
、
、
、
、
我想使用
生成
的
伯特字
嵌入
作为在火炬文本中构建词汇表
的
向量,我可以加载向量,
如
GloVe
或
word2vec
,但我不知道
如何
将单词
嵌入
从伯特保存到火炬文本语音可接受
的
格式txt_field.build_vocab
浏览 0
提问于2019-07-07
得票数 1
1
回答
具有大量意图类
的
意图分类
、
、
、
我正在处理大约3000条问题
的
数据集,我想要执行意图分类。数据集还没有贴上标签,但从业务角度来看,需要标识大约80各种意图类。让我们假设我
的
培训数据在每个类中
的
数量大致相等,并且不主要偏向于某些类。我打算将文本转换为
word2vec
或手套,然后输入到分类器中。 我熟悉
的
情况是,我有较少
的
意图类,
如
8或10和机器学习分类器
的
选择,
如
支持向量机,天真的诱饵或深度学习(CNN或LSTM)。我
的
问题是,如果你以前有过这么多<
浏览 0
提问于2019-02-24
得票数 3
回答已采纳
4
回答
word2vec
-什么是最好
的
?添加、串联或平均字向量?
、
、
、
、
我正在研究一种反复出现
的
语言模式。为了学习可以用于初始化我
的
语言模型
的
单词
嵌入
,我使用gensim
的
word2vec
模型。经过训练,
word2vec
模型对词汇表中
的
每个单词包含两个向量:单词
嵌入
(输入/隐藏矩阵行)和上下文
嵌入
(隐藏/输出矩阵列)。正如中所概述
的
,至少有三种共同
的
方法来
组合
这两个
嵌入
向量: 每个单词
浏览 6
提问于2017-10-23
得票数 20
回答已采纳
2
回答
伯特使用
GLoVE
吗?
、
、
、
从我所读到
的
所有文档中,人们都在推动
BERT
如何
使用或
生成
嵌入
。我知道有一个键、一个查询和一个值,这些都是
生成
的
。 我不知道
的
是,最初
的
嵌入
--你把最初
的
东西放入伯特--是否可以或者应该是一个向量。人们对伯特或阿尔伯特
如何
不能被用来进行逐字比较感到诗意,但没有人明确地说出伯特在消费什么。是向量吗?如果是这样的话,它只是一个热向量吗?为什么它不是
GLoVE
载体?(请
浏览 0
提问于2020-04-28
得票数 7
回答已采纳
1
回答
句子编码和上下文化
的
词
嵌入
有什么区别?
、
、
、
我在阅读关于伯特和ELMo
的
论文时见过这两个术语,所以我想知道它们之间是否有区别。
浏览 2
提问于2020-01-23
得票数 11
回答已采纳
3
回答
加载PreComputed矢量Gensim
、
、
、
然而,已经存在许多文本格式
的
预计算词向量(例如)。是否有某种方法可以初始化Gensim
Word2Vec
模型,该模型只利用一些预先计算
的
向量,而不必从头开始学习这些向量? 谢谢!
浏览 1
提问于2014-11-26
得票数 25
回答已采纳
1
回答
ELMo -模型
如何
在新句子上传递其学习/权重
、
、
、
、
Word2vec
和
Glove
嵌入
对语料库中
的
每个单词都有相同
的
向量表示,不考虑上下文。那条狗确实对人吠叫。 树
的
树皮很硬。在上面的例子中,
Word2vec
和
Glove
为单词“树皮”创建了一个向量。但是使用Elmo,对于“树皮”这个词,它会有两种
不同
的
表达方式,因为它考虑
的
是上下文。所以,我在尝试
如何
在数据集中给出一个新句子
的
向量
的
机制。
浏览 0
提问于2020-06-20
得票数 0
1
回答
在使用手套法时,谈论跳跃和弓形是否有意义?
、
、
我正在尝试
不同
的
单词
嵌入
方法,以选择最适合我
的
方法。我试过
word2vec
和FastText。现在,我想试试手套。在
word2vec
和FastText中,都有两个版本: Skip-gram (从word预测上下文)和CBOW (从上下文预测单词)。但是在
Glove
python包中,没有任何参数可以让您选择是否要使用skipg-gram还是c蝴蝶结。 考虑到手套
的
工作方式与w2v
不同
,我想知道:在使用手套方法时谈论跳过克和弓形是否有意
浏览 7
提问于2017-05-22
得票数 2
回答已采纳
2
回答
如何
决定使用TFIDF
的
方法,还是鞠躬?
、
、
、
在NLP
的
大型数据集中,需要很长时间才能对数据集进行分类。有没有一种方法可以告诉我哪种方法更有可能给出最高
的
F1分数。我试过在较小
的
子集(1000条记录)上测试它们,这是快速
的
,但在较小
的
子集中最好
的
方法并不意味着它在完整
的
数据集中是最好
的
。 还有其他方法来决定使用哪种方法吗?
浏览 0
提问于2021-03-03
得票数 0
1
回答
怎样使用预先训练过
的
模特(手套)或者训练我自己
的
模特?
、
、
、
我一直在使用预先训练
的
模型,
如
谷歌新闻或手套6B模型,但在我
的
文本数据中
的
许多单词没有它们
的
向量表示在那些预先训练
的
模型中。所以我想也许用我
的
数据来训练我自己
的
模型。在训练我们自己
的
两类分类模型时有什么缺点吗?还是我应该继续使用预先训练过
的
模型。训练我们自己
的
模型和使用预先训练
的
模式有什么区别?# This is how I am thinking to train the mod
浏览 0
提问于2019-03-07
得票数 0
2
回答
什么时候使用
不同
的
Word2Vec
训练方法?
、
、
、
、
因此,我是第一次学习
Word2Vec
,我
的
问题是非常基本
的
:
如何
知道使用什么方法?比如Tensorflow中
的
Word2Vec
还是用Gensim训练
的
Word2Vec
?在哪些情况下,通过更手动
的
第一种方法来实现它相对于第二种方法是有用
的
呢?如果已经有一种更简单
的
方法来使用gensim来训练
word2vec
模型,为什么不总是使用它呢?此外,使用像谷歌新闻数据集这样
的
浏览 0
提问于2018-01-08
得票数 3
回答已采纳
点击加载更多
相关
资讯
GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试
在类似ChatGPT的模型中,嵌入(embeddings)扮演着什么角色?(第二部分)
嵌入向量能否理解数字?BERT竟不如ELMo?
为什么预训练语言模型 ELMo 是NLP的最大进步之一?
四种计算文本相似度的方法对比
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券