腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >用ELMo嵌入段落

问用ELMo嵌入段落
EN

Stack Overflow用户

提问于 2018-12-01 04:47:32

回答 1查看 1.3K关注 0票数 3

我正在努力理解如何为ELMo矢量化编写段落。

文档只显示如何在同一时间嵌入多个句子/单词。

例如：

sentences = [["the", "cat", "is", "on", "the", "mat"],
         ["dogs", "are", "in", "the", "fog", ""]]
elmo(
     inputs={
          "tokens": sentences,
          "sequence_len": [6, 5]
            },
     signature="tokens",
     as_dict=True
    )["elmo"]

据我所知，这将返回两个向量，每个向量代表一个给定的句子。我将如何准备输入数据，以向量化包含多个句子的整个段落。请注意，我希望使用自己的预处理。

可以这样做吗？

sentences = [["<s>" "the", "cat", "is", "on", "the", "mat", ".", "</s>", 
              "<s>", "dogs", "are", "in", "the", "fog", ".", "</s>"]]

或者像这样？

sentences = [["the", "cat", "is", "on", "the", "mat", ".", 
              "dogs", "are", "in", "the", "fog", "."]]

python

tensorflow

nlp

tensorflow-hub

elmo

回答 1

Stack Overflow用户

发布于 2018-12-01 11:42:31

ELMo生成上下文词向量。因此，与单词相对应的词向量是单词和上下文的函数，例如，它出现在句子中。

就像文档中的例子一样，您希望您的段落是一个句子列表，这些句子是标记的列表。你的第二个例子。要获得这种格式，可以使用spacy 令牌器

import spacy

# you need to install the language model first. See spacy docs.
nlp = spacy.load('en_core_web_sm')

text = "The cat is on the mat. Dogs are in the fog."
toks = nlp(text)
sentences = [[w.text for w in s] for s in toks.sents]

我不认为在第二句话中需要额外的填充""，因为sequence_len会处理这个问题。

更新

据我所知，这将返回两个向量，每个向量代表一个给定的句子。

不，这将返回每个单词的向量，在每个句子中。如果您希望整个段落成为上下文(每个单词)，只需将其更改为

sentences = [["the", "cat", "is", "on", "the", "mat", "dogs", "are", "in", "the", "fog"]]

和

...
"sequence_len": [11]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53570918

复制

现实世界中的 Python

python https ide 网络安全

非常稳定。自 1991 年起大约每隔 6 到 18 个月就会推出新的稳定发布版，这种状态看来还将持续下去。目前主要发布版本的间隔通常为 18 个月左右。

py3study

2020/01/16

4650

对于问题的简单定义

编程算法机器学习

学习此部分的目的：发现在没有单独的行动可以解决问题的时候，机器如何找到一个行动序列达到他的目标；在这部分中，通过讨论一些无信息的通用搜索算法，来比较各部分算法的优缺点； 1;问题求解的智能体当智能体能够采用一个目标并针对这个目标得到满足而去行事，达到性能度量最大化时会被简化。因为这个世界不确定的因素太多，而问题的解可能有很多的问题，比如说过多的步骤。将问题形式化是决策对于给定的目标需要考虑哪些行动和状态的过程。一般来说一个机器有多个评价未知的直接选项的时候，可以首先检验各个不同的能导致已知评价状态的可能

云时之间

2018/04/11

8790

浅论C++的复杂性

java

C++语言已经有了30多年的历史。作为一门影响广泛的编程语言，它所受到的关注和争论恐怕是任何一门其他的语言所不能比拟的。十几年前，Java等新生语言的出现曾导致“C++信任危机”，但最终C++以自身非凡的品质屹立于主流编程语言的行列。在有着众多编程语言可以选择的今天，到底还有没有必要学习C++？怎样学习C++？怎样使用C++？对于广大的程序员，特别是对于刚刚接触编程的学习者，这些问题都是至关重要的。

恋喵大鲤鱼

2018/08/03

1.1K0

C++自定义类的对象对于其私有变量的访问

编程算法 c++

以下语法规则是不言自明的：在自定义类A的成员函数中，可以对该类的私有成员变量进行赋值等操作，但是在类定义之外所声明的A类的对象aobj是不可以直接访问A类的私有变量的，只有通过在A类的成员函数中开放访问其私有变量的接口，对象aobj才可以对私有变量进行操作。

大忽悠爱学习

2021/11/15

1.5K0

现实世界中的原生 Java

java 腾讯云测试服务 api 微服务

作者 | KimJohn Quinn, Rakesh Raja, Jason Moehlman

深度学习与Python

2022/06/11

6620

MVC 软件架构对于现实生活的启发

mvc

近期学习了MVC的软件架构。期间不禁得思考这样的架构是否可以作为支撑日常生活计划甚至是思考的模型。

杨丝儿

2022/03/17

4360

[物联网] 3.1 设备--通向现实世界的接口

物联网硬件开发

科控物联

2022/03/29

2970

C++丨初识C++像极了C语言

c++编程算法 https c 语言网络安全

Reference：https://en.cppreference.com/w/cpp/keyword

AXYZdong

2022/09/02

1.5K0

像这样的高考，其实我们每天都在经历

数据库 sql 开源 TDSQL MySQL 版

2022年6月7日，北京时间11:30，随着高考第一场科目语文考试结束，全国各地的高考作文题也正式在公众面前“登台亮相”。今年全国乙卷的高考作文题目是“跨越，再跨越”，双奥之城闪耀世界，两次奥运会展示了我国综合国力的跨越式发展，同期腾讯云数据库也实现了从儿童向有为青年的跨越。卓越永无止境，跨越永不停歇。腾讯云数据库在跨越、再跨越的国产化路上，历经十八载，交出了自己的答卷。 1978年，萨师煊老师在黑板上写下“数据库”三个字，数据库理论正式进入中国。如今国产数据库已经走过了整整44年。从上世纪八九十年代，国

腾讯云数据库 TencentDB

2022/06/08

4810

【Python环境】Python分类现实世界的数据

python 机器学习 scikit-learn

引入一个机器可以根据照片来辨别鲜花的品种吗？在机器学习角度，这其实是一个分类问题，即机器根据不同品种鲜花的数据进行学习，使其可以对未标记的测试图片数据进行分类。这一小节，我们还是从scikit-learn出发，理解基本的分类原则，多动手实践。 Iris数据集 Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集，可以作为判别分析（discriminant analysis）的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virgin

陆勤_数据人网

2018/02/27

9980

【C++】走进C++的世界

c 语言 c++编程算法

定义命名空间，需要使用到namespace关键字，后面跟命名空间的名字，然后跟着一对{}即可，{}中即为命名空间的成员。

平凡的人1

2022/11/15

9790

区块链游戏：虚拟世界与现实世界间的博弈

区块链游戏微信分布式

游戏平台是区块链技术落地的最好土壤。当今，区块链游戏成为了生活不可或缺的一部分。区块链游戏已经演变为90后、00后最热衷的社交方式。区块链游戏能够使游戏玩家自由穿梭于虚拟和现实世界间，在游戏中快意人生。

陌上花开2018

2018/07/05

2.7K0

多云世界中的三个严酷的现实

其他

调查机构Gartner公司的调查表明，云计算和工业化服务的增长以及传统数据中心外包的减少，表明了企业向混合基础设施服务的巨大转变。到2021年其市场规模估计将达到917.4亿美元。在过去的五年中，软

静一

2018/03/15

8850

世界地球日|你的“衣食住行”也可以像这样酷炫到爆！

出行

俗话说得好，科技改变生活，现如今人们也在用科技在改变全球环境。世界地球日（Earth Day），即每年的4月22日，是一个专为世界环境保护而设立的节日，旨在提高民众对于现有环境问题的意识，并动员民众

镁客网

2018/05/25

5800

对于没有编程经验的人，R 语言是否很难掌握？

r 语言

R 是统计领域广泛使用的诞生于 1980 年左右的 S 语言的一个分支。R 是属于 GNU 系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。从R的普及来看，国外的普及度要明显好于国内，跟盗版windows的泛滥会影响linux在中国的普及一样的道理，破解的SAS与SPSS的存在也影响了R在中国的使用人群。但在国外高校的统计系，R几乎是一门必修的语言，具有统治性的地位。在工业界，作为互联网公司翘楚的google内部也有不少的工程使用R进行数据分析工作。那么，如果你是一个

小莹莹

2018/04/24

1.3K0

英伟达DesignWorks VR用虚拟现实做现实世界的设计

其他

英伟达（NVIDIA）发布了DesignWorks VR，一套新的工具配合之前推出的GameWorks VR SDK一起使用，聚焦代替在虚拟现实里创建物理对象。现在，英伟达已经启动一项新的倡议，以协助利用虚拟现实技术，帮助产品设计师和建筑师使用虚拟现实的独特功能为真实世界创建对象。建立在英伟达最近推出的GameWorks VR（专注于在英伟达硬件上发挥虚拟现实体验最大效用的一款SDK）上，DesignWorks VR扩展可用的工具集同时改进支持Open CL，专注于设计和雕刻对象特性甚至面向现实世界的物

GPUS Lady

2018/03/30

7230

边缘服务的一致性、耦合和复杂性

API 网关 jenkins api 缓存

技术公司采用微服务架构已经十多年了，结果好坏参半。微服务之间的依赖关系导致在修改一个服务时也需要修改其他服务，微服务的优势因此打了折扣。这就是所谓的紧密耦合。但组件之间的依赖关系是不可避免的。

深度学习与Python

2021/10/13

9500

判断是否有重复的数字

编程算法

import java.util.Scanner; import java.util.HashMap; public class Main { public static void main(String[] args) { Scanner input = new Scanner(System.in); int m=input.nextInt(); HashMap map=new HashMap(); while(m-->0) { int tmp=input.nextInt(); if(

葆宁

2019/04/18

3.5K0

服务器上的RTC时间与世界时间不一致解决办法

ntp data server 服务器同步

无论怎么修改ntp server都不行，data命令查看比世界时间快了20分钟左右，使用timedatctl命令查看，发现显示的是RTC时间

姚华

2022/06/29

2.2K0

C++对于大型图片的加载缩放尝试

其他

Qt对于图片的操作主要集中在这几个类 QImage ,QImageReader ,QPixmap 其中QImage这个类对图片的缩放有几个很不错的技巧，不过对于大图片却并不好使，当我们去看QImage的实现代码时，会发现其中读取QImageReader来加载图片，当我们去看QImageReader的实现的时候，我们会发现QImageReader的加载模式是unbuffer-->无缓冲加载模式，而且加载速度也是相当的快，所以QImageReader对大图片进行缩放很好使. 但是QImage也是有一些独特的优势

Gxjun

2018/03/27

1.8K0

相似问题

现实世界中的Clean编程语言？

是否有像access()这样的函数，但是对于特定的用户id？

对于'UNIX‘有像'dumpbin’这样的命令吗？

对于像Option<T>这样的东西是否有锈蚀变量命名约定？

有人能用现实世界的语言来定义闭包是什么吗？

514

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问用ELMo嵌入段落
EN

回答 1

Stack Overflow用户

现实世界中的Clean编程语言？

是否有像access()这样的函数，但是对于特定的用户id？

对于'UNIX‘有像'dumpbin’这样的命令吗？

对于像Option<T>这样的东西是否有锈蚀变量命名约定？

有人能用现实世界的语言来定义闭包是什么吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用ELMo嵌入段落EN

回答 1

Stack Overflow用户

现实世界中的Clean编程语言？

是否有像access()这样的函数，但是对于特定的用户id？

对于'UNIX‘有像'dumpbin’这样的命令吗？

对于像Option<T>这样的东西是否有锈蚀变量命名约定？

有人能用现实世界的语言来定义闭包是什么吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用ELMo嵌入段落
EN