获取csv文件中每个唯一单词的标记化

、、、

Here is the CSV table表中有两列。一个是摘要，另一个是正文。在我将它们组合在一起，转换成数据帧并保存为CSV文件之前，这两个列都是typeOfList格式的。顺便说一句，表格中的文本已经被清除(删除所有标记并转换为小写)：我想遍历表格中的每个单元格，将摘要和文本拆分成单词，并对每个单词进行标记化。我该怎么做

浏览 12提问于2019-09-22得票数 1

回答已采纳

1回答

Neo4j加载大数据:数据结构，矩阵与Json

、、、

我们正在计算一些文件的术语频率。我们将术语表示为节点，与一些文档(更多的节点)相关。问题是，我必须用术语和文档之间的加权关系填充我们的Neo4j数据库，这是大量的数据。我们一直在使用HTTP服务，我的队友告诉我，他将创建一个矩阵，我可以用它来填充图中的关系，我认为这是错误的，因为它会变成O (N^2)。处理这种数据结构的最佳方法是哪一种？

浏览 3提问于2014-03-25得票数 0

回答已采纳

1回答

NLTK在语料库中的上下文词的5个单词(左/右)中发现一个单词的出现。

、、

我用抓取抓取一个网站来获取数千个.txt文件，每个文件都包含一个自然语言文本(描述药物诱导的体验)。这些文件中每个文件的名称都是唯一的。我还拥有一个.csv文件，其中包含与每个唯一数字相关联的元数据(即，我有一个用于text_number的列，以及对应于这个特定编号的

浏览 0提问于2016-05-19得票数 2

回答已采纳

1回答

初始化和递增嵌套的dict python

我希望这样初始化一个空字典：然后，我从csv文件中取出行，保存到一个变量中，假设是saved_word_list。在这个saved_word_list中，是csv文件中包含句子的行。这些行上的每个句子都被标识为A或B。我想做的是用句子中的每个唯一单词<

浏览 5提问于2021-02-13得票数 0

3回答

如何根据文件夹中存储的数据将标签添加到CSV文件的末尾？

、

我有一个CSV文件，格式如下：最后一列保留为空。我想要标记每一行，并将标记放在最后一列。我还有一个目录，里面装满了纯文本文件，其中只包含单词列表(每行1个)。每个列表的文件名都与我要应用的标记相同。列表/列表/水果1列表/水果2列表/蔬菜1列表/

浏览 0提问于2012-01-03得票数 1

回答已采纳

2回答

如何比较两个CSV文件，检查第二列的值是否匹配，并计算每个值匹配时出现的次数？

、、、、

我想迭代两个CSV文件，检查两个文件中的值何时匹配，并计算每个值匹配时发生了多少次。输出应该是字典。所以我有两个CSV文件是对齐的。每个列都有2列："WORD“和"POS”(词性标记的一部分)。在某些情况下，对于两个文件，每个单词都以相同的方式标记，但在其他许多情况下，它

浏览 1提问于2019-11-13得票数 0

回答已采纳

1回答

在Rapidminer中进行标记化之前，在处理文档时替换单词

我有一组文档，我想在标记化之前用一个单词替换其中的一些单词集。 "Set up" --> Setup and 我尝试通过加载一个包含潜在单词的csv文件来使用Replace(字典)。但之后不能进行标记化。我该怎么做呢？Aji

浏览 0提问于2018-03-09得票数 0

1回答

JS对象中CSV数据的排序

、、

我需要一些帮助用JS对1370行CSV数据进行排序！我正在使用d3库创建一个数据可视化。我的项目var Obama = [{date: 'the date', count

浏览 3提问于2020-12-15得票数 1

回答已采纳

1回答

如何在多个csv文件中获取每个列的唯一值

、、、

我有50+ csv文件，并希望通过它们中的每一个来获取每个列的唯一值。它们都是格式化的，第一行是标题。任何帮助

浏览 3提问于2014-05-15得票数 1

回答已采纳

1回答

对CSV文件执行Unix uniq命令

、、、

我有一个包含单个单词和多个单词的英语短语的文本文件(list.txt)。我的目标是对每个单词进行字数统计，并将结果写入CSV文件。我已经想出了命令来编写每个单词的唯一实例的数量，从大到小排序。A-Z' 'a-z' < list.txt | tr -sc 'A-Za-z'

浏览 2提问于2013-03-12得票数 4

回答已采纳

1回答

如何比较python数据帧中两列中的tokenise字

、、、、

我有一个CSV文件，其中包含IT事件的记录。我有一个‘摘要’列和一个‘类别’列。我为该列中的每一行生成了标记化单词。我想将摘要列中的标记与类别列中的标记进行比较

浏览 0提问于2020-05-20得票数 1

2回答

标记大型文档

、、、

我目前正试图处理一个包含100万个专利文本文件的语料库，这些文件平均包含大约10k个非唯一的单词。我目前的数据管道工作如下：标记每个文档并将结果保存在一个新表中使用标记化文档训练tfidf模型符号化

浏览 0提问于2020-04-08得票数 1

回答已采纳

1回答

如何实现纯Java对象缓存

这包括读取文件、从文件中提取单词标记以及获取文件中每个唯一单词标记的频率。我创建了一个Java对象来保存每个单词及其频率，然后在ArrayList中保存包含所有单词和频率的对象。在提取紧密相关的单词(例如，那，然后，十，等等)时，我想先得到最频繁的

浏览 1提问于2014-08-06得票数 0

回答已采纳

1回答

当我已经对文件进行了标记化时，如何创建倒排索引？

、、、

我正在读取一个文本文件的行，这个文本文件在每行的第一个位置有一个文档docId的id，其余的行有关于这个文档的关键字。为了创建倒排索引，我首先必须对这个文本文件进行标记化。我写了一个函数，把每个单词都存储在一个向量中。我唯一的抱怨是，我还将docId作为字符串存储在向量中。以下是tokenize函数的<

浏览 7提问于2015-02-11得票数 0

1回答

包含2行2列的csv文件不会在R标记中呈现

、、

我试图在R标记中显示一个CSV文件，但它没有出现。对于其他CSV文件，我使用相同的代码，并且工作正常。没有错误，只有一个空空间。这个CSV文件与其他文件的唯一区别是，这个文件非常小(2列，2行，每个单元格包含一个单词)。>% scroll_box(宽度= "100%"，高度=“200 is”) 编辑

浏览 1提问于2020-01-08得票数 1

回答已采纳

2回答

Python从列表中的项目中提取单词/标记计数？

我有一个关于获取列表中项目字数的最佳方法的问题。我在列表中对400+项进行了索引。它们有不同的长度。每一项都将写入csv文件的单独行中。我想要相应的字数来补充相邻列中的这篇文章。我可以使用Excel找到单词/标记的计数，但我希望能够在Python中做到这一点，这样我就不必在程序之间

浏览 0提问于2012-12-25得票数 0

回答已采纳

4回答

统计文本文件中多篇文章中特定单词的出现频率

、、、

我想计算单个文本文件中包含的每一篇文章的单词列表的出现次数。可以识别每个文章，因为它们都以公共标签"< p> Advertisement'“开始。我想要做的是计算每个单词的频率，我有一个csv文件(20个单词)，并将输出写成这样： id, attack, war, terrorism, people, kill

浏览 58提问于2016-11-15得票数 1

回答已采纳

2回答

将CSV数据从文件转换为JSON

、、

我有一个csv文件，其中包含用'，‘分隔的csv数据。我正在尝试将其转换为json格式。为此，我尝试先提取报头。但是，我无法区分标题和下一行。以下是csv文件中的数据： Start Date ,Start Time,End Date,End Time,Event Title 9/5/2011,3:00:00 PM,9/5/2011,,SocialMeeting 9/5/2011,6:

浏览 19提问于2019-06-22得票数 0

回答已采纳

1回答

新闻组分类

、

目前我们公司，有一个专门的用户论坛。论坛主要讨论的主题是: SIP协议。我试着理解怎样才是一个很好的方法来将客户在论坛上报告的十大问题进行分类，例如：标记化每个线程提取顶项在所有线程中</e

浏览 0提问于2016-06-10得票数 -1

回答已采纳

4回答

Python一定条件下的字数统计

我尝试获取每一行的seccond单词，但前提是在csv中seccond last number为0，并计算每个单词在csv文件中出现的次数。数据：到目前为止的代码：with open('the_file.csv', 'rb') as csvfile: reader = <em

浏览 1提问于2020-03-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Neo4j加载大数据:数据结构，矩阵与Json

NLTK在语料库中的上下文词的5个单词(左/右)中发现一个单词的出现。

初始化和递增嵌套的dict python

如何根据文件夹中存储的数据将标签添加到CSV文件的末尾？

如何比较两个CSV文件，检查第二列的值是否匹配，并计算每个值匹配时出现的次数？

在Rapidminer中进行标记化之前，在处理文档时替换单词

JS对象中CSV数据的排序

如何在多个csv文件中获取每个列的唯一值

对CSV文件执行Unix uniq命令

如何比较python数据帧中两列中的tokenise字

标记大型文档

如何实现纯Java对象缓存

当我已经对文件进行了标记化时，如何创建倒排索引？

包含2行2列的csv文件不会在R标记中呈现

Python从列表中的项目中提取单词/标记计数？

统计文本文件中多篇文章中特定单词的出现频率

将CSV数据从文件转换为JSON

新闻组分类

Python一定条件下的字数统计

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐