腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
统计
dataframe
列
中
多个
字符串
的
词频
我有一个大约33000行
的
DF,如下所示: tibble(ID = c(1,2,3), desc = c("This is a description.,"This is yet another desciption")) 我想对所有行
的
每个单词进行计数,以获得结果df,如下所示: tibble(word = c("this", "is", "a",
浏览 29
提问于2020-03-31
得票数 1
回答已采纳
3
回答
统计
R
中
多个
列
的
词频
、
、
、
我在R中有一个数据框,它有
多个
列
,其中包含
多个
单词文本响应,如下所示:studentopportunities university我希望能够计算1a、1b和1c
列
中
单词组合
的
频率,以及2a、2b和2b组合
的</e
浏览 2
提问于2018-11-16
得票数 1
2
回答
统计
pandas
DataFrame
中
的
子
词频
、
、
、
我有一个2
列
的
pandas.
DataFrame
,其中包含酒精
的
类型(即伏特加80标准,加拿大
的
威士,香料朗姆酒)和瓶子销售
的
数量。我想先把它归入粒度较小
的
类别,即(威士忌,伏特加,朗姆酒),然后计算每个类别售出
的
所有瓶子
的
总和。 我
的
代码不允许我隔离诸如“伏特加”之类
的
标签,而是返回诸如“伏特加80证明”之类
的
类别的频率。word_dist = nltk.FreqDist(df[&
浏览 1
提问于2017-05-29
得票数 1
2
回答
统计
多个
文档
中
的
词频
、
、
、
我在字典‘d’中有一个
多个
文本文件
的
地址列表:我
的
输出应该是这样
的
: a-
浏览 0
提问于2013-07-01
得票数 1
2
回答
如何使用非标准分隔符从词汇表创建DF?
、
、
、
我试着通过词汇量来
统计
词频
: vocabulary = {} if word in vocabulary: else: vocabulary[word] = 1 在此之后,我尝试通过以下方式将结果转换为
DataFrame
: df = pd.
DataFrame
.from_dict(vocabulary, orient='index', columns=['word
浏览 24
提问于2019-01-29
得票数 1
回答已采纳
2
回答
统计
多个
文件
中
的
词频
、
、
、
我正在尝试编写一段代码来
统计
包含大约10000个文件
的
文档
中
单词出现
的
频率,但我得到
的
不是总频率,而是最后一个文件
的
单词计数,因为它将覆盖前一次迭代。到目前为止我
的
代码是:import glob file_list = glob.glob(TARGET_FILES)
浏览 1
提问于2018-03-26
得票数 0
1
回答
如何使用python
统计
文本
中
的
列表单词来制作字典?
、
、
、
我有一个关于为关键字计数制作字典
的
问题。df = pd.
DataFrame
({ "100", "300" "Text":[best, school, store, hospital]", ]
浏览 0
提问于2021-05-04
得票数 0
1
回答
从Pandas
DataFrame
计算IDF
、
、
、
我有一个带有
词频
(tf)
的
DataFrame
。
列
是单词,行是文档。这些行
的
总和为1。|问题是,sklearn
的
tfidf不期望
词频
,但单词很重要...
浏览 2
提问于2017-07-11
得票数 1
2
回答
在Lucene索引
中
修改.tim和.tip文件
、
我有一个具有
多个
索引
的
Lucene应用程序,其中相关性评分由于不同索引之间
的
词频
差异而受到影响。我
的
理解是术语词典(.tim文件)包含“术语
统计
信息”,比如每个术语
的
文档频率
统计
信息。我在想,一种方法可能是修改每个索引(和相关段)
的
.tim文件,并更新“术语
统计
”。是否可以用这种方式覆盖或修改.tim和.tip文件?
浏览 1
提问于2014-06-25
得票数 0
3
回答
Python
词频
统计
程序
、
我用python创建了一个简单
的
单词
统计
程序,它读取一个文本文件,
统计
词频
,并将结果写入另一个文件。问题是,当单词重复时,程序会写入同一单词
的
初始计数和最终计数。例如,如果单词" hello“重复3次,程序将在输出
中
写入3个hello实例,如下所示:你好-1你好-3counts ={} counts我是python
的
新手。
浏览 0
提问于2014-02-19
得票数 1
1
回答
机器翻译
中
的
字符串
相似度有哪些深入
的
学习方法?
、
、
、
我对机器翻译感兴趣,更具体地说,我想研究两个
字符串
之间
的
相似之处。我想知道是否有深入学习
的
方法来进行文本特征提取。我已经尝试过著名
的
统计
方法,如余弦相似度、Levenstein距离、
词频
等。 谢谢
浏览 0
提问于2018-05-20
得票数 0
回答已采纳
4
回答
Pandas -
dataframe
包含注释(行)和单词作为
列
标题如何获取频率计数?
、
、
、
、
我正在尝试对一个相对较大
的
数据帧执行
词频
统计
,但不知道哪种方法是最好
的
。目前我
的
数据帧看起来是这样
的
-'whats up' NaN NaN NaN
浏览 0
提问于2019-11-10
得票数 1
2
回答
Java Stanford NLP:查找
词频
?
、
、
我使用
的
是Stanford NLP解析工具包。给定词典
中
的
一个单词,我如何找到它
的
频率*?或者,给定一个频率等级,我如何确定相应
的
单词?class ParserDemo { LexicalizedParser lp
浏览 0
提问于2009-11-30
得票数 2
1
回答
统计
字符串
向量
中
的
词频
、
我在数据框中有一
列
,如下所示:我想要做
的
是计算每个术语
的
频率,并返回一个数据帧,如下所示: B 2我熟悉在数据框中将这些
字符串
拆分成
列
的
各种方法,例如cSplit、read.table等,但这并不理想,因为我需要计算数百个不同
的
值
浏览 1
提问于2018-07-10
得票数 0
1
回答
字符串
中
的
多
词频
统计
、
我有一个文本文件,想要两组单词
的
频率计数。mumbai, delhi and chennai. while many exotic brands in mumbai... disel, durby, Calvin Kline") 需要以下方式
的
输出
浏览 1
提问于2017-10-12
得票数 1
1
回答
HashingTF未提供唯一索引
、
、
、
SingularValueDecomposition<RowMatrix, Matrix> svd = matTFIDF.computeSVD(k, true, rCond);我发现有很多词条都有相同
的
索引,这些是我得到
的
1:全部2: tt7:文档9:矩阵11 :每个12 :机
浏览 5
提问于2016-09-07
得票数 0
1
回答
从R
中
函数内
的
列
中
检索因子级别数
、
我正在尝试创建一个函数,该函数对数据帧
中
的
特定
列
执行
多个
统计
测试。有些测试需要
多个
级别。我想测试一个特定
的
列
中有多少个级别,但似乎做不对。在我
的
实际代码
中
,这一部分后面是一个ifelse,如果是单一
的
,则返回一个
字符串
'only one level‘,如果> 1,则继续进行
统计
测试。list(x = as.name(n_fact))) pr
浏览 0
提问于2017-07-24
得票数 4
回答已采纳
2
回答
使用Python在
dataframe
中
查找对
、
、
、
、
我正在处理一个数据形式
的
数据。我
的
数据是: a c我希望以这样
的
方式编写代码,以便输出如下所示: c e请帮我解决这个问题。
浏览 1
提问于2020-03-15
得票数 0
回答已采纳
1
回答
对多
列
熊猫进行重采样
、
如何对
多个
列
的
数据帧进行重采样以获得新
的
统计
数据? 例如,我有一个以秒为索引
的
dataframe
,有两
列
(数量、数量),我想将()重采样为分钟,并基于数量*数量创建一个新
列
。
浏览 1
提问于2017-01-10
得票数 0
2
回答
统计
python
中
的
词频
、
、
我试图删除标点符号,并计算我
的
代码工作
的
words.Part频率,但我
的
代码似乎不完整。我正在尝试获取{'hello':2,'hi':1}等单词
的
字典。它对hello word有效,但对于Hurray,它给我
的
输出就像是Hurray!任何关于为什么它会这样做
的
意见都是值得赞赏
的
。
浏览 2
提问于2019-09-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
肝了3天,整理了90个Pandas案例
Java 11 统计字符串中各个字符出现的次数
pandas系列学习(三):DataFrame
如何用python 10倍提升ASO效率
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券