我在一个项目中工作,其中输入文件被提供给,它被要求首先输出最小支持0.01的所有长度的频繁类别。然后是所有的频繁类别集。
目标是在文件中写入以下具有绝对支持(计数)的数据,例如:
2851:快餐;餐馆
我以列表的形式检索所有数据
data = []
with open("categories.txt") as file:
for line in file:
line = line.replace("\n", "")
line = line.split(";")
data.append(line)
我的问题是
我读了一些关于关联规则挖掘( Association )的文章,碰到了一个Kaggle数据集,其中一个竞争对手应用了张的规则。我想知道它是什么。我试着在网上寻找它,大部分的点击都围绕着某个中国皇帝的名字,这个名字统治着中国。而其他的事情则与此无关。如果你有什么可以分享的,比如它的意义,那就太棒了。
这里也没有以“吧”开头的标签。
我想使用Apriori对交易数据进行亲和力分析。我有一个表,其中包含订单及其信息的列表。我主要需要使用OrderID和ProductID属性,它们的格式如下
OrderID ProductID
1个A
1 B
1 C
2 A
2 C
3 A
Weka要求您为每个产品ID创建一个名义属性,并使用如下所示的true或false值指定该项目是否出现在订单中:
1,TRUE,TRUE,TRUE
2,TRUE,FALSE,TRUE
3,真,假,假
我的数据集包含大约10k条记录...大约3k种不同的产品。有没有人能建议一种以这种格式创建数据集的方法?(除了手动耗时的方式...)
我面临着一个关于序列挖掘的棘手问题,比如我有10种产品,我有数百万条记录,每条记录都包含用户、产品和购买时间戳。每个用户可能只有1条记录或100条记录。例如:
user 1, p1, t1
user 1, p1, t2
user 1, p2, t3
user 1, p3, t4
user 1, p1, t5
user 2, p2, t6.....
现在我需要预测什么时候是为用户推广产品的最佳时机。
到目前为止,我的解决方案是,将时间分成几个类别。然后对数据应用Apriori,例如记录将如下所示
user 1, p1T1
user 1, p2T2
user 1, p3T2
user 1, p2T
资料来源:谷歌面试问题
由于有一个庞大的计算机网络,每个计算机都保存访问URL的日志文件,可以找到访问量最大的十大URL.。
有很多大的<string (url) -> int (visits)> maps。
计算< string (url) -> int (sum of visits among all distributed maps),并得到合并地图中的前十位。
主要限制:映射太大,无法通过网络传输。也不能直接使用MapReduce .
我现在遇到了相当多的此类问题,需要在大型分布式系统上完成processiong。我无法思考或找到一个合适的答案。
我所能想
聚类标签(在多标签分类问题中),这些标签通常一起出现在数据帧中?例如,我有这样的数据帧: text | genre
===========================
text 1 | [action,mistery,horror,thriller]
text 2 | [drama,romance]
text 3 | [comedy,drama,romance]
text 4 | [scifi,mystery,horror,thriller]
text 5 | [horror,mystery,thriller] 如何对经常一起出现的标签进行聚类?例如,类型