我正在尝试使用下面的函数计算词频反向文档频率,以获得归一化的权重。当行数为百行时,结果非常快,但当行数为数千行(仅两万行)时,几乎需要3到4分钟才能得到结果。有人能给我指出正确的方向来减少计算时间吗? mat = mat[,names] id=function(col){sum(!col==0)} tfidf = mat
for(word in names(idf)){tfidf[,word] <-
我将计算近14,000个文档之间的相似度。但是代码执行的时间太长了。有没有其他方法可以更快地完成同样的工作?wb=createWorkbook() #create workbooklistoffiles=list.files() #get list of documents from current working directoryfor(i i