首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在Java中获取“trigram”

在Java中获取“trigram”
EN

Stack Overflow用户
提问于 2016-02-25 14:19:52
回答 2查看 2.3K关注 0票数 1

我在用Java获取trigrams时遇到了一些问题。我的程序目前可以很好地获得bigrams,但是当我尝试实现该方法的相同结构并将其更改为获取trigrams时,它似乎也不起作用。我希望trigrams能在arraylist中得到所有可能的单词组合。

代码语言:javascript
运行
复制
Original = [eye, test, find, free, nhs]
Trigram = [eye test find, 2, eye test free, 3, eye test nhs, 4, eye find free, 3, eye find nhs, 4, eye free nhs, 5, etc...]

数字决定了第一个单词和最后一个单词之间的距离,并且应该得到arraylist中每个单词的组合。目前这对bigrams来说很好.

代码语言:javascript
运行
复制
Original = [eye, test, find, free, nhs]
Bigram = [eye test, 1, eye find, 2, eye free, 3, eye nhs, 4, test find, 1, test free, 2, test nhs, 3, find free, 1, etc..]

以下是几种方法

代码语言:javascript
运行
复制
public ArrayList<String> bagOfWords;
public ArrayList<String> bigramList = new ArrayList<String>();
public ArrayList<String> trigramList = new ArrayList<String>();


public void trigram() throws FileNotFoundException{
    PrintWriter tg = new PrintWriter(new File(trigramFile));
    // CREATES THE TRIGRAM
    for (int i = 0; i < bagOfWords.size() - 1; i++) {
        for (int j = 1; j < bagOfWords.size() - 1; j++) {
            for(int k = j + 1; k < bagOfWords.size(); k++){
                int distance = (k - i);
                if (distance < 4){
                    trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
                }
            }
        }
    }


public void bigram() throws FileNotFoundException{
    // CREATES THE BIGRAM
    PrintWriter bg = new PrintWriter(new File(bigramFile));
    for (int i = 0; i < bagOfWords.size() - 1; i++) {
        for (int j = i + 1; j < bagOfWords.size(); j++) {
            int distance = (j - i);
            if (distance < 4){
                bigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + ", " + distance);
            }
        }
    }

有人能帮我修改trigram()方法来为我需要的东西创建一个合适的trigram吗?谢谢你的帮助。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-02-25 14:36:06

你想让ji+1开始,不是吗?而且,我认为你让i算得太远了。它应该停在bagOfWords.size() - 2。我不知道你为什么要检查distance < 4。这将丢弃有效的组。

代码语言:javascript
运行
复制
public void trigram() throws FileNotFoundException{
PrintWriter tg = new PrintWriter(new File(trigramFile));
// CREATES THE TRIGRAM
for (int i = 0; i < bagOfWords.size() - 2; i++) {
    for (int j = i + 1; j < bagOfWords.size() - 1; j++) {
        for(int k = j + 1; k < bagOfWords.size(); k++){
            int distance = (k - i);
            trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
        }
    }
}
票数 2
EN

Stack Overflow用户

发布于 2016-02-25 15:59:38

“bradimus”的回答完全正确。我只想展示另一种方法。你注意到了吗,你的方法很相似吗?那么,为什么不尝试将其合并为一种通用方法呢?如下所示:

代码语言:javascript
运行
复制
public List<String> anygram(List<String> bagOfWords, int gramCount){

     List<String> result = new ArrayList<String>();

     for(int i=0;i<=bagOfWords.size()-gramCount; i++){
         for(int j=i; j+gramCount<=bagOfWords.size(); j++){
            StringBuilder builder = new StringBuilder();
            builder.append(bagOfWords.get(i));
            int k = j+1;
            for(; k<j+gramCount; k++){
                builder.append(" ");
                builder.append(bagOfWords.get(k));
            }
            builder.append(", ").append(k-i-1);
            result.add(builder.toString());
        }
    }

    return result;
}

我的答案不是评级。我只是对这个任务感兴趣,然后找到了这个解决方案。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35629875

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档