前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >使用Lucene对预处理后的文档进行创建索引(可运行)

使用Lucene对预处理后的文档进行创建索引(可运行)

作者头像
星哥玩云
发布2022-07-04 14:25:10
发布2022-07-04 14:25:10
5920
举报
文章被收录于专栏:开源部署开源部署

对于文档的预处理后,就要开始使用Lucene来处理相关的内容了。

这里使用的Lucene的步骤如下:

首先要为处理对象机那里索引

二是构建查询对象

三是在索引中查找

这里的代码是处理创建索引的部分

代码:

package ch2.lucenedemo.process;

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.Field.Index; import org.apache.lucene.index.IndexWriter; public class IndexProcessor { //成员变量,存储创建的索引文件存放的位置 private String INDEX_STORE_PATH = "E:\\Lucene项目\\索引目录";

//创建索引 public void createIndex(String inputDir){ try { System.out.println("程序开始运行,正在创建索引->->->->->"); IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);

File filesDir = new File(inputDir);

//取得所有需要建立索引的文件数组 File[] files = filesDir.listFiles();

//遍历数组 for(int i = 0; i < files.length; i++){

//获取文件名 String fileName = files[i].getName();

//判断文件是否为txt类型的文件 if(fileName.substring(fileName.lastIndexOf(".")).equals(".txt")){

//创建一个新的Document Document doc = new Document(); System.out.println("正在为文件名创建索引->->->->"); //为文件名创建一个Field Field field = new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED); doc.add(field); System.out.println("正在为文件内容创建索引->->->->"); //为文件内容创建一个Field field = new Field("content", loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED); doc.add(field);

//把Document加入到IndexWriter writer.addDocument(doc);

}

} writer.close(); System.out.println("程序创建结束->->->->"); }catch(Exception e){ e.printStackTrace(); }

}

/* * 从文件中把内容读取出来,所有的内容就放在一个String中返回 * */ public String loadFileToString(File file){ try{ BufferedReader br = new BufferedReader(new FileReader(file)); StringBuffer sb = new StringBuffer(); String line= br.readLine(); while(line != null){ sb.append(line); line = br.readLine(); } br.close(); return sb.toString(); }catch(IOException e){ e.printStackTrace(); return null; } }

public static void main(String[] args){ IndexProcessor ip = new IndexProcessor(); ip.createIndex("E:\\Lucene项目\\目标文件");

}

}

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档