我通过Nutch 2.3.1爬行了一些数据。数据存储在Hbase 0.98表中。我已经创建了一个外部表,用于从hbase表导入数据。现在,我必须将这些数据索引到solr 4.10.3。为此,我遵循了众所周知的教程。我创建了蜂巢表
create external table if not exists solr_items (
id STRING,
content STRING,
url STRING,
title STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
stored by &
我在EC2上安装了apache地图集。安装完成后,我使用命令python2 atlas_start.py启动了apache图集,它成功地从下面的日志开始:
configured for local hbase.
hbase started.
configured for local solr.
solr started.
setting up solr collections...
starting atlas on host localhost
starting atlas on port 21000
.............................................
我正在解析一个pdf,并将标题、作者等存储在变量中,我需要在hbase中索引这些值。因此,我从我在项目中创建的变量中获取hbase表的数据。当我在hbase表中使用用于索引的变量时,程序会显示NullPointerException错误。
Exception in thread "main" java.lang.NullPointerException
at java.lang.String.<init>(String.java:154)
at testSolr.Testt.Parsing(Testt.java:50)
at testSolr
我正试图扫描Hbase中的一个表并检索其中的所有记录。这是我用来扫描表格的方法。我使用Maven构建项目。
public void getAllRecord (String tableName) {
try{
HTable table = new HTable(configuration, tableName);
Scan s = new Scan();
ResultScanner ss = table.getScanner(s);
for(Result r:ss){
for(KeyValue k
我使用HBase作为Apache爬行数据的存储空间。存储的位置在path /data/hbase/网页中,在那里我可以看到很多文件夹,如:
64b2feb30073eec24d9dba65d421e7f
482062bc554bd45bf198d9edea971a30
7c8a6eec12d9f6926a1d912be9a0ca81
c1f682541b8d1c0559de6df14ae84e2b
083b28ee75babc718cc28e66b98c9ff5
809eb4bb5f2be087e2c84a2f51d26653
还有更多。
这些文件夹包含另一个文件夹,如:
f h il