我用Java编写了一个OCR程序,它扫描文档并找到其中的所有文本。我的主要任务是找到发票号码,可以是6或更多的整数。
我使用了子字符串功能,但效率不高,因为该数字的位置随每个文档的变化而变化,但它总是出现在OCR文本的前三行中。
我想用Java 8编写代码,在这里我可以迭代前三行,并得到这6个连续的数字。
我正在使用Tesseract作为OCR。
示例:
,——— ————i_
g DAILYW RK SHE 278464
E C 0 mp] on THE POUJER Hello, Mumbai, Co. Maha
从这里,我需要提取数字278464。
救命啊!!
所以有一个应用程序告诉我我当前的IP是什么。不只是打印IP,输出是:
Starting GetIP process...
Getting your IP...
Your current IP: 127.0.0.1
有没有办法只将IP保存到文件中?或者删除前2行和第三行的开头,或者只保存实际的数字和点。
我知道我可以用sed减少前两行,但是如何删除第三行的文本呢?(顺便说一下,预期的输出只是IP,而不是冒号或空白)。
如果这是一件简单的事情,我是一个SQL新手,对不起。
我在sql中的数据如下
我的数据:
Content sl.no
KTUU Alaskas News Source Alaskas Top News Storm Watch Weather Politics Sports Health Business Headlines 16419
Lawn Care Business Service Providers Lawn Care Business Information Lawn Mowing Companies Lawn Care Directory 17113
Hydrophili
第三行中(.*)的职责是什么?它是如何工作的?
String Str = new String("Welcome to Tutorialspoint.com");
System.out.print("Return Value :" );
System.out.println(Str.matches("(.*)Tutorials(.*)"));
我想打印包含Result: False的行和它上面的三行,除非这三行中的一行包含service.dead。
因此,对于以下文件:
ID: service1
Function: module.run
Name: ps.kill_pid
Result: True
Comment: State was not run because onfail req did not change
Started: 16:37:23.237741
Duration: 0.0 ms
ID: service2
Function: service.dead
Name:
使用sed命令,我想从一个文件中删除另外三行,例如99行。我的意思是保留前三行,删除后三行等等。
我的起始脚本如下:
for i in `seq 1 6 99`; do
sed '$i,${i+2}!d' test.txt > o$i.txt
done
cat o*.txt > O.txt
rm o*.txt
我个人工作很好,喜欢
sed '1,3!d' test.txt > o1.txt
sed '7,9!d' test.txt > o7.txt
...
但它在苏里不起作用。你能告诉我我哪里做错了吗?谢谢
我有一个巨大的文本文件。我需要替换这三条线模式的所有出现:
|pattern|some data|
|giberish|,,
|pattern|some other data|
在模式的最后一行:
|pattern|some other data|
删除模式的前两行,只保留最后一行。
模式的第二行以两个逗号结尾,不以|pattern|The开头,模式行的第一行以|pattern|开头,不以两个逗号结尾。模式行的第三行以|pattern|开头,不以两个逗号结尾。
我试过这个:
sed 'N;N;/^|pattern|.*\n.*,,\n|pattern|.*/I,+1 d' tr
我完全是个python新手。我一直在尝试从包含以下数据的文件中去掉前两个字符和一个句点:
12.This a line
13. This is a line too
14. 12 and 13 please stop fighting
我想去掉第一行中的12.1,还想去掉换行符。但是在第三行,在.后面有一个空格,我也需要去掉它。
到目前为止,这是我尝试过的:导入re
with open('linex.txt', 'r+') as lines:
for line in lines:
line = line[2:]
line
我有以下文本保存在一个文件中,并尝试做正则表达式
line1 brown fox
line2 black owl
line3 red dear
当我尝试运行下面的perl命令时,
perl -ne 'print if /(line.*)(?!.*fox)/' text.txt
它打印所有三行(而不是打印line2和line3)。
匹配的第一行是什么?如果我使用下面的perl语句,我会得到预期的结果
perl -ne 'print if /(line)(?!.*fox)/' text.txt
谢谢
我使用以下代码通过ExcelDataReader解析XLS文件。我想排除前三行,前两列,然后是9之后的任何列。
//create the reader
var reader = ExcelReaderFactory.CreateReader(stream);
var result = reader.AsDataSet();
//remove the first 3 rows
DataRowCollection dt = result.Tables[0].Rows;
dt.RemoveAt(0);
dt.RemoveAt(1);
dt.RemoveAt(2);
//exclude the co
我必须解析大量日志文件,这些日志文件的格式如下。
SOME SQL STATEMENT/QUERY
DB20000I The SQL command completed successfully.
SOME OTHER SQL STATEMENT/QUERY
DB21034E The command was processed as an SQL statement because it was not a
valid Command Line Processor command.
编辑1:前3行(包括空白行)表示成功执行的SQL语句,下三行显示语句及其导致的异常。darioo在下
我有一个数据框,如下所示: ? 我想合并子句calumn中所有连续的子句,在子句_last_word_chk列中有False值,然后在合并后删除行,并保留在子句_last_word_chk列中有True的行。 例如:前三行有需要合并的False值,然后删除第二行和第三行。第四,第五,第六将保持不变,不合并。要合并的第7行和第8行,然后删除第8行,如下所示: ? 下面是我的代码: for i in range (0,len(general_df)):
if (general_df['clauses_last_word_chk'][i]==False) a
是否有方法使用扩展正则表达式来查找以字符串结尾的特定模式。
我是说,我想和前三行相匹配,但不是最后一句:
file_number_one.pdf # comment
file_number_two.pdf # not interesting
testfile_number____three.pdf # some other stuff
myfilezipped.pdf.zip some comments and explanations
我知道,在grep中,元字符$匹配行的末尾,但我不感兴趣的是匹配行尾而是字符串结束。grep中的小组很奇怪,我还不太了解他们。
我尝试过使用组匹配,实际上我有