我正在使用pdfparser从PDF文件中复制文本,但是一些PDF文件被复制保护,或者有不同的字体,所以pdfparser无法工作,可以从复制保护的PDF中获取文本吗?
这是我的代码:
// Include Composer autoloader if not already done.
error_reporting(E_ALL);
ini_set('display_errors', 1);
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parse
我从pdfs (用python)中提取文本,以便分析它们,所以我做了大量的科学论文工作。我使用的是pdf水管工,它工作得很好,唯一的问题是这样的pdfs通常包含列,而且我的算法还没有找到识别这一点的方法。
我的代码是:
text = ""
with pdfplumber.open(r'example.pdf') as pdf:
pages = pdf.pages
for i, pg in enumerate(pages):
text = text + " " + pages[i].extract_text(x_to
我正在编写一个脚本,它可以“读取”PDF文件,然后自动重命名它从字典中识别的文件。然而,对于某些PDF,PyPDF2只返回空行,而对于其他PDF则可以很好地工作。读取文件的代码:
import PyPDF2
# File name
file = 'sample.pdf'
# Open File
with open(file, "rb") as f:
# Read in file
pdfReader = PyPDF2.PdfFileReader(f)
# Check number of pages
number_of_page
有谁知道如何识别pdf方向,无论是景观还是肖像,使用C#中的itextsharp库。
下面是我的代码,它检索PDF流并旋转图像,但我的问题是我们如何识别方向?
public static string ReadPdfFile(string fileName)
{
StringBuilder text = new StringBuilder();
if (File.Exists(fileName))
{
byte[] bytes = System.IO.File.ReadAllBytes(fileN
我刚进入JavaScript,所以如果我的代码不是最干净的,我很抱歉。
我正在努力弄清楚如何让Javascript识别文件扩展名,这样它就可以适当地执行它了。考虑到下面的代码,我的脚本允许PDF、docx和doc文件,但它拒绝页面文档。但我不知道为什么。
var ext = $('#resume').val().split('.').pop().toLowerCase();
// Reject file if it is not one of the specified filetypes
if ($.inArray(ext, ['pdf',&
在解析的第22页时,我能够解析除mount_vxfs之外的所有单词,因为它的编码风格和/或字体与普通纯文本不同。请在附件中找到PDF页面的详细信息。
请找到我的代码:-
`#!/usr/bin/perl
use CAM::PDF;
my $file_name="vxfs_admin_51sp1_lin.pdf";
my $pdf = CAM::PDF ->new($file_name);
my $no_pages=$pdf->numPages();
print "$no_pages\n";
for(my $i=1;$i<$no_pag
我已经下载了一本pdf格式的在线书籍,并想在我的ios项目中使用这本书。所需的格式为xml格式。格式如下:
<q>question here</q>
<a>answer here</a>
<q>question2</q>
<a>answer2</a>
pdf格式如下:
the question is centered
the answer has several paragraphs that start with 4 white space.
Th
有没有一种可靠的方法来检测perl脚本中的空白页?我尝试使用getPageText方法在下面的脚本中执行此操作。如果我这样做,只包含图形而不包含文本的页面也会被识别为空白页面。
#!/usr/bin/perl -w
use CAM::PDF;
my $filename=$ARGV[0];
my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
my $pages = $doc->numPages();
print $pages;
$content=$doc->getPageText(
在我的文章中,格式化的PDF,一个或多个页面可能是空白的,我想要检测它们,并从PDF文件中删除。如果我能识别小于60KB的页面,我想我就能检测到空页。因为它们可能是空的。
我试过这样做:
var reader = new PdfReader("D:\\_test\\file.pdf");
/*
* With reader.FileLength, I can get whole pdf file size.
* But I dont know, how can I get pages'sizes...
*/
for (var i = 1; i <= reade
我有一个由VBA调用的python脚本,它循环遍历excel工作簿中的任何文件夹,然后返回该文件夹中的PDF (因为只有一个),然后打开它并返回文本;然而,我得到以下错误,我不知道我做错了什么:
Traceback (most recent call last):
File "C:\Users\Path...", line 16, in <module>
with pdfplumber.open(pdf_file) as pdf:
File "C:\ProgramData\Anaconda3\lib\site-packages\pdfplum
我正在尝试将一些PDF转换为JPG,并使用pdf2jpg进行此操作。
我运行的代码是:
inputPath = sys.argv[1].replace("\\", "/")
print(inputPath)
# Get parent folder of the file
parentFolder = "/".join(inputPath.split("/")[:-1])
print(parentFolder)
# Convert pdf to jpg in same folder
result = pdf2jpg.conver
我编写了一个从PDF文档中提取文本的程序。但一份PDF文件给了我空的短信。我可以在Acrobat中打开PDF文件,它可以正常工作。我的代码可以很好地处理其他PDF文件,所以我想知道是什么导致了这个问题。我用了PyPDF2和PyPDF2,但结果是一样的。所以这个文件一定有问题:
我的密码
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
text = page.extract_text()
print(text)
我做的不仅仅是
当我试图上传一个pdf文件并将每一页分隔为pdf时,有些pdf文件正在工作,但有些pdf文件显示了此错误:
mPDF error: Unable to find xref table -" Maybe a Problem with auto_detect_line_endings"
我的代码:
ini_set('memory_limit', '512M');
$pagecount = Model::count_pages($documentPath.$journalDoc);
for ($i=1; $i<=$pagecount; $i++)
我使用zendpdf类在网站上生成PDF,它正常工作。现在,我正在尝试将不同的pdfs与zendpdf合并,并且有一个问题总是在空白PDF中返回,但没有任何错误。这是我的密码:
$pdf_merged = new ZendPdf\PdfDocument();
$pdf_1 = new ZendPdf\PdfDocument();
$pdf_1->load("public/files/invoices/pdf1.pdf");
$pdf_2 = new ZendPdf\PdfDocument();
$pdf_1->load("public/files/invo
是否可以将PDF文件“合并”或“粘贴”到其他PDF文件中?或者它必须是一幅图像吗?
我想粘贴或合并的PDF是一个简单的图片,将出现在完成PDF的底部:
//Generate the "Original" PDF here..
function addReklam($reklamblad) //The PDF that should be merged into the PDF that is created above
{
//Count how many pages that has been created, and add it at the bot