如何从用R中的tm包导入的pdf中提取带有特定标题的文本？

从用R中的tm包导入的pdf中提取带有特定标题的文本，可以按照以下步骤进行：

安装和加载必要的R包：首先，确保已经安装了tm包和pdftools包。可以使用以下命令安装这些包：

install.packages("tm")
install.packages("pdftools")

然后，加载这些包：

library(tm)
library(pdftools)

导入PDF文件：使用PDFtext()函数从PDF文件中提取文本。例如，假设文件名为"example.pdf"，可以使用以下代码导入PDF文件：

pdf_text <- PDFtext("example.pdf")

创建语料库：将导入的文本转换为语料库对象，以便进行后续的文本处理。使用Corpus()函数创建一个空的语料库对象：

corpus <- Corpus(VectorSource(pdf_text))

预处理文本：对文本进行预处理，包括去除标点符号、数字、停用词等。可以使用tm_map()函数和一系列预处理函数来完成。以下是一个示例，展示如何去除标点符号和数字：

corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)

提取特定标题的文本：使用tm_filter()函数根据特定标题筛选文本。首先，需要创建一个函数来判断文本是否包含特定标题。以下是一个示例函数，用于判断文本是否包含标题"特定标题"：

contains_title <- function(text) {
  grepl("特定标题", text)
}

然后，使用tm_filter()函数根据该函数筛选文本：

filtered_corpus <- tm_filter(corpus, FUN = contains_title)

获取提取的文本：使用tm_text()函数从筛选后的语料库中提取文本。以下是一个示例代码，用于获取提取的文本：

extracted_text <- tm_text(filtered_corpus)

通过以上步骤，你可以从用R中的tm包导入的pdf中提取带有特定标题的文本。请注意，这只是一个示例，你可以根据实际情况进行调整和扩展。

解析pdf文件时使用pdfminer.six时出现问题

、、

我正在尝试使用pdfminer.six从pdf中提取文本，我遵循了下面提到的代码 import pdfminer import io def extract_raw_text(pdf_filename): output = io.StringIO() laparams = pdfminer.layout.LAParams() with open(pdf_filename, "rb") as pdffile: pdfminer.high_level.extract_text_to_fp(pdffile, output, laparams

浏览 0提问于2018-02-09得票数 2

1回答

从PDF中提取实际的文本标题

、、

从PDF中提取标题(使用其元数据)似乎有很多问题。然而，大多数标题似乎并不存在于元数据中。我在使用时发现了这个问题。实际上是否有从pdf中检索文本标题的方法？我试图导出到一个文本文件，然后搜索，但没有一致的格式。有没有任何方法可以将pdf导出到带有格式的文档，然后检查字体大小>= 14？

浏览 1提问于2011-07-18得票数 1

1回答

将PDF图表中的数值提取到R中的变量

、、

我正在尝试从嵌入到pdf中的图表中提取一个数值。我尝试了下面的两种方法，但我能够将除折线图信息以外的所有其他信息转换为xlsx。链接到pdf：我需要提取到变量中的值第一种方法 library(pdftools) library(stringr) library(xlsx) set.seed(100) tx <- pdf_text("flureport.pdf") tx2 <- unlist(str_split(tx, "[\\r\\n]+")) tx3 <- str_split_fixed(str_trim(tx2), "

浏览 0提问于2018-04-09得票数 0

1回答

在GNU/Linux中打开HDMV PGS字幕

、、

我想知道GNU/Linux中是否有可以读取BluRay字幕的软件。我说的不是像每个人要求的那样把OCR转换成SRT，而是阅读它们来查看每一行的时间，打开代表每行文字的图像。我想读他们的内容，而不必播放整个电影，我不在乎能够编辑行或转换任何其他格式的副标题。根据mkvextract的说法，扩展应该是.sup，但是当提取带有该扩展名的HDMV字幕时，GNOME字幕编辑和Gaupol似乎都无法读取它。有没有人知道有什么软件能读懂它们？

浏览 0提问于2016-04-21得票数 4

回答已采纳

1回答

合并文件后，图像颜色从红色上的白色变为

、、

我有一个问题，从一个PDF文件导入页面到另一个。一些颜色从源PDF更改为红色(见下图)。输入：输出：这是源文件：这是我使用的PDF合并代码： using System.Diagnostics; using System.Drawing; using System.Drawing.Drawing2D; using System.IO; using iTextSharp.text; using iTextSharp.text.pdf; using Matrix = System.Drawing.Drawing2D.Matrix; using Rectangle = iT

浏览 0提问于2018-05-24得票数 2

回答已采纳

1回答

如何使用R库遍历多个pdf文件

我有一个任务来读取多个pdf文件，并提取页眉和页脚。下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚，但我想对多个文件执行相同的操作并提取数据。请给我建议。 library(pdftools) library(tm) #Multiple files in a directory files<- list.files(pattern='pdf$') #File header and footer extraction pdf_22 <- pdf_text("Test_List.pdf") %>% str_split("\n

浏览 30提问于2021-01-19得票数 0

回答已采纳

1回答

在PDF中查找文本: Tm还是Td/TD？

、、、、

我知道这个问题以前已经被问过几次了，但我只想澄清这一点。我有一个pdf阅读器，我想给它添加一个高亮功能。我已经可以通过解析Tj和TJ操作符来提取文本。现在我想在pdf中找到文本的位置。首先，我试图找到Tm的值。我能够提取Tm的(x，y)，但它似乎不正确。所以我决定选择Td和TD。问题是pdf似乎不包含任何Td或TD值，因为运算符回调从未被调用过。(我在回调中放置了一个日志，只是为了查看它是否被调用，但它从未出现。) 所以我的问题是，如果我想要找到文本在pdf中的位置，我应该查看哪一个？是Tm值还是Td/TD值？还是两者兼而有之？其他问题： Tm有六个参数：a, b, c, d, e和f。我

浏览 3提问于2012-06-25得票数 3

回答已采纳

1回答

如何使用查询将文件夹中的所有PDF文件插入SQL中的var二进制(Max)列

、、

我正在尝试为Server创建一个查询脚本，该脚本将将pdf文件转换为var二进制数据，并将其存储到SQL Table列中，这是var二进制(Max)。我还必须确保它循环，这样它就可以在文件夹中的下一个pdf文件中这样做。此文件夹将只包含pdf文件。 DECLARE @pdf VARBINARY(MAX) SELECT @pdf = BulkColumn FROM OPENROWSET(BULK N'C:\Users\......\YourFile.pdf', SINGLE_BLOB) AS Document; SELECT @pdf, DATALENGTH(@pdf) I

浏览 0提问于2016-07-06得票数 1

1回答

使用java从pdf中提取主要标题

、、

我正在寻找一个库或工具来提取一个pdf文件的主要标题(标题，摘要，结论)使用java我搜索了很多，但我没有找到我想要的，确切地说有什么建议吗？谢谢

浏览 0提问于2020-06-23得票数 0

1回答

使用高程级别平滑贴图；使用tmap进行R

、、、、

我正在为一份科学手稿绘制地图。该地图应显示墨西哥的基本地图，与采样地点和显示海拔水平的颜色。为此，我使用了带有包tmap的R。这是我的代码： library(sf) library(raster) library(dplyr) library(spData) library(spDataLarge) library(tmap) # for static and interactive maps data(World) data("metro") data("land") gpsdata <- read.csv('gps.csv'

浏览 23提问于2020-03-19得票数 1

回答已采纳

2回答

AttributeError:模块'camelot‘没有属性'read_pdf’

、

面对以下问题:有人能帮上忙吗？请..。尝试从PDF中提取表格数据时获得以下内容。 import camelot # PDF file to extract tables from file = input_folder+file_name tables = camelot.read_pdf(file) # number of tables extracted print("Total tables extracted:", tables.n) # print the first table as Pandas DataFrame print(tables[0].df

浏览 301提问于2021-01-10得票数 0

5回答

使用pdfminer.six从pdf文件中提取文本时出错

、、、

我正在尝试使用pdfminer.six库(如)从pdf中提取文本，我已经在我的虚拟环境中安装了它。这是我的代码： import pdfminer as miner text = miner.high_level.extract_text('file.pdf') print(text) 但是，当我使用python pdfreader.py执行代码时，会得到以下错误： Traceback (most recent call last): File ".\pdfreader.py", line 9, in <module> text

浏览 12提问于2020-11-09得票数 2

2回答

Coq:在只有一种情况的情况下，对支持集进行反演。

、、、

浏览 0提问于2018-08-27得票数 1

回答已采纳

2回答

RuntimeWarning: DateTimeField在django中收到一个简单的datetime

、、

我正在尝试为我的一个django模型设置一个DateTimeField。我的代码如下所示： dt = datetime.fromtimestamp(mktime(parsed_feed.updated_parsed)) feed.updated = dt updated_parsed是结构体，格式如下： time.struct_time(tm_year=2016, tm_mon=4, tm_mday=26, tm_hour=8, tm_min=20, tm_sec=43, tm_wday=1, tm_yday=117, tm_isdst=0) 更新的显然是django DateTimeFiel

浏览 2提问于2016-04-26得票数 1

7回答

如何从用于重命名的脚本中提取PDF文档的标题？

、、、

我的电脑里有数千个PDF文件，名字从a0001.pdf到a3621.pdf，每个文件里面都有一个标题；例如，a0001.pdf中的“碳酸铝”，a0002.pdf中的“硝酸铝”等等，我想提取这些文件来重命名我的文件。我使用这个程序重命名一个文件： path=r"C:\Users\YANN\Desktop\..." old='string 1' new='string 2' def rename(path,old,new): for f in os.listdir(path): os.rename(os.path.joi

浏览 7提问于2017-06-16得票数 19

回答已采纳

2回答

有没有办法从PDF中提取语义信息？(将PDF转换为纯XHTML)

、、

我正在寻找一种从PDF中提取语义结构信息(如标题、标题、段落或列表)的方法。因为我想从PDF中得到一个纯结构的数据。最后，我想从PDF创建一个纯XHTML。只有结构信息。没有设计或布局。我知道，PDF可以在没有任何结构信息的情况下创建。我不会考虑那些PDF。只考虑定期良好结构的PDF。我是PDF的新手。所以我不知道它是否提供了常规的语义结构。如果它存在，它的库将提供它。所以我想知道PDF规范是否有这些信息，以及如果存在的话，获取这些信息的最好方法。

浏览 0提问于2010-02-05得票数 1

回答已采纳

2回答

如何使用iText提取PDF中矩形的颜色

、、

我试图用iText提取PDF中矩形的颜色。以下是PDF页面的全部内容：这是用iText提取的页面内容： q BT 36 806 Td 0 -18 Td /F1 12 Tf (Option 1:)Tj 0 0 Td 0 -94.31 Td ET Q q Q q 2 J 0 G 0.5 w 88.3 693.69 139.47 94.31 re S 0.5 w 227.77 693.69 139.47 94.31 re S 0.5 w 367.23 693.69 139.47 94.31 re S Q BT 1 0 0 1 90.3 774 Tm /F1 12 Tf (A rectan

浏览 2提问于2017-01-18得票数 2

回答已采纳

1回答

如何避免生成pdf-文件的每一个数字的横幅？

、、、、

如果我问了一个愚蠢的问题，很抱歉，但我对R/Sweave有点陌生。我注意到，如果我运行我的文件，RStudio会自动为所绘制的每一个图形生成一个pdf文件(以及包含所有从Sweave文件生成的数字的pdf文件)。例如，假设在RStudio (简化版本)中有以下代码块： \begin{figure}[htbp] \centering <<fig1, fig=TRUE, echo=FALSE>>= plot(pts.X,1:length(pts.X), main = "Type I error for X-var IT") @ \ca

浏览 0提问于2016-10-28得票数 0

回答已采纳

3回答

在使用hyperref时，如何在LaTeX中将超级链接导航到图形的顶部？

、、、

我有一个LaTeX文档，其中包含一个图形和对它的引用： \begin{figure} ... \caption{...} \label{fig:1} \end{figure} \ref{fig:1} 我使用hyperref包来获得结果PDF中的超链接。然而，指向插图的链接导航到标题，将插图本身留在视图之外。我如何才能让它导航到图的开头，而不是将标题移到顶部？

浏览 4提问于2010-10-26得票数 36

回答已采纳

3回答

摘录PDF格式的文本(字体大小、类型等)

、、、

是否可以从PDF文件中提取有关特定字体/字体大小/字体颜色等的文本？我更喜欢Perl、python或*nix命令行实用程序。我的目标是从PDF文件中提取所有标题，这样我就有了一个包含在一个PDF文件中的文章索引。

浏览 8提问于2013-10-15得票数 4

回答已采纳

5回答

高级的Java PDF解析器

、、

我想从Java中的PDF文件中提取不同的内容：完整的可见文本图片链接是否也有可能得到以下信息？文档元标记，如标题、描述或作者只有标题如果文档包含表单，则输入元素。我不需要操作或渲染PDF文件。哪个图书馆最适合这种用途？更新好的，我试过PDFBox： Document luceneDocument = LucenePDFDocument.getDocument(new File(path)); Field contents = luceneDocument.getField("contents"); System.out

浏览 0提问于2011-03-27得票数 18

回答已采纳

2回答

数据集“NYTimes”未找到

、

我正在使用topicmodels包： library(topicmodels) library(tm) 我试图加载NYTimes数据集。但是： data(NYTimes) 返回错误： Warning message: In data(NYTimes) : data set ‘NYTimes’ not found 我从R上的教科书中提取了这段代码。

浏览 2提问于2020-02-06得票数 0

回答已采纳

1回答

Python键盘不适用于selenium

、、、、

我想自动化在Chrome中打开pdf并使用打印到pdf功能下载文件的平面化副本的过程，用于数据提取目的。当我运行这段代码时，第一个文件运行得很好，但是第二个和第三个文件在chrome中打开后无法打开打印窗口。我怀疑问题与键盘输入有关，但我不熟悉这个库。 import os from datetime import date from selenium import webdriver import keyboard, time files = ["file:///C:/Users/akcgo/Documents/CARB/ARBER/PDFS/Company B save.pdf&#

浏览 7提问于2021-07-23得票数 0

1回答

tmap R-将主题情节标题的字体从平体改为斜体，但保留图例原形的字体。

、

我希望使用R中的tmap包将主题图主标题的字体从“平原”更改为斜体，但保留图例标题和文本“纯文本”的字体。但是，当我在lm_layout()函数中更改参数字体时，它会更改映射中所有文本的字体。是否可以只更改tmap中主标题的字体？我尝试使用一个可重复的示例(不幸的是，该示例将地图中所有文本的字体更改为斜体)如下： library(tmap) data("World") tm_shape(World) + tm_polygons("HPI", title = "World - HPI") + tm_layout(main.title =

浏览 0提问于2018-11-07得票数 7

1回答

ASP.Net webform/mvc3 -将链接添加到多页pdf文档的每一页

、

我即将推出的移动web应用程序项目将包括从网页链接到多页pdf文档的每一页。在左边会有一个带有所有页面标题的菜单，当用户点击其中一个时，它会把他们带到pdf文档中的那个页面。可以用这种方式链接各个页面吗？将从pdf列表中动态地选择pdf。提前感谢，任何帮助都将不胜感激。

浏览 0提问于2012-08-08得票数 0

回答已采纳

1回答

在对虾PDF中使用link_annotation with :Desc选项

、、、

我一直在努力将文本标题链接到Pdf中的特定页面，类似于Table of Contents在Pdf文件中的链接。我已经找到了link_annotation方法来实现这一点，但是没有足够的文档/示例来使用带有:Desc选项的link_annotation方法。对如何使用link_annotation和:Desc选项有什么想法吗？链接注释文档：

浏览 9提问于2020-04-09得票数 0

回答已采纳

1回答

如何在使用javascript从HTML生成pdf时添加PDF的安全属性？

、、、、

我正在开发一个带有PHP/ Laravel后端的Range4项目。有两种方法可以生成PDF：- 1.在前端使用pdfMake 2.通过向后端发送请求使用dompdf或maatwebsite或任何其他laravel库。以上两种方法都足以生成简单的PDF。问题是，在生成文件之前，我想添加一些PDF的安全特性。没有内容复制，没有打印，页面提取等。因此，当pdf被用户下载时，这些功能应该在特定的pdf中实现。感谢你的帮助。

浏览 0提问于2018-01-29得票数 2

回答已采纳

1回答

R包readPDF错误在strptime(d，fmt)：输入字符串太长

、、

我想使用tm包对上的文件进行文本挖掘。我使用以下代码将其中一个文件(即abell.pdf)下载到我的工作目录并尝试存储内容： library("tm") url <- "https://baltimore2006to2010acsprofiles.files.wordpress.com/2014/07/abell.pdf" filename <- "abell.pdf" download.file(url = url, destfile = filename, method = "curl") doc <- r

浏览 3提问于2016-04-22得票数 2

回答已采纳

1回答

如何从IBM TM1中提取数据

、

我已经使用用于Python的TM1包在工具之间建立了一个连接。现在，当我尝试从TM1的MDX视图中获取数据时，我得到的只是列标题。我阅读了TM1py的文档，看起来get_native_view函数应该只是返回视图的一个实例，而不是视图中包含的实际数据。 from TM1py.Services import TM1Service with TM1Service(address='hostname', port=12523,user='username', password=****, ssl=False) as tm1: query = tm1.cubes.v

浏览 2提问于2018-01-22得票数 0

回答已采纳

1回答

使用topicmodels (R)的LDA，如何在保留文档标题的情况下查看不同文档属于哪些主题？

、

我很欣赏Ben在这里的回答: LDA使用topicmodel，我如何才能看到不同文档属于哪些主题？我的问题是:如何保留最后一步中的文档标题？例如：手动在单独的文本文件中创建三个.txt文档，并将它们存储在~桌面/自然语料库目录中第一个文档标题: nature.txt 第一篇文件内容:名词自然界、自然母亲、地球母亲、环境；野生动植物、乡村；宇宙、宇宙。第二个文档标题: conservation.txt 第二个文件内容:热带森林保护名词:保存、保护、维护、保管；护理、监护、畜牧、监督；维护、维护、修复、恢复；生态、环境保护。第三个文档标题: bird.txt 第三个文件文本:喂鸟的名词:

浏览 12提问于2018-01-30得票数 0

1回答

从R中的PDF表格中提取特定数据；如何获得列标题？

、、

此代码从PDF中提取数据表，然后使用grepl提取带有特定关键字的数据，在本例中是“疟疾”。它提取行名，忽略列标题并放置NA，我认为这是因为长度不同。有办法得到标题吗？ library(tabulizer) library(purrr) library(dplyr) files <- dir(path = ".", pattern = "\\.pdf$", full.names = TRUE, recursive = TRUE) mdata <- list() for(i in files){ mdata[[i]] <- extract_

浏览 0提问于2018-10-03得票数 1

回答已采纳

3回答

如何使用linux命令提取与文本文件中特定字段匹配的文本

、、

嗨，下面是我的文本文件 {"Author":"john" "subject":"java" "title":"java cook book.pdf"} {"title":"Php book.pdf" "Author":"Smith" "subject":"PHP"} {"Author":"Smith" "title":"Java bo

浏览 0提问于2013-06-13得票数 3

回答已采纳

1回答

如何将负载视图非静态地称为laravel？

、、、、

$pdf = PDF::loadView('pdf_view', $data)->setPaper('a4', 'portrait'); 非静态方法'loadView‘不应称为statically.intelephense(1036)

浏览 6提问于2022-03-16得票数 1

1回答

解析书籍或文章pdf以获取元数据

、

我想提取元数据(标题、作者、发布日期等)从pdf文件中，我知道它们是书籍或文章。有没有书籍和文章的模板？在解析的时候，我怎么知道我找到了正确的东西呢？我可以使用哪些工具或库？关于我的问题，有一个问题：

浏览 0提问于2016-06-30得票数 0

2回答

如何从PDF或Word中提取图像，以及图像周围的文本？

、、、、

我发现有一些库可以从PDF或word中提取图像，比如docx2txt和PDF图像。但是我如何才能获得图片周围的内容(比如图片下面可能有一个标题)？或者获取每个图像的页码？其他一些工具，如PyPDF2和minecart，可以逐页提取图像。但是，我不能成功地运行这些代码。有没有好的方法来获取图像的一些信息？(从docx2txt或pdfimages获得的图像，或另一种提取带有信息的图像的方法)

浏览 18提问于2019-04-09得票数 0

1回答

如何从文档中提取标题？

、、、

如何从给定的文档(docx、pdf等)中自动提取相关的标题？一些想法：在直觉上很可能是正文的第一行不能像约会，“保留一切权利”，“哈佛大学-法学院”等等。可能在页脚人脑会立即解决这个问题(通过过滤出常见的名字和数字)。我在python中使用textract来提取整个文本，这就限制了解决方案仅基于文本。如果你熟悉其他包裹，请告诉我。

浏览 0提问于2017-09-07得票数 2

1回答

如何在保存pdf书签文本的同时获得标题无衬线？

、、、、

在rmarkdown中，我希望标题带有无衬线字体。我可以使用\textsf{} latex命令来实现这一点，但是在后面的PDF中没有显示书签文本。我已经尝试过## \textsf[Heading 1]{Heading 1}了，但是结果是一个错误。有人知道怎么把这两样都弄到手吗？ MWE: --- output: pdf_document --- ## \textsf{Heading 1} Lorem ipsum dolor sit amet, sit id rebum choro euripidis, nam ei ullum tamquam scaevola, est veniam c

浏览 0提问于2018-08-31得票数 5

回答已采纳

1回答

使用Quartz 2D在iPad上进行全文检索

、、、、

我正在尝试使用Quartz 2D实现全文搜索，但这是一场噩梦。我可以使用pdf操作符(TJ和其他...)从PDF页面中“提取”文本。 CGPDFOperatorTableRef myTable; myTable = CGPDFOperatorTableCreate(); CGPDFOperatorTableSetCallback (myTable, "BT", &op_BT); CGPDFOperatorTableSetCallback (myTable, "Td", &op_Td); CGPDFOperatorTableSetCal

浏览 0提问于2010-08-27得票数 3

回答已采纳

2回答

在python中将pdf转换为docx格式

、、、

请告诉我如何将pdf转换为docx。我尝试使用pdfminer转换为html来提取文本，但仍然看起来不够好。

浏览 0提问于2019-09-04得票数 1

1回答

在excel中创建宏所需的VBA代码，以便从pdf中提取名称下的句子。

、

尝试从pdf到excel中提取文本行。目前，我正在处理大量pdf文件，其中包含了某些标头的标准化信息。每个文件都有相同的标题列表。我已经收集了一些代码，从每个标题下的pdf文件中提取每个句子，并将它们合并到一个excel电子表格中。这里的问题是，在pdf中的一个标题下的行/句子可能会有所不同，例如在标题名称“传记”下，在一个pdf中可能有两个句子，在另一个中可能有4个句子。我想要的是复制“传记”下的所有句子，而不管它有什么no.of句子，并移到下一个标题。

浏览 4提问于2022-10-20得票数 -1

1回答

在R中导入excel头

、

我想将excel文件导入到R。excel文件已经有一个已实现的包含重要信息的头文件，但是这个头文件没有导入到R。我尝试过的内容如下：图书馆(Openxlsx) read.xlsx #切断标头转换为csv #切断报头转换为pdf，从pdf转换到txt #切断标题我错过了一个明显的解决方案吗？我不需要任何特定格式的头数据，作为dataframe的一部分或丑陋的字符串，这样我就可以提取它，而且该提取必须在R-环境中进行(而不是在Excel中手动进行)。编辑:我试着上传另一个带有头的excel文件的简化版本，但它也没有工作。这似乎是标题本身的问题，而不是其内容的问题。

浏览 1提问于2017-08-08得票数 0

回答已采纳

1回答

如何阻止pdfplumber读取每一页的标题？

、、

我希望pdfplumber从用户给出的随机pdf中提取文本。问题是pdfplumber还会从每个页面中提取标题文本或标题。如何编写pdfplumber程序，使其不读取页眉(标题)和页码(或页脚，如果可能)？下面是代码： import pdfplumber all_text = "" pdf = pdfplumber.open(file) for pdf_page in pdf.pages: one = pdf_page.extract_text() all_text = all_text + '\n' + str(one) pri

浏览 157提问于2021-04-01得票数 1

回答已采纳

0回答

使用pypdf2 not working从pdf中提取标题

、、、

我正在尝试使用pyPDF2来提取文件的标题。输出为无或标题错误。我也尝试了使用PDFminer，结果仍然是一样的。我试着用了3个不同的pdf文件。有没有更好的方法来更准确地提取标题？这是我使用的代码： from PyPDF2 import PdfFileReader def get_pdf_title(pdf_file_path): pdf_reader = PdfFileReader(open(pdf_file_path, "rb")) return pdf_reader.getDocumentInfo().title title = get_pdf_

浏览 3提问于2018-07-18得票数 0

回答已采纳

1回答

PDF解析器库推荐-文章提取

我需要解析PDF文档，用包含文章的多列布局编写。具体来说，我需要提取文章、文章标题、图片、表格、列表、字体样式，然后为每个PDF创建一个自定义的单列html，同时保持文章的结构和顺序。我试过pdfbox，但由于缺乏文档，没有多少运气。我正在寻找一个PDF解析器库与良好和自我解释的API文档。你能给我推荐一下吗？

浏览 0提问于2018-04-19得票数 1

1回答

如何使用python-camelot获取表格坐标？

、、

我试图解析一些pdf文件，以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此，我尝试使用camelot来提取表，并获得了很好的结果，但我希望提取每个表的标题，因为我希望为每个表与其标题进行映射。因此，我尝试使用tables[i]._bbox获取每个表的坐标，然后向这些坐标添加一些边距，以检测表标题的区域(它可以在表的顶部、左侧或底部)，如下图所示：title of table on the left title of the table on the top 谁能告诉我如何使用python从pdf中获取包含table标题的红色区域的坐标？

浏览 83提问于2019-09-19得票数 3

回答已采纳

2回答

通过URL从PHP中PDF文档中提取标题

、、

我需要从一个(直接)url中提取pdf文档的标题，所以我将接收像：这样的url，并且我只需要提取这个pdf文档的标题，而不需要下载整个文档。我看到Zend Framework有一些类似于以下特性的特性： $pdf = Zend_Pdf::load($pdfFilePath); $title=$pdf->properties['Title']; 但是，如何在常规PHP中做到这一点，以及如何仅使用url (不需要下载整个文档)来实现呢？谢谢。

浏览 7提问于2017-01-25得票数 1

回答已采纳

1回答

Imagemagick、Snow Leopard和PDF转换

、、、、

对Imagemagick和Snow Leopard有困难。 Imagemagick是使用here 中的安装脚本安装的。一切都能正确构建和安装。Imagemagick对于所有命令(我能找到的)都运行正常，但尝试转换PDF时除外。例如, $ convert my.pdf my.jpg Segmetation Fault 我认为这可能是ghostscript，并尝试运行Imagegick委托的命令(通过-verbose选项) $ convert -verbose spec/fixtures/documents/upload_test_file.pdf test.jpg "gs" -q

浏览 0提问于2009-09-05得票数 2

回答已采纳

2回答

如果从函数导入模块x次，是否存在任何问题？

、、

我提取并将工具包放在插件目录中。层次结构如下所示： plugin |__example.py |__report |__PyPDF2 |__(PyPDF2 contents) 在example.py文件的开头，我尝试使用以下方法导入PyPDF2模块： from report.PyPDF2.PyPDF2 import PdfFileMerger 不幸的是，这会导致一个错误： ImportError:没有名为Report.PyPDF2.PyPDF 2的模块但是我可以使用sys导入它 import os, sys class plugin:

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

使用RMD创建latex文档的低质量图形

、、、

早上好, 我已经决定尝试RMarkdown来创建简短的白皮书，我将定期更新。rmd代码提取Fed数据，对其进行组织，然后创建图表，并将这些图表与一些简短的注释放在一起。我的问题是关于输出。在Rstudio中创建的图形是清晰的，这正是我想要的；pdf输出的线条应该更粗，而不是那么清晰。下面是我的代码块。我尝试更改块顶部的dpi，但这并没有更改pdf输出。关于使用Rmarkdown在RStudio中将同样清晰的代码行转换到pdf上有什么想法吗？谢谢! ```{r echo=FALSE,dpi=600,message=FALSE} 创建标题 mycaption<-“来源: FredII

浏览 2提问于2018-11-19得票数 0

1回答

eclipse java中的opennlp Span类

、、、

我是java opennlp的新手，我正在尝试实现一个从文件中提取城市名称的程序，但是我首先在一个字符串上测试我的代码，我得到一些错误代码是 import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import main.java.opennlp.tools.namefind.NameFinderME; import main.java.opennlp.tools.namefind.To

浏览 5提问于2014-05-13得票数 0