仅在PDF嵌入的URL中抓取包含特定单词的段落

、、、

我目前正在开发一些代码来从网站上抓取文本。我对抓取整个页面不感兴趣，但只对包含某些单词的页面部分感兴趣。我已经设法使用.find_all("p")命令对大多数URL执行此操作，但是对于定向到PDF的URL不起作用。我似乎找不到一种方法将PDF作为文本打开，然后将文本分割为段落。这就是我想做的:首先1)打开一个PDF嵌入<em

浏览 32提问于2021-04-26得票数 3

1回答

在Windows上将Word转换为PDF时出现字母间距问题

、、

我有一个word文档(Docx)的乌尔都语文本在Jameel Noori Nastaleeq字体。而在word中，它显示了10页的文件，但导出为PDF后，它显示的是11页的pdf文件，因为每个字母都包含额外的空格。编辑：请从下载该文件

浏览 0提问于2017-05-02得票数 0

1回答

Xamarin.UITest :：如何处理段落中的特定单词？

、、

我需要一个测试的帮助，我正在为之编写，以将它上传到Xamarin测试云。你知道有什么方法可以检测特定的单词坐标吗？我的意思是，开发团队已经将一个URL合并到一个段落中，我需要点击URL，例如，该段是"...hello to ，从我的新工作站.“，并且这个URL只嵌入在"everybody”字中，所以我需要点击这个特定的

浏览 1提问于2017-11-15得票数 0

6回答

搜索段落，并使用string关键字对每一行返回整个第一行，直到并包括整个最后一行。

、、

我试图找到一种方法，使用字符串作为起点来隔离特定段落，其中字符串可以是行的任何部分中的一个单词(不一定是结束或开始)。输入：JUNKTEXTJUNKTEXTJUNKTEXT

浏览 24提问于2022-01-27得票数 0

回答已采纳

1回答

仅抓取包含某些单词的段落

、、

我正在开发一些代码来从网站上抓取文本。我对抓取整个页面不感兴趣，但只对包含某些单词的页面部分感兴趣。理想情况下，我希望抓取包含该单词的整个段落。我见过使用.find_all("p")行的示例，但我发现许多网站不使用HTML定义的段落("p")。因此，我不想这样做。现在，我正在使用一种方法，即在搜索某个单词

浏览 14提问于2021-04-02得票数 2

回答已采纳

2回答

软PDF文档

、

事实上，我试图隐藏信息(通过使用特定的隐写方法.)在现有的PDF文档中，我希望通过稍微修改字符的位置来插入嵌入的消息。所以我知道，在一行中，所有字符都有相同的y轴，但x轴不同。因此，我想通过修改同一行中字符的x轴来插入一些位，并通过修改属于不同行的字符的y轴来插入一些位(每个字符位于一条特定的行中，但我不知道行

浏览 2提问于2014-01-06得票数 0

回答已采纳

1回答

段落向量为每个段落生成多少个向量？

、、、、

例如，如果我有一个有两个段落的语料库，那么段落向量会产生两个向量吗?另外，对于句子和文档的分布式表示(Q. Le，T.Mikolov)，我不明白为什么段落向量在段落之间是唯一的，但是单词向量是共享的。为什么？

浏览 0提问于2016-11-16得票数 0

回答已采纳

3回答

提取工作所需的技能，给出职务说明

、、

对从职务描述(原始文本)中提取职务所需技能集的库/方法有任何建议吗？📷 我已附上职务说明格式。

浏览 0提问于2018-04-09得票数 1

2回答

如何从文本文件URL列表中下载带有下载按钮的嵌入式pdf？有可能吗？

、、、

我想看看是否有人曾经成功地从一个网站的.txt文件中包含的多个url下载嵌入式pdf文件？例如：我尝试了wget -i urlist.txt的几种组合(它可以完美地下载所有html文件)；但是它也不能抓取每个html文件的嵌入.pdf?xxxxx <- .pdf?*末尾的slug 此障碍的确切示例如下：这个数据集我已经将所有2页链接放入

浏览 20提问于2020-12-29得票数 0

回答已采纳

2回答

在scala中按原样匹配单词/短语

、、、

我必须找出给定的短语/单词是否存在于段落中。这是我所做的，给定"wordlist“是我必须在其中查找短语/单词的段落，而”word“是短语/单词。我希望"true“仅在短语/单词按原样出现并且不是"wordlist”中其他字符串的一部分的情况下。因此，包含&q

浏览 5提问于2016-11-18得票数 1

2回答

以编程方式将某个font+size更改为不同的font+size

、

我有一个ms-word文档，其中Helvetica 13.5是段落的主要字体。不幸的是，它没有绑定到文档中任何特定的预定义样式(文本是从网站复制到文档中的)。此外，你会看到在段落中嵌入了几个斜体的单词和一些'Courier New‘的单词。我想要做的是遍历文档，查找具有单一字体/大小<em

浏览 3提问于2014-11-25得票数 0

3回答

Grep包含特定关键字的文本的整个段落

、、、

我的目标是提取包含特定关键字的文本段落。不只是包含关键字的行，而是整个段落。强加于我的文本文件的规则是，每个段落都以特定的模式(例如Pa0)开头，该模式在整个文本中仅在段落开头使用。每个段落都以换行符结尾。bla 我的目标是提取这些包含单词</em

浏览 4提问于2015-09-03得票数 3

1回答

它不会使用R执行正确的计数

、、

我正在使用pepa函数来提取pdf文档中包含单词“人工智能”的段落。但是，我不会提取包含这些单词的所有段落。我错过的要少得多。它不能从文档的末尾提取这些内容。dirct <- directory_path result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', s

浏览 15提问于2020-09-24得票数 0

1回答

使用BeautifulSoup和Python从任何网页中提取主文本

、、、

我正在编写一些代码(Python)来从网页中抓取文本。我的目标是找到一种方法来过滤/删除网页上不属于主文章的段落(例如广告、链接到其他文章等)。到目前为止，我一直在使用.find_all("p")命令从文本中提取段落，虽然成功地从文本中提取了许多基本段落，但这些段落并不在每篇文章的主体/正文中。paragraphs = paragraphs + [paragraph]

浏览 6提问于2021-07-27得票数 0

回答已采纳

5回答

是否可以使用URL参数链接到PDF中的书签？

、、、

在提供指向网站上PDF文件的链接时，是否可以在URL (请求参数)中包含信息，从而使PDF浏览器插件(如果使用)跳转到特定书签，而不是仅在开头打开？我假设，如果有答案，它可能特定于Adobe的PDF阅读器插件或其他东西，并且可能有版本限制，但我最感兴趣的是该技术是否存在。

浏览 1提问于2008-09-24得票数 83

回答已采纳

2回答

如何提取包含给定关键字的选定段落？

、

简而言之:我正在寻找与以下PowerShell命令等价的awk：我的目标是从包含特定关键字的文本中提取选择段落--不仅仅是包含关键字的行，而是整个段落。强加在我的文本文件上的规则是，每个段落都以某种模式(例如，Pa0

浏览 3提问于2020-06-11得票数 1

回答已采纳

1回答

如何增加正常的或给定的字体大小值更多一些在邪恶-pdf中。

、、、、

我有一个身体内容在我的邪恶-pdf报告的可变字体大小。p {}如果字号为16 in，那么我应该将其改为17 in；或者如果包含</em

浏览 1提问于2014-04-26得票数 0

回答已采纳

1回答

是否找到并使用已嵌入的字体？

我已经用Adobe Illustrator创建了一个PDF文件，并用itext7 pdfreader加载到内存中。该PDF文件已经包含名为"Lato ( embedded )“Encoding:Ansi的嵌入式字体。如何创建一个PDFFont对象，以便我和可以使用它来绘制其他段落？

浏览 36提问于2019-03-13得票数 0

2回答

如何改变word2vec维基百科模型的n-克？

、、、、

我的数据很少，所以我的word2vec模型表现不好。我的目的是识别与技术术语类似的词，如“支持向量机”、“机器学习”、“人工智能”等。如有需要，我乐意提供更多例子:)

浏览 0提问于2018-03-25得票数 0

回答已采纳

1回答

使用pdfgrep从特定单词中选择pdf文本中的段落

、、、

我从正则表达式开始，并且尝试从超过3000页的pdf文件中选择有两个特定单词(IDAILDA或282610/SP)的所有段落。按照这个逻辑，我应该有完整的第一和第三段来回答我

浏览 2提问于2019-10-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Windows上将Word转换为PDF时出现字母间距问题

Xamarin.UITest :：如何处理段落中的特定单词？

搜索段落，并使用string关键字对每一行返回整个第一行，直到并包括整个最后一行。

仅抓取包含某些单词的段落

软PDF文档

段落向量为每个段落生成多少个向量？

提取工作所需的技能，给出职务说明

如何从文本文件URL列表中下载带有下载按钮的嵌入式pdf？有可能吗？

在scala中按原样匹配单词/短语

以编程方式将某个font+size更改为不同的font+size

Grep包含特定关键字的文本的整个段落

它不会使用R执行正确的计数

使用BeautifulSoup和Python从任何网页中提取主文本

是否可以使用URL参数链接到PDF中的书签？

如何提取包含给定关键字的选定段落？

如何增加正常的或给定的字体大小值更多一些在邪恶-pdf中。

是否找到并使用已嵌入的字体？

如何改变word2vec维基百科模型的n-克？

使用pdfgrep从特定单词中选择pdf文本中的段落

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐