腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4965)
视频
沙龙
2
回答
仅在
PDF
嵌入
的
URL
中
抓取
包含
特定
单词
的
段落
、
、
、
我目前正在开发一些代码来从网站上
抓取
文本。我对
抓取
整个页面不感兴趣,但只对
包含
某些
单词
的
页面部分感兴趣。我已经设法使用.find_all("p")命令对大多数
URL
执行此操作,但是对于定向到
PDF
的
URL
不起作用。 我似乎找不到一种方法将
PDF
作为文本打开,然后将文本分割为
段落
。这就是我想做
的
:首先1)打开一个
PDF
嵌入
<em
浏览 32
提问于2021-04-26
得票数 3
1
回答
在Windows上将Word转换为
PDF
时出现字母间距问题
、
、
我有一个word文档(Docx)
的
乌尔都语文本在Jameel Noori Nastaleeq字体。而在word
中
,它显示了10页
的
文件,但导出为
PDF
后,它显示
的
是11页
的
pdf
文件,因为每个字母都
包含
额外
的
空格。编辑: 请从下载该文件
浏览 0
提问于2017-05-02
得票数 0
1
回答
Xamarin.UITest ::如何处理
段落
中
的
特定
单词
?
、
、
我需要一个测试
的
帮助,我正在为之编写,以将它上传到Xamarin测试云。你知道有什么方法可以检测
特定
的
单词
坐标吗?我
的
意思是,开发团队已经将一个
URL
合并到一个
段落
中
,我需要点击
URL
,例如,该段是"...hello to ,从我
的
新工作站.“,并且这个
URL
只
嵌入
在"everybody”字
中
,所以我需要点击这个
特定
的
浏览 1
提问于2017-11-15
得票数 0
6
回答
搜索
段落
,并使用string关键字对每一行返回整个第一行,直到并包括整个最后一行。
、
、
我试图找到一种方法,使用字符串作为起点来隔离
特定
段落
,其中字符串可以是行
的
任何部分
中
的
一个
单词
(不一定是结束或开始)。输入:JUNKTEXTJUNKTEXTJUNKTEXT
浏览 24
提问于2022-01-27
得票数 0
回答已采纳
1
回答
仅
抓取
包含
某些
单词
的
段落
、
、
我正在开发一些代码来从网站上
抓取
文本。我对
抓取
整个页面不感兴趣,但只对
包含
某些
单词
的
页面部分感兴趣。理想情况下,我希望
抓取
包含
该
单词
的
整个
段落
。我见过使用.find_all("p")行
的
示例,但我发现许多网站不使用HTML定义
的
段落
("p")。因此,我不想这样做。 现在,我正在使用一种方法,即在搜索某个
单词
浏览 14
提问于2021-04-02
得票数 2
回答已采纳
2
回答
软
PDF
文档
、
事实上,我试图隐藏信息(通过使用
特定
的
隐写方法.)在现有的
PDF
文档
中
,我希望通过稍微修改字符
的
位置来插入
嵌入
的
消息。所以我知道,在一行
中
,所有字符都有相同
的
y轴,但x轴不同。因此,我想通过修改同一行
中
字符
的
x轴来插入一些位,并通过修改属于不同行
的
字符
的
y轴来插入一些位(每个字符位于一条
特定
的
行
中
,但我不知道行
浏览 2
提问于2014-01-06
得票数 0
回答已采纳
1
回答
段落
向量为每个
段落
生成多少个向量?
、
、
、
、
例如,如果我有一个有两个
段落
的
语料库,那么
段落
向量会产生两个向量吗?另外,对于句子和文档
的
分布式表示(Q. Le,T.Mikolov),我不明白为什么
段落
向量在
段落
之间是唯一
的
,但是
单词
向量是共享
的
。为什么?
浏览 0
提问于2016-11-16
得票数 0
回答已采纳
3
回答
提取工作所需
的
技能,给出职务说明
、
、
对从职务描述(原始文本)中提取职务所需技能集
的
库/方法有任何建议吗?📷 我已附上职务说明格式。
浏览 0
提问于2018-04-09
得票数 1
2
回答
如何从文本文件
URL
列表中下载带有下载按钮
的
嵌入
式
pdf
?有可能吗?
、
、
、
我想看看是否有人曾经成功地从一个网站
的
.txt文件
中
包含
的
多个
url
下载
嵌入
式
pdf
文件?例如: 我尝试了wget -i urlist.txt
的
几种组合(它可以完美地下载所有html文件);但是它也不能
抓取
每个html文件
的
嵌入
.
pdf
?xxxxx <- .
pdf
?*末尾
的
slug 此障碍的确切示例如下: 这个数据集我已经将所有2页链接放入
浏览 20
提问于2020-12-29
得票数 0
回答已采纳
2
回答
在scala
中
按原样匹配
单词
/短语
、
、
、
我必须找出给定
的
短语/
单词
是否存在于
段落
中
。这是我所做
的
,给定"wordlist“是我必须在其中查找短语/
单词
的
段落
,而”word“是短语/
单词
。我希望"true“
仅在
短语/
单词
按原样出现并且不是"wordlist”
中
其他字符串
的
一部分
的
情况下。因此,
包含
&q
浏览 5
提问于2016-11-18
得票数 1
2
回答
以编程方式将某个font+size更改为不同
的
font+size
、
我有一个ms-word文档,其中Helvetica 13.5是
段落
的
主要字体。不幸
的
是,它没有绑定到文档
中
任何
特定
的
预定义样式(文本是从网站复制到文档
中
的
)。此外,你会看到在
段落
中
嵌入
了几个斜体
的
单词
和一些'Courier New‘
的
单词
。 我想要做
的
是遍历文档,查找具有单一字体/大小<em
浏览 3
提问于2014-11-25
得票数 0
3
回答
Grep
包含
特定
关键字
的
文本
的
整个
段落
、
、
、
我
的
目标是提取
包含
特定
关键字
的
文本
段落
。不只是
包含
关键字
的
行,而是整个
段落
。强加于我
的
文本文件
的
规则是,每个
段落
都以
特定
的
模式(例如Pa0)开头,该模式在整个文本
中
仅在
段落
开头使用。每个
段落
都以换行符结尾。bla 我
的
目标是提取这些
包含
单词</em
浏览 4
提问于2015-09-03
得票数 3
1
回答
它不会使用R执行正确
的
计数
、
、
我正在使用pepa函数来提取
pdf
文档
中
包含
单词
“人工智能”
的
段落
。但是,我不会提取
包含
这些
单词
的
所有
段落
。我错过
的
要少得多。它不能从文档
的
末尾提取这些内容。dirct <- directory_path result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', s
浏览 15
提问于2020-09-24
得票数 0
1
回答
使用BeautifulSoup和Python从任何网页中提取主文本
、
、
、
我正在编写一些代码(Python)来从网页
中
抓取
文本。我
的
目标是找到一种方法来过滤/删除网页上不属于主文章
的
段落
(例如广告、链接到其他文章等)。到目前为止,我一直在使用.find_all("p")命令从文本中提取
段落
,虽然成功地从文本中提取了许多基本
段落
,但这些
段落
并不在每篇文章
的
主体/正文中。paragraphs = paragraphs + [paragraph]
浏览 6
提问于2021-07-27
得票数 0
回答已采纳
5
回答
是否可以使用
URL
参数链接到
PDF
中
的
书签?
、
、
、
在提供指向网站上
PDF
文件
的
链接时,是否可以在
URL
(请求参数)
中
包含
信息,从而使
PDF
浏览器插件(如果使用)跳转到
特定
书签,而不是
仅在
开头打开?我假设,如果有答案,它可能
特定
于Adobe
的
PDF
阅读器插件或其他东西,并且可能有版本限制,但我最感兴趣
的
是该技术是否存在。
浏览 1
提问于2008-09-24
得票数 83
回答已采纳
2
回答
如何提取
包含
给定关键字
的
选定
段落
?
、
简而言之:我正在寻找与以下PowerShell命令等价
的
awk:我
的
目标是从
包含
特定
关键字
的
文本中提取选择
段落
--不仅仅是
包含
关键字
的
行,而是整个
段落
。强加在我
的
文本文件上
的
规则是,每个
段落
都以某种模式(例如,Pa0
浏览 3
提问于2020-06-11
得票数 1
回答已采纳
1
回答
如何增加正常
的
或给定
的
字体大小值更多一些在邪恶-
pdf
中
。
、
、
、
、
我有一个身体内容在我
的
邪恶-
pdf
报告
的
可变字体大小。p {}如果字号为16 in,那么我应该将其改为17 in;或者如果
包含</em
浏览 1
提问于2014-04-26
得票数 0
回答已采纳
1
回答
是否找到并使用已
嵌入
的
字体?
我已经用Adobe Illustrator创建了一个
PDF
文件,并用itext7 pdfreader加载到内存
中
。该
PDF
文件已经
包含
名为"Lato ( embedded )“Encoding:Ansi
的
嵌入
式字体。 如何创建一个PDFFont对象,以便我和可以使用它来绘制其他
段落
?
浏览 36
提问于2019-03-13
得票数 0
2
回答
如何改变word2vec维基百科模型
的
n-克?
、
、
、
、
我
的
数据很少,所以我
的
word2vec模型表现不好。我
的
目的是识别与技术术语类似的词,如“支持向量机”、“机器学习”、“人工智能”等。如有需要,我乐意提供更多例子:)
浏览 0
提问于2018-03-25
得票数 0
回答已采纳
1
回答
使用pdfgrep从
特定
单词
中选择
pdf
文本
中
的
段落
、
、
、
我从正则表达式开始,并且尝试从超过3000页
的
pdf
文件中选择有两个
特定
单词
(IDAILDA或282610/SP)
的
所有
段落
。 按照这个逻辑,我应该有完整
的
第一和第三段来回答我
浏览 2
提问于2019-10-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用Python和Repl.it进行网页信息爬取
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
正则表达式教程:实例速查
AI都会写灵魂Rap了?Transformer跨界说唱,节奏流畅度都不在话下
用卷积神经网络和 实现QANet
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券