腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
抓取
网站
中
不存在
的
单词
、
我正在写一个
抓取
蜘蛛,应该发现如果一个特定
的
字符串存在于
网站
内容(文本)。我有许多
网站
(几千个)和许多需要找到
的
字符串,所以我在代码中使用绑定到变量
的
列表。有些列表是从其他python文件导入
的
。我
的
问题是,代码似乎正在生成一个积极
的
“命中”,即使在使用开发工具手动检查URL后,我无法在URL中找到字符串。以下是result
的
代码和示例。在运行爬虫之后,我得到了这样
的
结果输出: {"Mat
浏览 10
提问于2020-09-07
得票数 0
回答已采纳
1
回答
如何在我
的
api中正确实现web
抓取
、
、
、
、
我正在制作一个django api,它能够返回一个
单词
的
定义给用户这个
单词
是通过使用word=(在这里放
单词
) url查找
的
,这个api
抓取
dictionary.com来获得定义,如果它还
不存在
于我
的
数据库
中
,然后添加到我
的
数据库
中
,如果它存在于他们
的
网站
上。我只是想弄清楚如何正确地组织它,而不是把它扔进我
的
视图中。我希望能够返回json给最终用
浏览 16
提问于2019-09-09
得票数 0
5
回答
一种高效
的
算法,用于将唯一
的
单词
保存到文件
中
、
、
我目前所做
的
是,从URL解析文本,然后清理文本并按空格将其分解并保存到文件
中
。我发现最难
的
是,案例:从site.com/page1
抓取
单词
并将唯一
单词
保存到文件
中
。在
抓取
site.com/page2时,我需要检查每个
单词
是否已经在文件
中
,只有在
不存在
时才保存。 我
的
想法是,获取$word,并从文件中提取
浏览 1
提问于2012-04-10
得票数 1
回答已采纳
1
回答
当下一页
的
后续链接在当前页面源代码
中
不可用时,
抓取
网站
的
所有页面
、
嗨,我已经成功地通过使用Python和正则表达式
抓取
了一些购物
网站
的
所有页面。但现在我遇到了麻烦,要
抓取
某个特定
网站
的
所有页面,该
网站
的
下一页后续链接
不存在
于当前页面
中
,就像这里
的
本
网站
通过Ajax调用动态加载同一页面
中
的
下一页数据。所以在
抓取
的
时候,我只能
抓取
第一页
的
数据
浏览 0
提问于2013-05-28
得票数 0
1
回答
无法使用scrapy response xpath捕获ul内
的
所有li元素
、
、
我正在尝试使用scrapy
抓取
this website上可用
的
文章。我正在尝试使用以下代码。//*[@id="js-media-article-container"]/li/div') 但它返回
的
是一个空列表。为什么我不能在scrapy中使用xpath来捕获li元素。 ?
浏览 51
提问于2021-03-17
得票数 0
3
回答
用于
网站
分类
的
简单机器学习
、
、
、
、
我试图生成一个Python程序,以确定一个
网站
是否有害(色情等)。{ word:#出现在有害
网站
中
,#包含这些
单词
的
网站
}。 现在,我希望我
的
程序分析从任何
网站
的话,以检查
网站
是否安全。但我不知道哪种方法适合我
的
数据。
浏览 5
提问于2017-07-12
得票数 2
回答已采纳
1
回答
是否有访问历史Ubuntu安全通知
的
API?
我正在开发一个自动安全审计系统,它分析自定义
的
Ubuntu安装,以检查受安全漏洞影响
的
包。由于这些机器没有连接到互联网上,所以我不能简单地运行apt-get,我们需要尽可能地保持升级
的
规模,所以只有在实际需要
的
时候才更新包。此过程
的
一部分是监视Ubuntu安全通知(USN)
中
的
新报告和提取信息。然而,我无法找到一种方法来轻松地访问所有的历史USN通知。在http://www.ubuntu.com/usn/上有一个RSS链接,但它只
浏览 0
提问于2012-07-29
得票数 6
1
回答
从
网站
中提取所有文本以构建检索词
、
、
如何
抓取
网站
中
的
所有文本,而不仅仅是ctrl+a/c。我希望能够从
网站
中提取所有文本(以及相关
的
所有页面),并使用它来构建该
网站
的
单词
索引。有什么想法吗?
浏览 2
提问于2013-08-04
得票数 1
1
回答
hibernate
中
的
动态获取和静态获取有什么不同
、
、
我是一个新
的
hibernate用户。我一直在阅读这个
网站
提供
的
用户guife,他们开始谈论静态和动态
抓取
,而不是介绍
单词
。什么是静态和动态
抓取
?
浏览 1
提问于2018-11-24
得票数 0
2
回答
新闻部分
的
片段
、
我已经为我正在工作
的
一个
网站
创建了一个新闻部分。我想展示这篇文章
的
前几个
单词
,然后是其他
单词
的
链接。我在踢自己,因为我记得几个月前看过一篇关于如何做到这一点
的
文章,但我不知道我在哪里找到它
的
。我知道如何从字符串
中
抓取
前这么多个字符,但当你尝试
抓取
单词
时,它会得到更多
的
跟踪。如果有人能为我指出这些东西
的
教程或文章
的
方向,我将不胜感
浏览 0
提问于2010-08-24
得票数 0
回答已采纳
1
回答
基于规则
的
Python过滤人工智能
、
、
、
、
我有一个学术项目来建立一个应用程序来确定消费者对品牌
的
“感觉”:它是正面的、负面的还是中性
的
。但是,我不知道如何获得如何用代码“阅读”英语
的
示例。例如: 从人类
的
常识来看,我们可以注意到第一句是关于“人”
的
。第一个人描述那位叫达利夫人
的
女士,但在我
的
例子
中
,我只想把重点放在品牌名称上,这意味着第一句应该删除,而应该放在第二句。从这句话
中</e
浏览 0
提问于2013-01-22
得票数 3
回答已采纳
1
回答
有没有办法计算一个特定
的
单词
在R中出现了多少次
、
我是R和网络
抓取
的
新手。出于练习
的
目的,我正试图从一个假
的
图书
网站
上
抓取
信息。到目前为止,我已经成功地
抓取
了书名,找到了书名
中
每个
单词
的
平均长度,找到了最常用
的
单词
,也找到了最常用
的
单词
(不包括停用
的
单词
)。然而,我现在正在尝试找出一个特定
的
单词
出现了多少次。例如,“我”这个
浏览 7
提问于2021-04-04
得票数 0
回答已采纳
1
回答
我正在使用表情模块打印表情符号。但这不起作用
、
、
我正在使用表情模块打印表情,但它是不工作
的
。
浏览 2
提问于2020-12-07
得票数 0
1
回答
如何从一个站点中获取苹果触摸图标,如果它
不存在
,那么就显示偏好图标?
、
我想从
网站
上
抓取
苹果触摸图标(据我所知,大多数
网站
的
图标都存储在website.com/apple-touch-icon.png上),如果有404或者图像
不存在
,请使用谷歌图标
抓取
器(https://plus.google.comdomain_url=google.com)显示该
网站
的
图标。 js/jquery是否能够做到这一点?
浏览 3
提问于2015-03-17
得票数 0
回答已采纳
1
回答
在google上显示头数据
、
、
这是我
的
网站
: “致命错误:未定义
的
错误:调用未定义函数. www.armonisencia.clTraduciráginaF生性错误:未定义错误:调用/home/armonisencia/public_html/site/wp-content/themes/DIVI/header.php:16堆栈跟踪
中
的
未定
浏览 2
提问于2017-12-08
得票数 0
1
回答
如何通过添加"-“来
抓取
不存在
的
值?
、
、
我正在从IMDB
网站
上
抓取
电影。在
抓取
的
同时,我能够
抓取
电影
的
证书,即它是被禁止
的
,还是PG-13,或者是R,但似乎对于一些电影,证书
不存在
,所以我如何为那些电影放"-“,我尝试使用if-else循环,如下面的代码中所见,但它似乎不起作用我正在使用BeautifulSoup库进行
抓取
。有没有办法把"-“或"NA”放在
不存在
的
地方?
浏览 1
提问于2020-09-17
得票数 0
1
回答
从
网站
中
抓取
字符串
中
的
单词
、
、
我正在制作一个网络刮板,试图从他们
网站
的
HTML文本
中
刮掉企业主
的
名字。我
的
问题是,我不能准确地使用xpath或css响应来从
网站
代码
中
获取文本,因为我正在
抓取
数百个具有不同编码、类、页面等
的
不同
网站
。if owner_name: print("OWNER FOUND @ " + str(response.url)) 显然,所有这一切都是为了让我知道程序是否找到了提到所有者
浏览 25
提问于2020-06-09
得票数 0
1
回答
如何使用javascript从
网站
获取所有innerHTML?
、
、
我正在建立一个铬
的
扩展使用,我想知道,如果给定
的
词是存在于
网站
或
不存在
。我试过使用document.documentElement.innerHTML,但是它只是与
网站
顶部
的
一些
单词
匹配,并且给出了错误
的
结果,甚至在该
网站
中
也有
单词
存在。
浏览 9
提问于2022-04-25
得票数 -2
2
回答
我想要建立一个Chrome扩展,自动
的
Ctrl+f与word喂养/存储在工具
中
,为我访问
的
所有
网站
、
我有一个要求,突出一些特定
的
词在任何
网站
我访问。这样我就不必手动使用control+f并在网页上找到
单词
。我见过一些铬插件(突出显示:查找和标记
单词
),但这并不是所有
网站
上都能找到
的
,也许只适用于允许
抓取
的
网站
。我有一些内部
网站
,在那里,我需要做
的
ctrl+f每次相同
的
一套词。确切地说,这个插件是根据我
的
要求,但这不工作内部或限制
网站
。我知道如何
浏览 3
提问于2019-09-26
得票数 1
1
回答
使用scrapy
抓取
各种
网站
并找到特定
的
单词
、
、
他们有一个很棒
的
文档,我在里面学到了各种东西。我正在尝试卷曲各种教育
网站
到深度3级,在每个
网站
中找到cse部门(尝试找到cse或计算机或在该页面上
抓取
的
链接
中
的
单词
列表)。如果他们有cse部门在他们
的
网站
,这些链接或网址将被存储在一个.csv文件。1000个
网站
,这些
网站
都存储在.csv文件
中
。如何修改我
的
XPath以在每个
网站
浏览 2
提问于2012-11-08
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网站抓取引子-获得网页中的表格
利用Python制作查单词小程序(一):抓取来自百度翻译的单词释义和音标
PHP实现远程抓取网站图片并保存在文件中
PHP远程抓取网站图片并保存在文件中,实践过
如何抓取网页中的表格
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券