抓取网站中不存在的单词

、

我正在写一个抓取蜘蛛，应该发现如果一个特定的字符串存在于网站内容(文本)。我有许多网站(几千个)和许多需要找到的字符串，所以我在代码中使用绑定到变量的列表。有些列表是从其他python文件导入的。我的问题是，代码似乎正在生成一个积极的“命中”，即使在使用开发工具手动检查URL后，我无法在URL中找到字符串。以下是result的代码和示例。在运行爬虫之后，我得到了这样的结果输出： {"Mat

浏览 10提问于2020-09-07得票数 0

回答已采纳

1回答

如何在我的api中正确实现web抓取

、、、、

我正在制作一个django api，它能够返回一个单词的定义给用户这个单词是通过使用word=(在这里放单词) url查找的，这个api抓取dictionary.com来获得定义，如果它还不存在于我的数据库中，然后添加到我的数据库中，如果它存在于他们的网站上。我只是想弄清楚如何正确地组织它，而不是把它扔进我的视图中。我希望能够返回json给最终用

浏览 16提问于2019-09-09得票数 0

5回答

一种高效的算法，用于将唯一的单词保存到文件中

、、

我目前所做的是，从URL解析文本，然后清理文本并按空格将其分解并保存到文件中。我发现最难的是，案例:从site.com/page1抓取单词并将唯一单词保存到文件中。在抓取site.com/page2时，我需要检查每个单词是否已经在文件中，只有在不存在时才保存。我的想法是，获取$word，并从文件中提取

浏览 1提问于2012-04-10得票数 1

回答已采纳

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

、

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取第一页的数据

浏览 0提问于2013-05-28得票数 0

1回答

无法使用scrapy response xpath捕获ul内的所有li元素

、、

我正在尝试使用scrapy抓取this website上可用的文章。我正在尝试使用以下代码。//*[@id="js-media-article-container"]/li/div') 但它返回的是一个空列表。为什么我不能在scrapy中使用xpath来捕获li元素。 ?

浏览 51提问于2021-03-17得票数 0

3回答

用于网站分类的简单机器学习

、、、、

我试图生成一个Python程序，以确定一个网站是否有害(色情等)。{ word：#出现在有害网站中，#包含这些单词的网站}。现在，我希望我的程序分析从任何网站的话，以检查网站是否安全。但我不知道哪种方法适合我的数据。

浏览 5提问于2017-07-12得票数 2

回答已采纳

1回答

我正在开发一个自动安全审计系统，它分析自定义的Ubuntu安装，以检查受安全漏洞影响的包。由于这些机器没有连接到互联网上，所以我不能简单地运行apt-get，我们需要尽可能地保持升级的规模，所以只有在实际需要的时候才更新包。此过程的一部分是监视Ubuntu安全通知(USN)中的新报告和提取信息。然而，我无法找到一种方法来轻松地访问所有的历史USN通知。在http://www.ubuntu.com/usn/上有一个RSS链接，但它只

浏览 0提问于2012-07-29得票数 6

1回答

从网站中提取所有文本以构建检索词

、、

如何抓取网站中的所有文本，而不仅仅是ctrl+a/c。我希望能够从网站中提取所有文本(以及相关的所有页面)，并使用它来构建该网站的单词索引。有什么想法吗？

浏览 2提问于2013-08-04得票数 1

1回答

hibernate中的动态获取和静态获取有什么不同

、、

我是一个新的hibernate用户。我一直在阅读这个网站提供的用户guife，他们开始谈论静态和动态抓取，而不是介绍单词。什么是静态和动态抓取？

浏览 1提问于2018-11-24得票数 0

2回答

新闻部分的片段

、

我已经为我正在工作的一个网站创建了一个新闻部分。我想展示这篇文章的前几个单词，然后是其他单词的链接。我在踢自己，因为我记得几个月前看过一篇关于如何做到这一点的文章，但我不知道我在哪里找到它的。我知道如何从字符串中抓取前这么多个字符，但当你尝试抓取单词时，它会得到更多的跟踪。如果有人能为我指出这些东西的教程或文章的方向，我将不胜感

浏览 0提问于2010-08-24得票数 0

回答已采纳

1回答

基于规则的Python过滤人工智能

、、、、

我有一个学术项目来建立一个应用程序来确定消费者对品牌的“感觉”：它是正面的、负面的还是中性的。但是，我不知道如何获得如何用代码“阅读”英语的示例。例如：从人类的常识来看，我们可以注意到第一句是关于“人”的。第一个人描述那位叫达利夫人的女士，但在我的例子中，我只想把重点放在品牌名称上，这意味着第一句应该删除，而应该放在第二句。从这句话中</e

浏览 0提问于2013-01-22得票数 3

回答已采纳

1回答

有没有办法计算一个特定的单词在R中出现了多少次

、

我是R和网络抓取的新手。出于练习的目的，我正试图从一个假的图书网站上抓取信息。到目前为止，我已经成功地抓取了书名，找到了书名中每个单词的平均长度，找到了最常用的单词，也找到了最常用的单词(不包括停用的单词)。然而，我现在正在尝试找出一个特定的单词出现了多少次。例如，“我”这个

浏览 7提问于2021-04-04得票数 0

回答已采纳

1回答

我正在使用表情模块打印表情符号。但这不起作用

、、

我正在使用表情模块打印表情，但它是不工作的。

浏览 2提问于2020-12-07得票数 0

1回答

如何从一个站点中获取苹果触摸图标，如果它不存在，那么就显示偏好图标？

、

我想从网站上抓取苹果触摸图标(据我所知，大多数网站的图标都存储在website.com/apple-touch-icon.png上)，如果有404或者图像不存在，请使用谷歌图标抓取器(https://plus.google.comdomain_url=google.com)显示该网站的图标。 js/jquery是否能够做到这一点？

浏览 3提问于2015-03-17得票数 0

回答已采纳

1回答

在google上显示头数据

、、

这是我的网站： “致命错误:未定义的错误:调用未定义函数. www.armonisencia.clTraduciráginaF生性错误:未定义错误:调用/home/armonisencia/public_html/site/wp-content/themes/DIVI/header.php:16堆栈跟踪中的未定

浏览 2提问于2017-12-08得票数 0

1回答

如何通过添加"-“来抓取不存在的值？

、、

我正在从IMDB网站上抓取电影。在抓取的同时，我能够抓取电影的证书，即它是被禁止的，还是PG-13，或者是R，但似乎对于一些电影，证书不存在，所以我如何为那些电影放"-“，我尝试使用if-else循环，如下面的代码中所见，但它似乎不起作用我正在使用BeautifulSoup库进行抓取。有没有办法把"-“或"NA”放在不存在的地方？

浏览 1提问于2020-09-17得票数 0

1回答

从网站中抓取字符串中的单词

、、

我正在制作一个网络刮板，试图从他们网站的HTML文本中刮掉企业主的名字。我的问题是，我不能准确地使用xpath或css响应来从网站代码中获取文本，因为我正在抓取数百个具有不同编码、类、页面等的不同网站。if owner_name: print("OWNER FOUND @ " + str(response.url)) 显然，所有这一切都是为了让我知道程序是否找到了提到所有者

浏览 25提问于2020-06-09得票数 0

1回答

如何使用javascript从网站获取所有innerHTML？

、、

我正在建立一个铬的扩展使用，我想知道，如果给定的词是存在于网站或不存在。我试过使用document.documentElement.innerHTML，但是它只是与网站顶部的一些单词匹配，并且给出了错误的结果，甚至在该网站中也有单词存在。

浏览 9提问于2022-04-25得票数 -2

2回答

我想要建立一个Chrome扩展，自动的Ctrl+f与word喂养/存储在工具中，为我访问的所有网站

、

我有一个要求，突出一些特定的词在任何网站我访问。这样我就不必手动使用control+f并在网页上找到单词。我见过一些铬插件(突出显示:查找和标记单词)，但这并不是所有网站上都能找到的，也许只适用于允许抓取的网站。我有一些内部网站，在那里，我需要做的ctrl+f每次相同的一套词。确切地说，这个插件是根据我的要求，但这不工作内部或限制网站。我知道如何

浏览 3提问于2019-09-26得票数 1

1回答

使用scrapy抓取各种网站并找到特定的单词

、、

他们有一个很棒的文档，我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级，在每个网站中找到cse部门(尝试找到cse或计算机或在该页面上抓取的链接中的单词列表)。如果他们有cse部门在他们的网站，这些链接或网址将被存储在一个.csv文件。1000个网站，这些网站都存储在.csv文件中。如何修改我的XPath以在每个网站

浏览 2提问于2012-11-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在我的api中正确实现web抓取

一种高效的算法，用于将唯一的单词保存到文件中

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

无法使用scrapy response xpath捕获ul内的所有li元素

用于网站分类的简单机器学习

是否有访问历史Ubuntu安全通知的API？

从网站中提取所有文本以构建检索词

hibernate中的动态获取和静态获取有什么不同

新闻部分的片段

基于规则的Python过滤人工智能

有没有办法计算一个特定的单词在R中出现了多少次

我正在使用表情模块打印表情符号。但这不起作用

如何从一个站点中获取苹果触摸图标，如果它不存在，那么就显示偏好图标？

在google上显示头数据

如何通过添加"-“来抓取不存在的值？

从网站中抓取字符串中的单词

如何使用javascript从网站获取所有innerHTML？

我想要建立一个Chrome扩展，自动的Ctrl+f与word喂养/存储在工具中，为我访问的所有网站

使用scrapy抓取各种网站并找到特定的单词

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐