js抓取标签内容_js 抓取标签内容_js 抓取标签 - 腾讯云开发者社区

、、

我有一个网站，将抓取新的数据在第一页访问。我想使用AJAX来做这件事，这样我就可以在抓取过程中向用户提供至少一些loading.gifs，但这只有在启用了Javascript的情况下才能实现。我的站点使用了一个PHP模板引擎，所以我想把抓取函数放在html模板的<noscript>标记中。因为这将在所有PHP代码之后发生，所以我必须重新加载页面，以便可以使用PHP呈现/解析抓取的数据。

浏览 0提问于2011-01-16得票数 1

1回答

抓取网站未返回正确的源代码

、、、

我正在尝试用Python抓取一个quizlet匹配集。我想用class：TermText抓取所有的<span>标签import requestsraw最终返回的内容根本不包含任何标签或卡片当我检查网站的源代码时，它显示了我需要的所有TermText跨度，这意味着它不是JS加载的。因此，我不明白为什么我的HTML是错误的，因为它没有包含任何我需要的html。

浏览 18提问于2020-07-31得票数 1

回答已采纳

2回答

从网页中提取内容数据

我希望从网页urls获得结构化文章数据。到目前为止，我已经找到了这两个服务和。有没有更好的替代方案，或者自己写代码来做这件事值得吗？

浏览 2提问于2014-10-07得票数 0

3回答

阻止来自我的网站的cURL请求

、、、

我想用一个<noscript>标签来阻止它，但我能做的就是隐藏内容，机器人仍然可以抓取我的内容。有没有办法运行JS测试来查看js是否被禁用(以检测bot)，并重定向这些请求，可能是在黑名单中。

浏览 0提问于2014-06-08得票数 4

1回答

抓取标题标签的内容

、

我想获取下面给出的heading标签的内容： <h1 style="BACKGROUND-COLOR: white; line-height: 2em; margin:0 .5em .2em .5em;

浏览 0提问于2016-11-24得票数 0

1回答

基于抓取的爬虫不提取<p>标记中的内容

、、、、

我有一个自定义的抓取新闻文章的爬虫。然而，在大多数情况下，当添加新的urls时，有时很难弄清楚使用什么css选择器来获得我想要的内容。下面是我正在做的代码。它抓取除内容之外的所有内容。我试过下面的选择器它

浏览 2提问于2020-06-02得票数 0

1回答

如何指定要用作facebook共享缩略图的图像

、、

我正在制作一个网站画廊页面，在meta标签中我设置了一个og: image，这样当有人在页面上点击like时，该图像就会被用作facebook墙上故事的缩略图。

浏览 0提问于2012-01-25得票数 0

回答已采纳

1回答

带通配符的木偶师waitForSelector

、

我遇到了一个问题，当我使用节点js傀儡()做一些网络抓取。我有一个这样的选择器问题是，BVID后的id会动态变化我试过这样的东西：等待page.waitForSelector(“包含(，'BVID') > div >div.d-挠曲.md 10.正当性-内容-md-介于> div:nth

浏览 1提问于2021-04-08得票数 0

回答已采纳

1回答

我可以回复不同的内容吗？

、

我正在开发一个url缩短器，目前的规范要求避免Facebook抓取这些链接，相反，一个集成的抓取器会做到这一点，并将og meta标签交给Facebook。在Facebook的术语中，有没有什么东西不允许我用与普通用户看到的内容不同的内容(例如，一个只有opengraph meta标签的空页面)来回复它的抓取器？提前谢谢。

浏览 0提问于2012-09-20得票数 0

1回答

我已经阅读了一些关于抓取的文章，似乎NodeJS、ExpressJS、Request和Cheerio是我作为一个熟悉JS/jQuery的前端人员的首选方法。到目前为止，我读过的所有文章都集中在没有API的情况下从特定网站上抓取数据，而我想要实现的是一个工具，它可以获取任何给定的URL，并返回true/false来列出正在使用的通用库和链接的社交网络。由于CSS选择器，我选择的设置(如上)是合适的，还是仅限于抓取特定页面？

浏览 0提问于2014-08-07得票数 0

1回答

使用Node.js进行网页抓取

、、、

我观看并测试了一些教程和示例，以帮助我理解抓取代码是如何工作的，我看过Node.js和PHP教程，但遗憾的是，这些教程都没有解释如何将这些代码实际连接到html中的<input>标签，所以当用户粘贴链接时，它会抓取并显示数据。跳到1:05查看我真正需要学习的内容。非常感谢:)

浏览 3提问于2017-02-06得票数 1

2回答

如何用BeautifulSoup抓取文本标签？

、、

我对BS4和网络抓取是个新手，所以对于这样一个基本的问题，我很抱歉。有人知道如何提取这些信息吗？

浏览 2提问于2020-10-08得票数 1

2回答

抓取使用javascript注入html的网站

、

我试图用Node.JS抓取一个网站，但当抓取html文件时，出现的东西是注入JavaScript的脚本标签，在查看有问题的JavaScript文件时，我似乎是正确的，因为我发现了我试图抓取的文本。在这个脚本被注入到html之后，我如何抓取文档？有什么办法吗？谢谢

浏览 22提问于2020-11-04得票数 0

回答已采纳

4回答

如何抓取HTML标签的内容？

、、、

嘿，所以我想做的是抓取第一段的内容。Paragraph 1</p><p>Paragraph 2</p><p>Paragraph 3</p>以下是我的当前代码： i

浏览 1提问于2008-09-02得票数 7

回答已采纳

1回答

驱动不抓取更新的标签内容而抓取旧的内容

、、、

但是，对于所有的作业元素，第一个作业的作业描述总是被抓取的。这是我的代码。specified element. #to click use .click(), action chains, or js我想知道为什么当前单击的作业的描述没有被抓取，而旧作业的描述被抓取。这个问题的答案将会解决这个问题。谢谢。这是该网站的网址：website to be scraped

浏览 30提问于2021-05-01得票数 0

回答已采纳

2回答

有没有可能在chrome扩展中做一些简单的web抓取？

、、、

我想知道是否有可能在基本的JS或chrome API中进行web抓取？任何信息或指导都将非常感谢，我一直在努力做这个主题的研究，但没有找到任何最近或明确的答案。谢谢你的帮忙!

浏览 2提问于2020-07-20得票数 0

1回答

如何在CSS选择器中指定'all td，and all td img‘？

、、

我正在使用X-ray JS包从一个页面上抓取一个表。使用JSON字符串中的CSS选择器数组指定所需的标记和属性。 "{[ 'th, td' ]}"可以正确地从所有th和td标签中获取内容。

浏览 1提问于2016-03-01得票数 1

1回答

在bg中不加载脚本内容

、

即使启用了javascript，html标签noscript也会在后台加载内容吗？我有一个由JS调用的随机图像，每次加载页面时，但我希望所有的链接(不仅仅是当前的随机链接)都被抓取。

浏览 4提问于2008-10-21得票数 6

1回答

LinkedIn抓取逻辑

、、

我通过REST API分享了一条消息，在消息标题下面显示了一些额外的内容。我的结论是linkedin从我的网站抓取了这些内容(因为当我测试在本地服务器上发布的内容时，LinkedIn不能从那里抓取任何东西，所以很清楚)，但是它是如何工作的呢？OpenGraph标签被设置为正确的值，但消息中的额外内容甚至不是来自主页。它看起来像是抓取了我网站的任意一块并发布了它。另外，图片与OG标签中的图片不匹配。

浏览 1提问于2013-06-10得票数 0

回答已采纳

1回答