爬虫获取js加载的数据库_爬虫js获取数据库_爬虫 js异步加载 - 腾讯云开发者社区

、

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？我找不到关于这件事的多少信息。

浏览 0提问于2017-09-19得票数 1

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”<em

浏览 2提问于2013-03-18得票数 3

1回答

在Python中执行网页上的Javascript方法

、、

我正在为一个特定的网页写一个网页抓取器，我正在用"urllib2.Request( MyURL )“和"BeautifulSoup”来做这件事，但问题是在myURL中有一个页面分页，下一个页面通过点击一个链接加载(在相同的myURL/页面中)，这个链接后面是javascript方法，写成 { javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','')现在，如果不从Python执行这个Javascript函数，我就

浏览 2提问于2012-11-19得票数 8

回答已采纳

1回答

在同构React上处理SEO

、、、、

我正在使用React & Node JS来构建通用应用程序()。我也使用反应头盔作为库来处理页面标题，元，描述等，但我有一些问题，当我使用ajax动态加载内容时，谷歌爬虫无法正确获取我的网站，因为内容将被动态加载。有什么建议来解决这个问题吗？谢谢!

浏览 1提问于2016-09-26得票数 0

2回答

使用node.js创建启用javascript的web爬虫

、

这不一定是一个爬虫，但我想它更容易理解说明的方式。我想在node.js中执行同样的任务。as的res.render似乎不接受html-string作为输入。如何用节点模拟浏览器的javascript呈现能力？假设node

浏览 2提问于2015-02-01得票数 2

4回答

如何通过爬虫php获取悬停数据(Ajax)

、、、

我正在抓取一个网站的数据。我能够在一个页面上显示完整的内容。但页面上的一些数据是在一些图标上悬停并显示为工具提示后出现的。所以我也需要这些数据。有没有可能用任何爬虫。

浏览 3提问于2012-03-30得票数 3

回答已采纳

1回答

更好的策略，当来自web的光标与他不同时更新CursorAdapter的数据库

、、、

我正在构建一个网络爬虫，它从web上获取数据，存储到数据库中，然后使用CursorLoader从数据库中获取这些数据并放入CursorAdapter中。然后，我有一个异步任务负责定期从web上获取数据，但我想只更新新的项，而不是重写整个数据库，但有一个问题:为了只更新较新的项，我需要加载这些项。当然，我不想加载它们两次，所以我需要使用我的CursorLoader，并且只有在Curs

浏览 0提问于2016-05-15得票数 0

2回答

如何从网站中提取动态生成的HTML

、、、、

是否可以像Firebug的HTML或Chrome DevTools中显示的那样提取页面的HTML？我必须抓取很多网站，但有时信息不是在静态源代码，一个JavaScript运行后，页面加载和创建一些新的HTML内容动态。如果我然后提取源代码，这些内容就不存在了。我有一个用Java构建的web爬虫来完成这个任务，但是它使用了很多旧的库。因此，为了学习目的，我想转到Rails/Ruby解决方案。我已经和i和玩过了。

浏览 2提问于2014-07-21得票数 0

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？从安全的角度来看，服务器端渲染和客户端渲染哪个更好？我也为react读到了同样的东西。

浏览 18提问于2019-09-15得票数 0

2回答

搜索引擎误解

、、

如果我有一个从数据库加载内容和/或更改内容的页面，那么搜索引擎会抓取由数据库和jquery加载的内容吗？？非常感谢你的帮助！

浏览 0提问于2012-04-04得票数 2

3回答

如何防止昂贵的API被爬虫和爬虫吃掉？

我使用的API非常昂贵。每次通话的费用约为1美分。我注意到，来自蜘蛛和爬虫的访问产生了对该API的数千次调用，而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分，即只有实际的访问者才能看到它，并且在抓取网页时不会生成API调用？

浏览 1提问于2016-10-23得票数 2

1回答

未定义的Apache服务器错误rdbmmap

、

几天后，我在服务器错误日志中得到了以下错误消息：虽然网站的加载是正确的。

浏览 0提问于2017-09-10得票数 0

1回答

C#爬虫程序无法加载动态内容

、、、

爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

1回答

谷歌抓取/索引“计算的”或原始的html源代码吗？

、、

我有一个独特的情况，我有几个页面在多个页面中“分页”(通过WordPress的“下一页”功能)。相同的内容，分布在两个或更多页面上，如下所示：http://mysite.com/mypage/2因此，页面本身有一个html页面标题标记<title>My Page</title>，但

浏览 4提问于2013-06-22得票数 2

1回答

如何从crawler获取数据到我的站点？

、、

从外部爬虫获取数据到我的数据库的最好方法是什么，到我的网站我在LAMP环境中工作，web服务是个好主意吗？爬虫每15分钟运行一次。

浏览 2提问于2009-06-15得票数 0

回答已采纳

1回答

使用IIS重写规则重定向到仅供爬虫使用的静态内容的SEO后果

、、、

要解决这个问题，我的想法是使用IIS重写规则来重定向到静态生成的内容(使用Nuxt)，如果您的用户代理是已知的爬虫。如果出于某种原因，一个真正的用户偶然到达页面，我可以将他们重定向回实际内容。在技术层面上，这不是问题。然而，如果有一个重定向，谷歌不是索引静态内容URL而不是真正的URL (所需的) url吗？

浏览 0提问于2019-04-18得票数 0

回答已采纳

2回答

为什么Google不索引我的AJAX获取的内容？

、

我有一个使用ReactJS构建的网站，我试图在componentDidMount方法中添加一个使用AJAX获取数据的新页面。该页面有一些静态组件，例如导航条和页脚，它在获取数据之前显示一个加载程序，但奇怪的是，当我提交url作为Google进行抓取时，它显示的是一个完全空白的页面。对我来说，这似乎很奇怪，因为我预期如果Google不等待我的AJAX调用的返回，它至少应该向我展示作为Google结果的

浏览 5提问于2017-08-29得票数 0

回答已采纳

1回答