php爬取豆瓣电影_java爬取豆瓣网_使用php爬电影 - 腾讯云开发者社区

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 335提问于2021-01-09

1回答

怎样在不使用API的前提下爬取Twitter数据？

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 553提问于2024-01-06

1回答

在SharePoint online库中查找最近添加的文件

、

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我不知道这是否相关。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

1回答

让Google知道生产、开发和测试环境之间区别的最好方法是什么？

、、

我们有三个域名非常接近重复的内容(Magento网站)。让我们称它们为production.com、development.com和staging.com。我在development.com和staging.com上有机器人无索引。我还启用了htpasswds。谷歌对这些域名的搜索显示，它们还没有被索引。然而，当我登录到该软件的后端时，我开始收到来自Chrome的网络钓鱼警告。我需要尽快停止这一切。如果警告扩散到前端，我们将看到相当严重的后果。最佳的行动方案是什么？

浏览 1提问于2013-12-07得票数 0

2回答

Facebook粉丝从何而来？

、

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

2回答

请问一下页面上的图片，怎样获取它的URL呢？

、

浏览 362提问于2020-10-26

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： import scrapy class PeopleSpider(scrapy.Spider): name="People" start_urls=[ 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', ] def parse(self,response): for people in response.css("div.person-search__table--row"): yield

浏览 0提问于2017-02-16得票数 0

1回答

如何在htacces中将/page.php?1重命名为/welcome.html？

、、、

我有一个cms，不能生成友好的url 什么是最好的方式来重命名，而不得到重复的内容从谷歌。现在我在.htacces中有： RewriteEngine On RewriteBase / RewriteRule welcome.html page.php?1[L] RewriteRule about-us.html page.php?2[L] 这是最好的方法吗？任何帮助都将不胜感激

浏览 2提问于2010-12-02得票数 0

回答已采纳

5回答

谷歌什么时候会重新抓取一个网站？

、

谷歌什么时候会重新抓取一个网站？为什么Google在Cache中有同一页面的两个版本？？ forum.portal.edu.ro/index.php?showtopic=112733&st=25/ forum.portal.edu.ro/index.php?showtopic=112733&st=50为：缓存页

浏览 14提问于2009-08-04得票数 0

回答已采纳

1回答

SQL全文索引，ASCII控制字符

、、、

我正在使用SQL Server2008 R2全文索引。我注意到我搜索的一些结果没有包含在结果中。在进一步的调查中，我发现可疑数据包含ASC控制字符()。我的表是一个简单的平面结构，如果任何行包含这些字符中的一个，则不会显示结果。只要我替换数据中的字符，结果就会出现。我在查询中使用CONTAINS。我找不到一个可以证实这种行为的链接。我可以从数据库中删除这些字符，但如果能确认并了解原因会更好。任何帮助都将不胜感激。

浏览 0提问于2013-09-02得票数 0

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

2回答

如何查看我的网站上所有可公开访问的链接/页面的列表？

、、

我想在我的网站上看到所有公开访问链接的列表，这样我就知道用户可以访问哪些页面。是否有网站或应用程序可以抓取我的网站并显示此类信息？

浏览 1提问于2011-12-04得票数 0

1回答

php dom xpath从站点中的所有文件夹中提取所有链接

、、

我已经在stackoverflow和网络上搜索过了，一定是这里漏掉了什么。我还没有找到我要找的东西。也许它叫别的什么..我有下面的代码，它将抓取第一个文件夹中的所有内容，但不会从其他文件夹中抓取其他项目。例如，它会抓取第一个/前面的所有内容，但如果你有一个站点mysite.com/ folder2 /，它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站，我正试图废止。 <?php function storelink($web,$taken) { $

浏览 0提问于2013-02-19得票数 0

2回答

如何在没有php的情况下从mysql结果中删除html标签和php序列化信息？

、、、

我正在存储一个PHP数组，其中key=>value对是用于在网站上构建jQuery UI选项卡的信息。存储在MySQL数据库中的字符串如下所示： A:2：{i:0；a:2：{i:1；s:9：“信息”；i:2；s:643：“本节关于fooLorem ipsum ...”；}i:1；a:2：{i:1；s:14：“更多信息”；i:2；s:465：“Lorem ipsum ...";}} (不是有效的序列化数组或html，因为我出于格式原因截断了冗长的内容) 我想允许此内容馈送到Sphinx (全文索引)的网站搜索目的。基本上，Sphinx只是抓取数据库的内容并索引它找到的内容，取决于

浏览 0提问于2009-09-21得票数 0

回答已采纳

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？此外，我正在尝试在我的python代码中执行一个函数或方法来自动更改mi IP。我所看到的是，最好的方法是通过TOR浏览器(将其用作从页面获取数据的搜索引擎)，但我无法使其工作。你对创建这个函数有什么建议吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

2回答

TYPO3: indexed_search -索引所有页面而无需首先访问

、

通常，indexed_search只对已经访问过的页面进行索引。如果用户没有访问过该页面，则不会有搜索结果。有没有一种不需要访问就能索引所有页面的方法？或者我必须使用另一个扩展？ Typo3: v4.2.8 Indexed_search: v2.11.1

浏览 0提问于2012-01-16得票数 0

回答已采纳

1回答

如何取消云社区的文章同步？

如何取消云社区的文章同步？或者，如何设置只同步原创的文章??????????????????????????????????????????????????

浏览 261提问于2020-10-24

1回答

Microsoft Graph API SharePoint文件搜索

我尝试在SharePoint Document Library上搜索文件(例如，默认的“根目录”)。我上传了一些测试文件，或者在网上创建了新的办公文件，并提出了一些搜索请求，例如https://graph.microsoft.com/v1.0/sites/root/drive/root/search(q='{query}')，直到昨天，一切都很好。现在我开始在SharePoint上编辑文件或创建/上传新的文件，对于这些编辑的或新的文件，我有一个问题，当我搜索它们时没有得到结果。“旧的”文件，我开始创建的时候，我发现，虽然，只要我不编辑它们。为了获得访问权限，我在AAD中注册

浏览 8提问于2018-08-31得票数 0

回答已采纳

2回答

使用机械化来检索网站的所有链接

、、、

如何使用Mechanize库查找网站上的所有链接？我喜欢递归地解析内部链接，以便抓取一个网站的所有链接。

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

2回答

有没有办法将列中的两个值分离成两个单独的列？

、

问题是在MySQL中按照电影Id对电影进行排序，并将标题和年份拆分为单独的列。对电影进行排序不是问题，但我正在尝试将包含两组数据的列分开。一个是电影片名，另一个是电影上映的年份。例如“玩具总动员”(1998)，“钢铁巨人”(1999)。所需的输出将是这些电影的标题列和相应的年份列。大约有超过一百万个列，我必须将电影标题和年份分开。这是MySQL吗？

浏览 10提问于2019-01-03得票数 1

回答已采纳

1回答

如何导入SQL文件并彻底删除前一个文件

我有一段艰难的时间与buggy模块，需要做很多安装，卸载等。但是即使我卸载，模块也会将数据保留在SQL文件中，而从零开始的唯一方法就是每次重新安装. 如何保存导入时将删除所有旧数据的SQL文件？一个新的SQL文件，它不包含任何新安装和卸载模块的数据。我尝试过添加database和其他设置，但是似乎一旦安装了一个模块.它太late..it了，它不断地爬回到数据库中，有时还会形成依赖关系？

浏览 0提问于2015-08-23得票数 0

3回答

Appengine ndb设计每日、每周、每月最高下载量的最佳方式

、、、、

嗨，我正在建立一个简单的电影网站，我正在使用谷歌数据存储作为我的后端。我需要设计每天，每周，每月，所有时间的顶级电影下载量。现在我只跟踪下载的数量，例如:数据库就像电影的一行，num_of_downloads作为一列，每当用户下载电影时，我就会递增这个字段。 Movie Id | Title | Description | num_of_downloads 现在最好的方式是显示每天，每周，每月，所有时间的电影下载量。我正在考虑实现一个带有电影密钥和日期字段的新表，以跟踪每天的下载量，我可以用它来计算问题的其余部分。 Movie ID, Date, Downloads M1

浏览 1提问于2017-06-10得票数 0

2回答

如何使用solr和nutch自动索引数据？

、、、、

我想自动索引一个文档或网站时，它是馈送到apache solr。我们如何才能做到这一点？我见过使用需要通过php脚本调用的CRON作业的示例，但它们的解释不是很清楚。使用java api SolrJ，我们有没有办法自动索引数据，而不需要手动操作?？

浏览 1提问于2015-05-28得票数 0

1回答

Angular:如果模式(弹出)中止，则不更新ngx-datatable-column中的值

、、

我有一个ngx-datatable，其中有几个列，如下所示： <ngx-datatable-column name="PLZ/Ort" prop="plzCity" [flexGrow]="1" > <ng-template let-column="column" let-sort="sortFn" let-sortDir="sortDir" ngx-datatable-header-template> <span (click)="so

浏览 0提问于2019-05-15得票数 0

1回答

如何检索与关联的应用程序文件扩展名图标

、、、

例如，名为“文件管理器”的文件管理器就是这样做的。如果我用我的电影浏览到目录，默认情况下，当它们使用该应用程序打开时，它们将与Gallery图标一起显示。但是当我安装一个新的电影播放器时，图标会变成播放器的图标。那么，我该如何检索与每个文件(它打开的应用程序)相关联的图标呢？

浏览 0提问于2011-08-20得票数 2

回答已采纳

1回答

useQuery不会对改进机开火

、

我有一个组成部分： // MovieOverview.tsx const MovieOverview = () => { const [rerender, setRerender] = useState(false); const {loading, error, data} = useQuery(resolvers.queries.ReturnAllMovies); console.log('data: ', data); let movies: IMovie[] = data?.movies; useEffect(() => {

浏览 0提问于2021-08-29得票数 0

2回答

单击提交按钮时在后台运行PHP脚本，无需重新加载页面

我需要运行一个php脚本(网站爬虫)上提交按钮点击，而不是页面重新加载。后台脚本运行后，应出现确认/警报弹出窗口，表明站点爬网程序已结束。有什么想法吗？

浏览 0提问于2012-04-17得票数 0

2回答

管理像iPhone IMDB应用这样的滑动视图的好方法是什么？

、

iPhone的IMDB应用程序似乎允许无限深入和探索，从电影详细信息页面到电影中演员的详细页面，到该演员的第一部电影到该电影的导演，等等。在Xcode中构建它的最好方法是什么？

浏览 1提问于2012-05-26得票数 1

回答已采纳

1回答

如何开通自定义分享接口？

微信生态云解决方案可以解决微信分享接口的问题吗像 www.eqxiu.com 不需要公众号分享接口就可以实现分享接口

浏览 297提问于2018-10-13

1回答

谷歌网站地图和Robots.txt问题

、

在我们的网站上有一个网站地图网站管理员中心报告说，网站地图中的一些urls被我们的robots.txt屏蔽了，请看，！尽管这些urls在Robots.txt中并不是不允许的。还有其他类似的网址，例如，gamezebo.com/gamelinks出现在我们的网站地图中，但它被报告为“robots.txt限制的网址”。另外，我在站长中心有一个解析结果，上面写着：“第21行:爬行延迟: 10规则被Googlebot忽略”。什么意思？我很感谢你的帮助谢谢。

浏览 3提问于2009-09-28得票数 1

1回答

已暂停爬网问题的计划增量爬网行为

快速问一下，我错误地开始了对我的一个内容源的增量抓取。然后我暂停了它，这样它就不会影响用户了。它将在下一次计划的增量爬网时恢复还是需要手动恢复？

浏览 12提问于2019-12-20得票数 0

7回答

有哪些PHP网络爬虫库可用？

、

我正在寻找一些健壮的，良好记录的PHP网络爬虫脚本。也许是Java项目的一个port - 我正在寻找免费和非免费的版本。

浏览 2提问于2011-01-30得票数 9

回答已采纳

2回答

只显示用户内容

、、

我使用设计让用户通过Facebook登录，或者在我的网站上创建一个acount。当他们登录时，他们可以将电影添加到他们的首页，问题是每个用户都会看到所有的电影，而不仅仅是他们添加的电影。在我的movies_controller.rb里 def index respond_with Movie.all end 我的movie.rb模型 belongs_to :user 我的user.rb模型 has_many :movies 有两个问题，目前我使用的是Movie.all，它很明显地显示了所有的电影，什么是正确的语法，只显示用户创建的电影。第二个问题，我是否需要将用户id插入电影记录中？我

浏览 2提问于2015-08-26得票数 0

回答已采纳

2回答

获取爬行信息的SharePoint接口

、

我正在尝试创建一个自定义报告，它显示当前的爬网时间/持续时间，状态是完全爬网还是增量爬网。有谁知道我可以用什么API来获取这样的信息？

浏览 0提问于2009-06-01得票数 0

回答已采纳

1回答

Nutch Crawler读取分段结果

、、

我使用apache-nutch-crawler1.6进行爬行。在爬行之后，当我尝试使用命令读取爬行结果的内容时 bin/nutch readseg -dump crawl/segments/* segmentAllContent 错误是 Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/ubuntu/nutch/framework/apache-nutch-1.6/blogs/segments/20

浏览 0提问于2013-06-21得票数 1

1回答

为电子商务网站提供9,000种独特产品的SEO

、

我刚刚重建了我的电子商务网站，列出了大约9,000种不同的产品，分为12个不同的类别，分为许多子类别。每种产品都是独一无二的。谷歌似乎不太可能对我的完整目录进行索引，所以我正在考虑将rel=nofollow添加到我所有的分类链接中，只留下指向35页最高价值产品的链接。这是一个好策略吗？其他人在类似的情况下做了什么？谢谢!

浏览 0提问于2011-12-30得票数 0

回答已采纳

1回答

java web爬虫无法识别非英语字符

、、、、

我抓取电影列表并将它们存储在我的数据库中。对于只包含英文字符的电影，一切都很好，但问题是，一些包含非英语字符的电影名称无法正确显示。例如，意大利电影"Il pi as crudele dei giorni“被存储为"Il pi& ugrave；crudele dei giorni”。如果有什么解决办法，有人能告诉我吗？(我知道我可以为爬虫设置语言，我已经用意大利语爬行了电影标题，但当我想爬英文标题时，Imdb中还有一些非英语字符的电影) 编辑：这里是我的代码： String baseUrl = "http://www.imdb.com/search/title

浏览 3提问于2014-10-05得票数 1

2回答

Wordpress自定义帖子类型中的Strage问题？

我有一个博客，我已经添加了一个自定义的帖子类型‘电影’。我已经将它链接到我的单人电影.php。并添加了以下代码： <div id="container"> <?php $args = array( 'post_type' => 'movies', 'posts_per_page' => 1, 'name' => $_GET['movie'] ); $loop = new WP_Query( $args ); while ( $loop->have

浏览 2提问于2011-09-21得票数 0

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

3回答

Maven 3-找不到原型

、

我已经创建了一个自定义原型customA-web-archetype。在项目文件夹customA-web-archetype中，我运行了mvn clean install archetype:update-local-catalog，成功了。现在，当我在文件夹外运行mvn archetype:generate -DarchetypeCatalog=local以使用原型时，我得到了以下错误： [INFO] No archetype defined. Using maven-archetype-quickstart (org.apache.maven.archetypes:maven-archet

浏览 10提问于2016-02-28得票数 2

2回答

youtube选择电影图像的算法是如何工作的？

、

如果你上youtube，你会在旁边看到很多推荐的电影。所有的电影里面都有一张从电影的一个镜头中拍摄的图像。很容易看出这些图像不是随机的(无论是动作场面还是前一秒有一个裸体女孩，等等)。它是如何做到的？

浏览 3提问于2012-02-25得票数 3

3回答

如何找到所有电影的参与者？

、、

我无法表达以下问题来挽救我的生命：谁参与了所有的电影，哪部电影在所有的电影院放映，哪些电影院放映所有的电影？给定以下关系： film: [ID, title, year, genre] person: [ID, name, firstname] cinema: [ID, name, city] participation: [film, person, function ('actor', or 'director')] show: [film, date, cinema] 其中，Participation和Show中的电影、人物和影院是外键。我也不确定A

浏览 0提问于2017-02-11得票数 1

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

2回答

PHP搜索引擎重定向到另一个页面

、、

我有一个个人电影数据库网站。我创建了一个搜索引擎，用户可以使用一个或多个搜索标准(即电影长度、标题、类型、演员等等)。搜索引擎是伟大的工作，但我想增加一个“挑选一个随机电影”的功能，这样脚本将选择一个单一的标题，当我们不知道要看什么。现在，我的搜索引擎名为"search.php“，表单指向”sear-go.php“。搜索结果列在一个表中。现在，我想验证用户是否选中了搜索-go.php中的“随机电影”框，如果是这样的话，它将选择一个随机的电影ID，然后显示电影描述(details.php)，而不是显示结果表。我不知道我是否够清楚，让我们简化一下： search.php ->

浏览 2提问于2013-08-08得票数 0

回答已采纳

1回答

查询'S3 source‘路径的雅典娜表和输出列

当前正在使用information_schema.tables列出我的目录中的所有表。我缺少的是一个列，它告诉我每个表(外部)都指向哪个S3路径。我查了所有的information_schema表，但是看不到这个信息。我唯一通过“sql”看到这个问题的地方是“SHOW CREATE TABLE”命令，该命令不会在正确的记录集中给出结果。如果做不到..。有没有其他方法可以跟踪所有的表和它们的来源？非常感谢。

浏览 15提问于2019-07-03得票数 0

回答已采纳