python爬取网页表格数据_爬取网页python_python爬取网页 - 腾讯云开发者社区

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 547提问于2024-01-06

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

1回答

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 335提问于2021-01-09

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？此外，我正在尝试在我的python代码中执行一个函数或方法来自动更改mi IP。我所看到的是，最好的方法是通过TOR浏览器(将其用作从页面获取数据的搜索引擎)，但我无法使其工作。你对创建这个函数有什么建议吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： import scrapy class PeopleSpider(scrapy.Spider): name="People" start_urls=[ 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', ] def parse(self,response): for people in response.css("div.person-search__table--row"): yield

浏览 0提问于2017-02-16得票数 0

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我不知道这是否相关。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

1回答

在SharePoint online库中查找最近添加的文件

、

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

3回答

如何判断一个网页在C#中是否有RSS

、、

我有个任务要做。我需要下载一个网页，看看该网页是否包含任何RSS馈送。我知道如何使用C#中的Http将网页下载为字符串，但如何确定http页面字符串中是否包含任何RSS？谢谢杰克

浏览 1提问于2009-11-19得票数 2

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

1回答

SQL全文索引，ASCII控制字符

、、、

我正在使用SQL Server2008 R2全文索引。我注意到我搜索的一些结果没有包含在结果中。在进一步的调查中，我发现可疑数据包含ASC控制字符()。我的表是一个简单的平面结构，如果任何行包含这些字符中的一个，则不会显示结果。只要我替换数据中的字符，结果就会出现。我在查询中使用CONTAINS。我找不到一个可以证实这种行为的链接。我可以从数据库中删除这些字符，但如果能确认并了解原因会更好。任何帮助都将不胜感激。

浏览 0提问于2013-09-02得票数 0

1回答

Nutch:数据读取和添加元数据

、、、、

我最近开始寻找apache nutch。我可以做设置，并能够用nutch抓取我感兴趣的网页。我不太理解如何读取这些数据。我基本上希望将每个页面的数据与一些元数据(现在是一些随机数据)关联起来，并将它们存储在本地，稍后将用于搜索(语义)。我需要使用solr或lucene来做同样的事情吗？我对所有这些都是新手。据我所知，Nutch是用来抓取网页的。它可以做一些额外的功能，比如向爬行的数据添加元数据吗？

浏览 1提问于2012-05-27得票数 5

回答已采纳

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

如何在asp.net后端运行crawler？

、、、、

我正在用asp.net创建一个网站，但我有一些问题.. 我已经编码了一个程序，可以抓取一个给定的网页，即thenextweb.com的链接，内容和图像。现在我想将这些抓取的数据存储在我的表*Crawlr_Data*中。我希望爬虫每隔30分钟运行一次，并用新的链接更新表格。 {在我的网站主页上，我显示了存储在数据库中的信息} 如何在后端运行crawler并更新数据库？我应该使用什么技术(web服务，WCF)，或者在visual studio中使用任何其他我可以使用的东西，以便我在托管网站在线时，它的爬虫可以继续运行和更新表} 请提建议，谢谢

浏览 0提问于2012-01-14得票数 0

回答已采纳

2回答

Facebook粉丝从何而来？

、

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

1回答

让Google知道生产、开发和测试环境之间区别的最好方法是什么？

、、

我们有三个域名非常接近重复的内容(Magento网站)。让我们称它们为production.com、development.com和staging.com。我在development.com和staging.com上有机器人无索引。我还启用了htpasswds。谷歌对这些域名的搜索显示，它们还没有被索引。然而，当我登录到该软件的后端时，我开始收到来自Chrome的网络钓鱼警告。我需要尽快停止这一切。如果警告扩散到前端，我们将看到相当严重的后果。最佳的行动方案是什么？

浏览 1提问于2013-12-07得票数 0

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

2回答

使用JavaScript获取新打开网页的URL

、

使用javascript，我需要做的一件事是，当我的索引页面上的一个按钮被点击时，一个新的网页(新窗口)就会打开。这个新网页重定向到另一个网页，使用setTimeout()函数，我关闭新窗口，并将焦点放回到原始索引上。我的问题是，是否有一种方法可以提取重定向网页的URL，以便我可以在我的原始索引中使用它。我试过了 winRef = window.open(url+param); winRef.focus(); loc = window.location; setTimeout("winRef.close()", 3000); 但是这将获得我的原始索引页

浏览 0提问于2011-05-18得票数 2

回答已采纳

3回答

如何从CS工作表中过滤不需要的CS样式？

、、

我有一个外部css表的网页2模板。我想更改它的布局，但保留文本/按钮样式/和布局的某些部分。我面临的主要问题是找出哪些是我需要保留在css文件中的类，哪些是删除它的类。实际上，样式表中定义了很多类。如何从样式表中删除不需要的类和id？？有没有更好的方法，而不是亲自去遍历每个类，并将其与网页源代码进行比较？我正在使用Adobe dreamweaver CS5进行网页设计。

浏览 2提问于2011-04-07得票数 1

回答已采纳

2回答

从.asp文件获取数据

我的女朋友的任务是从一个网页上获取所有数据。该网页属于一家成人教育中心。要访问该网页，您必须先登录。url是一个.asp文件。她必须将数据放在Excel表格中。这些条目是学生姓名，号码，身份证号码，电话等。有数千个条目。仅HR学生就有70页的参赛作品。这一切都以表格的形式显示在网页上。可以进行复制和粘贴。我可以合理地处理Python openpyxl，我听说过web抓取，我相信Python可以做到这一点。我不知道.asp是什么。你能给我一些关于如何用Python获取数据的提示吗？我可以自动执行此任务吗？这是MySQL的案例吗？(我对此一无所知。)

浏览 13提问于2019-03-01得票数 0

1回答

使用Java或Python从Excel或CSV自动执行搜索

、

我的目标是让网络搜索自动化。我有一个填充的电子表格。使用Java或Python，我想将电子表格数据输入到网页的特定搜索栏中。到目前为止，我可以使用Java和Python打开网页，但我不知道如何查询特定的搜索字段。有人知道怎么做吗？谢谢!

浏览 0提问于2016-03-05得票数 0

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

2回答

请问一下页面上的图片，怎样获取它的URL呢？

、

浏览 362提问于2020-10-26

1回答

如何导入SQL文件并彻底删除前一个文件

我有一段艰难的时间与buggy模块，需要做很多安装，卸载等。但是即使我卸载，模块也会将数据保留在SQL文件中，而从零开始的唯一方法就是每次重新安装. 如何保存导入时将删除所有旧数据的SQL文件？一个新的SQL文件，它不包含任何新安装和卸载模块的数据。我尝试过添加database和其他设置，但是似乎一旦安装了一个模块.它太late..it了，它不断地爬回到数据库中，有时还会形成依赖关系？

浏览 0提问于2015-08-23得票数 0

1回答

如何使用flask从网页导入csv文件？

、、、、

如何使用python-flask从网页导入csv文件，在网页中您只需浏览您的文件，然后单击导入并在表格(网页)中显示文件的内容。就像不导入数据库一样。请帮帮我

浏览 14提问于2019-03-04得票数 0

回答已采纳

2回答

如何存储从网页抓取的数据

、

我想在我的web应用上建立一个教育搜索引擎，所以我决定使用PHP从我的网页上抓取大约10个网站，并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中？

浏览 0提问于2011-05-07得票数 1

1回答

simple_html_dom爬行整个网站

、、

我想爬整个网站。我正在使用Simple_html_dom进行解析，但问题是一次只需要一个网页链接。我只想提供开始(主页)链接，它应该爬行和解析该网站的所有网页自动。有什么建议吗？

浏览 1提问于2014-06-07得票数 0

回答已采纳

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

2回答

如何查看我的网站上所有可公开访问的链接/页面的列表？

、、

我想在我的网站上看到所有公开访问链接的列表，这样我就知道用户可以访问哪些页面。是否有网站或应用程序可以抓取我的网站并显示此类信息？

浏览 1提问于2011-12-04得票数 0

1回答

如何使用Apache Nutch抓取ajax网站？

我想爬这个网站：使用Apache。该网页动态加载ajax内容。如果我用默认配置爬行它，Nutch只会带来头和页脚，动态加载的内容就会丢失。我用的是Nutch 1.14。

浏览 0提问于2018-06-08得票数 0

回答已采纳

2回答

大神有没有研究过美团的_token生成方法？

、、

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2250提问于2018-09-12

0回答

基于Python的股票数据爬取？

、、、

使用Python语言编写爬虫程序，使用正则表达式将指定日期时段内的全部上市公司股票数据爬取下来，并按照股票代码保存到相应的Excel文件中。有偿联系微信：15527440125

浏览 204提问于2020-05-23

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

2回答

如何使用Python下载具有相同链接的网页的所有页面的数据

、、

我正在尝试下载表格中的所有条目，如此网页所示- 有按钮可以加载表格中的下一个条目，但网页的链接保持不变。我想用Python下载所有的数据，我尝试了以下方法： pd.read_html(link) 其结果是包含表中的前30个结果的列表和组合了所有30个结果的另一项。页面上的默认设置，仅显示前30个结果。我如何也能从下面的所有页面中获取数据？

浏览 1提问于2021-06-07得票数 0

1回答

Google Translator工作流

有人能告诉我，一个网页的内容是如何发送到谷歌翻译和翻译，并再次显示在同一个网页上?我的意思是完整的工作流程的谷歌网站翻译。

浏览 0提问于2010-07-09得票数 0

回答已采纳

1回答

使用feed模块自动从Google电子表格导入数据

、、

我在谷歌文档电子表格中有数据。要导入这些数据，我目前必须将电子表格作为csv文件下载，然后使用Feeds模块导入。我想弄清楚的是，是否有什么方法可以使这个过程自动化？有什么方法可以让feed直接从Google文档访问电子表格吗？希望了解一些关于如何设置这方面的逐步说明。注意，我已经有了提要设置来手动导入csv文件，所以现在的问题是如何设置它，以便提要可以定期直接从Google文档中检索数据？请注意，数据存储为常规的Google电子表格，因此解决方案需要确保所检索的文档是CSV格式的(通过使用特定的URL结构可以吗？)

浏览 0提问于2016-02-23得票数 3

3回答

如何从HTML中抓取表格并在Python中创建Excel工作表？

、、

我的任务是创建一个Python文件，该文件将从HTML表中获取数据，并将数据导出到Excel工作表中。我已经创建了Python文件，现在想要测试它。我已经创建了HTML，其中包含一个包含数据的示例表。我必须创建javascript来获取表格数据，并将其发送到Python文件进行处理。我正在使用一个按钮来设置操作。 Javascript $("button").click( function(){ //What should go here? } ); 你可能不需要它，但如果你想看HTML，我也可以发布它，但它实际上只是一个表格和一个按钮。非常

浏览 2提问于2012-02-18得票数 1

回答已采纳

3回答

如何使新的网站索引和排名由Alexa？

、、

当我在Alexa上搜索我的网站时，上面写着"Alexa流量等级:没有数据“。我已经读过，要获得一个网站的索引，你必须点击“爬我的网站”在网站管理员的网页。然而，没有一个链接说“爬行我的网站”。那么，到目前为止，一个人如何得到一个由Alexa索引的网站，以便我的流量排名将显示在Alexa索引中？

浏览 0提问于2011-07-29得票数 4

1回答

可以使用Python selenium与Excel工作表一起存储Can数据吗？

、、

我可以使用python来操作excel吗?基本上我会遍历网页，从不同的字段收集数据，并将它们存储在excel表格format.So中。有没有办法打开excel并根据需要处理单元格，以动态存储web数据？我使用的是python2.7和selenium。谢谢,

浏览 2提问于2012-12-28得票数 0

1回答

如何使用Scrapy在页面中爬行？

、、

我使用Python和Scrapy来回答这个问题。我试图抓取网页A，它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接，C1、C2、C3、.，其中包含一个图像。所以，使用Scrapy，在伪代码中的思想是： links = getlinks(A) for link in links: B = getpage(link) C = getpage(B) image = getimage(C) 然而，当我试图在Scrapy中解析多个页面时，我遇到了一个问题。这是我的代码： def parse(self, response):

浏览 1提问于2013-06-10得票数 5

回答已采纳

1回答

Sharepoint Search 2013 -有没有办法为存储在数据库中的URL列表编制索引？

、、、

我有一个数据库表，其中包含我希望Sharepoint Search 2013索引的URL列表，以便它们显示在搜索结果中-这些URL是各种内容类型的混合-网页、Word文档、PDF等。所有的URL都在我的网络内部，但不是Sharepoint页面或存储在Sharepoint中的文件。我在Windows2008 R2服务器上使用Sharepoint 2013企业搜索。有没有人对如何实现这一点有什么想法？我已经搜索了选项，但似乎找不到任何相关的东西- BDC和BCS已经出现了很多，但似乎更多的是连接器返回的索引内容。我想要做的是使用从表返回的数据作为指向要建立索引的项的指针。我对Sharep

浏览 6提问于2014-09-02得票数 0

1回答

如何在python中将网页表格数据转换为json对象或dict

、、、、

我正在尝试从包含表的网页中获取数据，然后将表中的值与其他表值进行比较。我可以在python中将网页转换为json数据或字典吗？例如，我有url www.yahoo.com，如何将html数据转换为json？我试过了 response = urllib2.urlopen(url) data = str(response.read()) 我得到html输出。如果我尝试json.loads(data)，我得到错误raise ValueError("No JSON object could be decoded")是否有办法从网页上显示的表格中拉出数据

浏览 1提问于2016-01-22得票数 1

1回答

如何通过Fast search server 2010 for sharepoint抓取存储在数据库中的链接

、、、

我正在通过Fast Search Server2010 for Sharepoint爬行一个数据库表，其中有一个名为"URLS“的列。该列的每个记录保存一个网页的一个url。因此，在数据库表中有许多URL。我希望在抓取数据库的同时，Crawler也应该命中表中的链接。有没有办法做到这一点？提前感谢

浏览 5提问于2012-09-12得票数 1

回答已采纳

2回答

TYPO3: indexed_search -索引所有页面而无需首先访问

、

通常，indexed_search只对已经访问过的页面进行索引。如果用户没有访问过该页面，则不会有搜索结果。有没有一种不需要访问就能索引所有页面的方法？或者我必须使用另一个扩展？ Typo3: v4.2.8 Indexed_search: v2.11.1

浏览 0提问于2012-01-16得票数 0

回答已采纳

1回答

如何查找pandas dataframe在html代码中是否有"NA“值？

、、

如果未写入数据，则dataframe变量的值为"NA“。如果一个表格有'NA‘值，像这样的，那么表格就不应该出现在网页上。该表是从服务器的python dataframe 'resourse_usage‘中获取的，并且编写的html代码是在这里帮助我，我如何在html代码中操作python变量，以便如果表包含整行的"NA“值，则不会显示该表

浏览 1提问于2017-06-22得票数 1

1回答

雅虎管道合法性

、、

如果一个网站声明不抓取他们的网站，那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗？我看不出这与直接网络抓取有什么不同，除了第三方正在检索数据。谢谢。

浏览 2提问于2013-09-26得票数 0

1回答

使用bs4的剥离表

、、、、

所以我有以下网页：我只想把表格剥离成一个数据框架或其他一些结构，然后我可以使用它，最终目标是我可以轻松地浏览类似的网页，然后把所有的结果连在一起，这样我就可以把它们放到一个电子表格中。我完全迷失了方向，教程都指向了过时的图书馆。我正在使用Python3.4和PyCharm Community 2016.2.3。让我们假设我没有当前代码。

浏览 5提问于2016-11-14得票数 0

回答已采纳

1回答

Sharepoint外部数据-多值字段

、、、、

我需要创建一个包含外部数据(来自BDC)的列表字段。该字段必须包含多个值。但是我没有找到一种方法来让外部数据字段接受多个值。通过使用Column-Properties，可以从User-Contetntype创建这样的多值字段。通过从外部数据创建列，我不可能激活多值模式。它应该看起来像这样，仅仅来自外部数据源(BDC)：有没有人知道如何处理这种情况？

浏览 2提问于2012-04-23得票数 1

1回答

如何在Python中对带有图片的表格进行and抓取并导出到Excel中？

、、

我正试着从URL上盗取一张桌子我可以使用Scrapestorm工具抓取表格数据。我是python的新手，不能从这个URL获取数据。 from bs4 import BeautifulSoup page = requests.get('https://pantheon.world/explore/rankings?show=people&years=-3501,2020') soup = BeautifulSoup(page.text) Excel中所需的输出： enter image description here 从网页上抓取表格数据和图片是可能的吗？

浏览 61提问于2020-12-23得票数 1

回答已采纳

1回答

从网页中抓取数据

、

我试图从以下网页抓取数据，我需要一个表格格式的记分板。有人能帮我吗？我正在使用python3。我对网络抓取是个新手，对网页的内部原理不是很熟悉。提前感谢！我试着在urllib2中使用BeautifulSoup，等等，但是什么地方都没找到。

浏览 2提问于2019-11-01得票数 0

1回答

从PHP URL读取表中的数据并将其写入文本文件

、

我们有一个用PHP编写的本地站点，其中包含一些表格格式(index.php)的数据。它是一个动态生成的数据/表，所以我无法访问它背后的数据库。有没有办法读取该网页中的表格，并使用perl/php/python将其写入相同表格格式的文本文件？这个表很大，大约有1000行。但我只需要前10行(根据其中一列排序)。请帮帮忙。

浏览 1提问于2014-11-20得票数 0