不能抓取我要找的数据？_EMM是我要找的吗？_web抓取/ web抓取在我要抓取的站点上显示403错误 - 腾讯云开发者社区

浏览器内存中有三个数组：学生= [{studentID: x, firstName: x, lastName: x},{...}, {...}] 教师= [{teacherName: x},{...}, {...}] 倍= [{teacher: x, start: x, end: x},{...}, {...}] 我要做的是：呈现学生下拉菜单。在选择学生时，呈现该学生的教师的下拉菜单选择教师时，呈现该教师可用时隙的下拉菜单。我可以使用backbone.js创建这三种模型、集合和视图，但我不能“连接”它们。我如何在学生的内心里嵌套老师的时间？还是有更好的方法？请记

浏览 0提问于2013-06-03得票数 1

回答已采纳

1回答

如何使用url从How浏览器读取数据

webBrowser1.ScriptErrorsSuppressed = true; webBrowser1.Navigate("http://www.tayyar.org/"); 我有这个代码，它可以工作，我想把数据放在一个字符串中，以便稍后抓取它。有什么想法吗？

浏览 1提问于2015-09-11得票数 0

1回答

如何将网格视图行从一个网格拖动到另一个网格

、、、

我有一个带有行的网格视图。我希望用户能够抓取一行，并将其移动到winform上的其他几个网格视图之一。我该怎么做呢？我不熟悉如何在这里实现拖放。关于这种拖放，有什么好的教程吗？谢谢你的帮助。更新:好的，我有以下代码(从gridPODetails拖动到dataGridView1。它还不能工作，但我离目的地更近了(现在我在目的地得到了拖拽箭头和加号)。我错过了什么？ private void gridPODetails_MouseDown(object sender, MouseEventArgs e) { DataGridView.HitTestInfo info = gridPO

浏览 0提问于2011-08-30得票数 1

回答已采纳

1回答

有没有什么方法可以解析从/metrics端点抓取的输出？

、、、

当我们抓取etcd暴露的端点(即"/metrics")时，我们得到的是一个平面文本。我们有没有办法组织整个数据来处理它，而不是根据所需的度量进行字符串比较？注意:我不想使用prometheus进行监控。相反，我想创建自己的框架来监视etcd。

浏览 20提问于2019-01-08得票数 0

回答已采纳

1回答

Rails mailchimp使用

、、

我正在尝试从我的rails网站发送一封电子邮件，它应该使用带有占位符的mailchimp模板作为收件人的名称等等。接收者的电子邮件地址以及其他数据不应该从mailchimp db抓取，而应该从rails站点抓取。至少我认为应该是这样的，因为电子邮件将在用户注册后不久发送，这样我就没有时间导入电子邮件附件了。此外，电子邮件应该有一个pdf附件。我唯一能找到的宝石似乎是以另一种方式工作。我能用这条路吗？谢谢!

浏览 2提问于2013-07-27得票数 0

回答已采纳

1回答

MySQL通知查询-多个表

、、、

我正在尝试创建一个查询，它可以从多个表中抓取值，按每个表的时间戳排序，并将结果数据输出到一个数据流中。这将类似于Facebook或Google+中的通知区域。我将需要访问各种表中的数据，所有与各种字段。例如，starters的操作历史记录、公告和事件。先谢谢你，克里斯

浏览 0提问于2011-08-26得票数 0

回答已采纳

1回答

Phonegap与原生代码相结合的屏幕抓取应用程序

、、、

我要开发一个跨平台的应用程序，需要一些屏幕抓取功能。这个应用程序本身看起来像是Phonegap的一个明显的候选者，因为它的UI非常静态和简单(不需要快速的UI交互)-它基本上是一种外币比较器，需要显示一些更新的汇率和一些简单的图表。然而，问题是它需要连接到某些网站，并使用屏幕抓取从那里获取数据。没有API。我有多年使用PHP抓屏的经验，也有一些使用jsoup的本地Android的经验。而且" app“已经在PHP中运行(在服务器上)，以便在浏览器中使用，但客户端需要一个真正的app。在Phonegap中有哪些屏幕抓取选择？我认为可用的javascript支持不适合屏幕抓取，但在Ph

浏览 1提问于2012-04-03得票数 2

1回答

Rails:将本地数据库上载到远程

在我的Rails应用程序中，我从其他网站抓取了很多数据，而且都在我的本地development database上。现在，我想把我的网站部署到Heroku，我也想上传本地数据，所以我不需要再刮那些数据。我该怎么做呢？我认为我只需将本地数据(仅几个模型)转换为yml或csv，然后编写一个rake task从这些文件中读取。我想知道是否有更好的方法。

浏览 1提问于2015-05-22得票数 0

回答已采纳

1回答

持久化虚拟机进程

、、、、

我使用的是Google Cloud Platform，并且有一个虚拟机。我也在摆弄网络爬行器。我目前正在尝试使用ruby脚本对reddit做一个简单的抓取。这部分工作得很好。它本质上是一遍又一遍(直到reddit的末尾！)抓取文章，尽管这显然需要一些时间。现在，为了抓取(我正在运行ruby scrape.rb > reddit.txt)，我必须保持google虚拟机ssh浏览器窗口在我的计算机上打开，否则进程将退出(这是很有意义的)。然而，我想要做的是，即使我关闭了窗口，这个过程也会持续下去。有没有办法让这个进程继续运行？然后，我可以定期登录并检查reddit.txt，即使我没有登

浏览 1提问于2015-04-29得票数 0

1回答

在文件夹中获取包含数百万个文件的第一个文件

我得在一个有上百万份文件的文件夹上打扫房子。最后，我想抓取这些文件，然后看看它们是否存在于数据库中。但我得先抓取文件而不让程序窒息。我试着用 var file = Directory.GetFiles(uri, "*.*").FirstOrDefault(); 然而，这需要花费很长时间才能运行。因为文件的数量。有没有更好的方法来抓取不会花那么长时间的文件？

浏览 1提问于2016-09-15得票数 2

回答已采纳

2回答

正则表达式替换斜杠或忽略

、

我有一个特殊的文本，看起来像下面这样： CLIA ID: Rapid Strep Test w/reflex culture 我的正则表达式抓取"Rapid Strep Test w/ regex“看起来像这样 (?<=CLIA\s*ID:\s*\n)[a-zA-Z_0-9 /]{1,30} 这就是我的问题，我的程序实际上抓取文本，然后使用文本，它用抓取的内容重命名输入文件。不好的是，发送系统不能发送/，而且我们都知道，在Windows中，我不能命名带有斜杠的文件。有没有办法让我抓取前30个字符，如果它在任何地方找到/，就用空格替换它？？我甚至可以在REGEX中找到/以将其保

浏览 0提问于2014-06-26得票数 0

1回答

flash应用程序中矩形的位姿估计

、、、、

我正在开发一个简单的增强现实应用程序，我的问题是：有没有什么简单的算法或库可以帮助我确定测试对象(黑色矩形)所在平面的旋转和透视。我基本上是从摄像头中抓取一帧，然后标记测试对象的边角。现在我知道了相机焦平面中每个角的位置，当然我也知道了测试对象在纸平面上的角的位置。我想知道的是，我应该做什么样的旋转才能达到照片上的情况。在多路径的情况下，for me...any是合适的。我计划用Five3D AS3库在那个平面上渲染一些照片(目前我还不能定义)。

浏览 1提问于2011-01-28得票数 5

2回答

HTML Agility Pack或HTML Screen抓取Java、Ruby、Python的库？

、、、、

我发现很有用，而且很容易用来抓取网站的屏幕。在Java，Ruby，Python中HTML屏幕抓取的等价库是什么？

浏览 1提问于2009-06-29得票数 2

回答已采纳

1回答

硒跨度刮擦

、

我尝试使用selenium来抓取跨度内的数据，我的代码如下所示，输出结果是整个跨度项。"280 -49"，如何清除提醒内的跨度并得到值280。 warrant_bar = driver.find_element_by_xpath('//div[@class="bar tooltip_os'+str(row)+' tooltipstered"]/span').get_attribute("innerHTML") ?

浏览 11提问于2020-07-27得票数 0

回答已采纳

1回答

将结果投到mysql中的站点爬虫/蜘蛛

、、

有人建议我们使用mysql进行站点搜索，因为它将运行在承载web服务器(nginx)和db (mysql)的同一台服务器上。因为并不是所有的页面都是从数据库中创建的，所以有人建议我们有一个爬虫，可以抓取站点，并将页面url和数据丢到mysql中，并在上面有sphinx索引。有没有人知道开放源码蜘蛛，它有一个mysql存储选项。谢谢。

浏览 0提问于2010-02-22得票数 4

回答已采纳

2回答

一份报告的Excel多个值

、

您好，希望在excel中解决问题。以下是我的数据示例:请参阅附件。 ? 我希望只抓取一个条形码对应一个值( Yes/No )，例如，如果我想查看有多少个Yes答案，它是倾斜的，因为每个条形码可以有多个Yes/No值。它将被算作2，而不只是一个值。我希望这是有意义的。我尝试了数据透视表和所有的东西，因为我们需要将条形码设置为不同的计数，但我不知道如何创建一个公式或其他有用的东西。我不能删除多个值，因为每一行都包含我需要的数据，因为这只是一个示例。

浏览 56提问于2020-10-27得票数 0

1回答

关注列表视图的最后一项

、、

可能重复：在滚动列表视图时，当到达列表结束时，我将获取其他批数据，抓取完成后，我希望在滚动之前关注列表视图的最后一项。setSelection()不起作用。有人能给我建议更好的选择吗。

浏览 5提问于2013-01-02得票数 0

1回答

从twitter抓取推文的推文源标签

、、、、

我正在尝试抓取推文的推特来源标签。但是我不能得到它。 import requests as req url="https://twitter.com/AskPayPal/status/1191653088823635969" html = req.get(url) label = html.find('span',class_="css-901oao css-16my406 r-1qd0xha r-ad9z0x r-bcqeeo r-qvutc0") print(label.text) 输出应该是:锂技术。

浏览 9提问于2019-11-05得票数 0

1回答

如何恢复一个爬虫，有能力重新开始它离开的地方off.using网络抓取和python

、

如何恢复一个蜘蛛，有能力重新启动它离开的地方off.using网络抓取和巨蟒。我不能重新启动蜘蛛。

浏览 5提问于2018-11-29得票数 0

1回答

使用BeautifulSoup获取保存在标记中但在同一个类标记中各不相同的ID值

、、、

我正在抓取一个网站，其中我要查找的数据保存在一个div类中： <div class="cat 108070288"> 我可以使用以下命令将它们提取为容器 containers = soup.findAll("div", {"class" : re.compile("cat.*")}) 这为我提供了所需的所有容器。我要找的是“猫的号码”。所以我这样做： for container in containers: print container.get("class") 这将生成如下列表： [u&#

浏览 3提问于2017-06-28得票数 0

1回答

从驼峰路由中的多个端点拉取

我有一个从端点抓取json的路由，我想知道如何扩展它，使路由从多个端点抓取？因此，假设有一个report.2.endpoint、report.3.endpoint等。 from("direct:report").toD("${properties:report.api}/${properties:report.1.endpoint}") .split(jsonpath("$.sectionList[0].items[*]"),new GroupedBodyAggregationStrategy()) .mar

浏览 11提问于2020-09-21得票数 1

1回答

PYTHON:如何使用BeautifulSoup将表解析为pandas数据帧

、、、、

我正在尝试从疾控中心网站上抓取最近7天新冠肺炎报告病例的数据。我试着通过名称，id，类来查找这个表，它总是以类型返回。当我打印抓取的数据时，我也无法在html中手动定位表格。不知道我到底做错了什么。导入数据后，我需要填充pandas数据框以供稍后用于绘图，并将数据表导出为csv。

浏览 1提问于2020-10-18得票数 1

1回答

从regex匹配中获取case类的对象

、

我正在使用scala从网页中抓取数据，但我遇到了将结果解析为某些类-es对象的问题。在下面的片段中，我设法抓取了所有的数据，但是我不知道如何从迭代器中解析3个元素。我想过这样的事情： val a :: b :: c :: _ = result.group(0).iDontKnowWha 我能做些什么呢？ import model.FuneralSchedule import play.api.libs.json.Json import scala.io.Source var date = "2015-05-05" val source = Source.fromURL(&

浏览 3提问于2015-05-22得票数 0

回答已采纳

1回答

如何存储用Scrapy抓取的URL？

、、

我有一个网络爬虫，抓取新闻故事在网页上。我知道如何使用XpathSelector从页面中的元素中抓取某些信息。但是，我似乎不知道如何存储刚刚爬行的页面的URL。 class spidey(CrawlSpider): name = 'spidey' start_urls = ['http://nytimes.com'] # urls from which the spider will start crawling rules = [Rule(SgmlLinkExtractor(allow=[r'page/\d+']),

浏览 2提问于2013-02-27得票数 4

回答已采纳

2回答

有人用Unity尝试过Leap Motion吗？我们不能抓取演示包中的对象

、、

我们已经设置了leap motion，通过按照指令移动DLL，让它在Standard Unity中成功运行，并且可以在运行此演示中的场景时成功跟踪手部位置。但是我们不能在任何场景中抓取物体。我们只让拳击和飞行场景工作，因为这些场景实际上不需要任何手势，简单地向外推就会敲打袋子，或者只是检测手部的相对位置来引起飞行。但是实际的抓取操作我们不能执行，只能在Unity中执行。空域应用程序(方向+自由形式)运行良好，展示台也运行良好。看这个视频短片，我们尝试拳击，ATVDriving和武器的文档，都只是说当碰撞时抓取，但我们已经尝试了很多次，甚至一次都不能执行。戒指应该变成红色，就像这里的，但他们从

浏览 2提问于2014-07-08得票数 0

1回答

如何在Joomla 2.5管理员编辑菜单项页面中创建引用选择下拉菜单？

、、、

我在Joomla 2.5中创建了一个自定义组件，并且我需要引用自定义表来在“菜单管理器:编辑菜单项”页面中形成一个选择下拉列表。我知道组件视图中的default.xml是字段应该驻留的位置。 Joomla在其许多组件中使用此XML从数据库中抓取类别： <field name="id" type="category" description="JGLOBAL_CHOOSE_CATEGORY_DESC" extension="com_content"

浏览 2提问于2012-10-15得票数 1

回答已采纳

1回答

用函数实现R readHTMLTable误差中的网络抓取

、、

我在R中教自己一些基本的表格网页抓取技术。但是，在运行函数readHTMLTable时，我看到了错误。无法为函数“readHTMLTable”找到用于签名“NULL”的继承方法我正在具体地尝试读取第二个表中的数据。我已经检查了页面源代码，以确保表是用<table>和<td>格式化的 release_table <- readHTMLTable("https://www.comichron.com/monthlycomicssales/1997/ 1997-01.html",

浏览 0提问于2019-07-19得票数 3

1回答

有没有办法计算一个特定的单词在R中出现了多少次

、

我是R和网络抓取的新手。出于练习的目的，我正试图从一个假的图书网站上抓取信息。到目前为止，我已经成功地抓取了书名，找到了书名中每个单词的平均长度，找到了最常用的单词，也找到了最常用的单词(不包括停用的单词)。然而，我现在正在尝试找出一个特定的单词出现了多少次。例如，“我”这个词在书名中出现了多少次，但我不确定如何分离出一个特定的词。到目前为止的代码： url<-'http://books.toscrape.com/index.html' url %>% read_html() %>% html_nodes('h3 a') %>

浏览 7提问于2021-04-04得票数 0

回答已采纳

4回答

如何获取图书元数据？

、、、

我的应用程序需要根据提供的ISBN、标题或作者检索有关任何已出版书籍的信息。这并不是一个独特的要求--像Amazon.com，Chegg.com，甚至像Book收集器这样的软件似乎都能轻松地做到这一点。但我无法复制它。为了澄清，我不需要搜索整个数据库的书籍--只有一个有限的子集已经被输入，比如在一个藏书中。数据库只允许我用必要的元数据标记输入的书籍，以便对该子集的图书进行搜索。因此，规模不是问题所在--获取元数据。我尝试过的方案如下：抓取亚马逊。对亚马逊普通页面的抓取不是很好，比如缺少作者，虽然较小的移动页面的抓取速度更快，但它们在提取的健壮性方面有着相同的问题。另外，将其构建到应用

浏览 2提问于2010-07-20得票数 29

1回答

在Python和Beautiful抓取中提取Javascript变量对象数据

、、、

目前，我可以从我使用请求发送的post请求中抓取Javascript数据，然后使用Soup。但我只想刮产品的plu，sku，描述和品牌。我很难找到一种方法来打印我需要的数据，而不是整个脚本。这是在我使用“汤”提取脚本之后打印的文本。我将从多个帖子请求中抓取多个产品，因此块的想法并不适合。 <script type="text/javascript"> var dataObject = { platform: 'desktop', pageType: 'basket', orderID: '', pageName: &

浏览 4提问于2017-04-17得票数 0

1回答

相当于Python inspect的C# / .NET

、、

我过去在Python中使用来协助事后调试非常幸运:它可以很容易地查看错误堆栈，并在出现错误时查看每个帧中的局部变量。我想在 (特别是)中做一些类似的事情。有没有一种现成的方法可以在异常时抓取一组堆栈帧中的所有局部变量？据我所知，.NET StackFrame对象只包含关于代码中框架位置的元数据。我想找一个等价于inspect 'frame‘对象的f_locals和f_globals成员的.NET。理想的答案将在和.NET 2.0中工作。

浏览 2提问于2013-03-22得票数 1

2回答

基于.Net的web爬虫示例

、、、、

我使用的是VSTS2008+ C# + .Net 3.5。我想找一个工具(开源)，爬行的所有网页的网站，以及任何其他领域的网页是由这个网站链接，我想跳过他们(我只需要这个特定领域的页面)。对于抓取的网页，我想将它们存储在本地文件目录中。有没有准备好使用开源工具的示例？

浏览 0提问于2009-09-17得票数 2

回答已采纳

1回答

为什么我的beautifulSoup代码出现一个空的数据框？

、、

我试图在维基百科页面上抓取一个表格，但我无法让我的BeautifulSoup代码工作--它总是显示为一个空的数据框。有什么建议吗？ import requests import pandas as pd from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'} url = "

浏览 7提问于2020-03-09得票数 0

1回答

从json.dump词典中抓取维基百科摘要

、、、、

我希望从SimpleWiki (如果可能的话，通常是任何维基媒体网站)中抓取(所有)页面，以获得摘要(正文中没有的前几段)。然后，我想将这些文件封装到如下形式的字典中： { "title": "Some Wiki title page", "source": "Some Wiki link", "summary": "Some Wiki summary..." } 然后对它们进行json.dump。作为示例，我希望能够获取一个随机页面，如，然后以以下形式拥有它： { "t

浏览 1提问于2021-01-10得票数 0

1回答

如何修复这个文本：'NoneType‘对象没有’AttributeError‘属性？

、、

我正在尝试抓取_3Ay6Sb _31Dcoz类中的mrp。它抛出一个属性错误，我被卡住了。我的想法是从Flipkart中抓取1000个这样的URL，但并不是所有的URL都列出了MRP。我该如何解决这个问题呢？ import requests from bs4 import BeautifulSoup base_url = "https://www.flipkart.com/realme-c15-power-silver-64-gb/p/itm70ebdb8a0fbdf?pid=MOBFUEPQYF27Y72B" def get_urls(): response

浏览 0提问于2021-03-19得票数 0

1回答

如何从api获取youtube的较大缩略图

、

我一直在使用Youtube API抓取选定视频的缩略图，但我需要它们再大一点。我需要更大尺寸的缩略图，目前我只能生成较小的图像。我只是想知道是否有人找到了一种生成略微大一些的缩略图的方法

浏览 0提问于2014-01-26得票数 0

1回答

在javascript执行后，我不能下载页面。页面的最终版本。

、

我正在抓取网站，但由于javascript，有几个网站不能正确显示。所以我需要刮板，它也可以处理javascript和iframes(如浏览器)，并给我的页面的最终输出。我想让这个东西在php上运行，但到目前为止这似乎是不可能的，因为javascript是在客户端执行的，而php是服务器端进程。已尝试file_get_contents & curl。也是最简单的。所以我在c#中寻找解决方案。我发现了selenium，并花了一整天的时间尝试如何设置所有的东西。太糟糕了，selenium还会在javascript执行之前下载页面。我开始感到疲惫和绝望了。有人能给我一些建议吗？

浏览 2提问于2012-02-28得票数 0

回答已采纳

1回答

循环遍历每个打开的WB中的每个WS并解除保护

、、

我需要完成一项涉及整理大量工作簿中的数据的任务，我把它们都放在同一个文件夹中，并且都是*xlsm文件。我已经有了一个宏来抓取每个工作表中的数据，并将其全部输入到主表中，就像我以前做过的那样。现在，如何保护每个工作表的密码以限制用户，我需要：通过每个工作表-Open每个工作簿-loop并使用密码解锁(“我有”) 目前，下面的代码打开每个工作簿，并解锁当前处于活动状态但不循环遍历每个打开的工作簿的工作簿。 Sub OpenFiles() Dim MyFolder As String Dim MyFile As String Dim wb As Workbook Dim ws As Worksh

浏览 4提问于2016-07-01得票数 2

回答已采纳

2回答

将大量的街道地址批量转换为纬度/经度坐标？

、、、

请不要介意任何拼写错误，因为我正在手机上写这篇文章;-) 我有一个巨大的数据库列表，其中包含成千上万的POI街道地址..当然，抓取每个条目(总共58.953个条目)，将其输入谷歌地图，复制粘贴并保存它也是没有用的。所以我的问题是:我如何解决这个问题，并(很可能是用php)获取每个条目的经度/纬度...？有没有可能用google maps api做到这一点？错误率是多少？或者甚至是有限的查询:(？我该怎么做呢？非常感谢

浏览 0提问于2011-10-20得票数 0

回答已采纳

1回答

Python Selenium Webdriver等待元素加载

、

这个想法是为了刮一个网站。通过这样做，我想通过截图来抓取它，然后从屏幕截图中提取数据。因为在我想要的数据中，刮擦不在HTML代码中，老实说，我不知道如何处理它(我对python/编程非常陌生)。到目前为止，它运行良好，但我遇到了一个问题，即WebDriverWait不能正常工作。这是网页：，详细地说，是这个动态部分： <div class="key">Bereits investiert</div> <div class="value" ng-controller="pubSubController as pub

浏览 0提问于2018-11-11得票数 0

1回答

使用h1和Python从多个标记(如具有类的BeautifulSoup和p标记)中提取文本

、

我已经知道了如何从itemprop中提取文本，但是我不能从我粘贴的<div clas="someclass">Extract This Text Here!</div>中提取文本，我只是粘贴了我的代码中不起作用的部分，但是如果需要的话，它会粘贴整个内容。我已经用BeautifulSoup和Python设置了一个变量来获取页面，但是它不会只抓取文本。编辑:一些文本被包装在一个h1标记中，而有些文本被包装在一个具有多个跨度的p标记中。编辑2:所以有些数据在<div class=“someclass”><h1>There’s th

浏览 1提问于2018-08-22得票数 0

回答已采纳

2回答

在Mongo中如何限制数组子元素？

、

假设我在Mongo中有以下数据模型： { _id: ..., name: "...", obj: {...}, list: [ ... ], } 现在假设我的list数组很长，我不想每次都抓取整个文档。所以我想获取obj和name，但只获取list中的最后5个元素。你怎么用Mongo做到这一点呢？我正在使用pymongo。

浏览 0提问于2012-07-22得票数 11

回答已采纳

3回答

Mysql从一个表中选择全部，从另一个表中选择一些使用别名

、

我发布这个问题是因为我确实找到了，但是他们没有使用别名。我有两张桌子--我想从table1抓取所有东西，从table2抓取user_name和Team。我最初的查询是从table2抓取所有东西 SELECT * FROM qabin.allqas t1 JOIN login.users t2 ON (t1.Submitter = t2.user_name) WHERE t1.Status='Complete' 这一切都很好，工作也很好，但我想要的只是user_name和Team 让事情变得更有趣的是，它们位于不同的数据库中，尽管这不是一个问题。一个在qabin数据

浏览 5提问于2016-05-12得票数 0

回答已采纳

2回答

在不使用javascript的情况下重新运行PHP脚本

、

我正在制作一个从网站上抓取某些数据的脚本，如果存在某些条件，可能会迭代网站上的多个页面，新的页面迭代需要重新加载脚本，因为我在PHP中用来获取抓取页面的函数只能被调用一次，当我在浏览器中运行脚本时，我通过简单地使用javascript重新加载解决了这个问题。然而，现在我正在尝试用一个cronjob来设置这个任务，所以javascript不会work...Any建议吗？

浏览 1提问于2012-02-06得票数 0

1回答

如何在Python Selenium中获取WebElement的类名？

、、

我使用Selenium WebDriver从一个用JavaScript编写的网页中抓取一个表。我正在对一个表行列表进行迭代。每一行可以属于不同的类。我想要获取这个类的名称，这样我就可以为每一行选择适当的操作。 table_body = table.find_element_by_tag_name('tbody') rows = table_body.find_elements_by_tag_name('tr') for row in rows: if (row.GetClassName()=="date"): Actio

浏览 11提问于2016-09-25得票数 20

回答已采纳

1回答

使用rvest使用标题名称刮取特定的html表。

、、

试图从特定的生成许可信息表中抓取数据。以下代码适用于我正在循环浏览的大多数建筑许可证： library(rvest) permit_numbers <- c("BP125602", "BP125473", "BP125472") URL <- paste("https://www.nanaimo.ca/WhatsBuilding/Folder", permit_numbers, sep = "/") task_table <- lapply(URL, function(x) { x

浏览 1提问于2020-05-26得票数 0

回答已采纳

1回答

如何使用selenium和python从动态生成的页面中抓取内容？

、、

我尝试了许多次，但都未能以可靠和完整的方式记录我需要的数据。我理解用于自动化简单任务的python和selenium的极端基础知识，但在这种情况下，内容是动态生成的，我无法找到正确的方法来访问并随后记录我需要的所有数据。我要从中抓取内容的URL的结构类似于以下内容： https://dutchie.com/embedded-menu/revolutionary-clinics-somerville/menu 特别是，我正在尝试使用像这样的东西来获取所有信息- browser.find_elements_by_xpath('//*[@id="products-containe

浏览 3提问于2021-05-01得票数 1

回答已采纳

1回答

SimpleXML解析格式问题

、、

有没有一种方法可以解析以下内容： <start_time>2012-01-21 21:00:00</start_time> 但是只解析日期？基本上，我只想把2012-01-21从里面拉出来，然后把时间去掉。我用这个来抓取整个节点： echo 'Start Time:'.$events->start_time.'<br />';

浏览 1提问于2011-12-08得票数 0

回答已采纳

1回答

表、视图、函数的权限访问

、

我有一个视图A，它将从视图B中选择数据。我只希望用户对视图A具有只读访问权限，但不能从视图B中进行选择。因此，我只授予他在视图A上的SELECT权限和在视图B上的REFERENCES权限。它工作得非常好。现在，我有一个函数A，它将从表B中选择数据，我希望Peter可以执行函数A，但不能从表B中选择数据。因此，我做了同样的事情，授予Peter对函数A的EXECUTE权限和对表B的REFERENCES权限。但是，它不能工作，当peter执行函数A时，会抛出错误消息"ERROR: permission denied for relation TableB"，为什么这次不能工作呢？

浏览 0提问于2011-07-18得票数 0

回答已采纳

1回答

无法从此html中抓取div标签

尝试在此页面上执行一些web抓取操作，但未获得任何div标记： import bs4 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://www.smogon.com/dex/rb/pokemon/' uClient = uReq(my_url) page_html = uClient.read() uClient.close() #html parse page_soup = soup(page_html, "html.

浏览 0提问于2020-11-11得票数 0