Web抓取子类或清理返回的html

文章/答案/技术大牛

发布

2回答

、、、

我正在尝试从rotowire获得MLB比赛的赔率和总得分。我已经尝试了两种方法，虽然我可以接近，但不太清楚我下一步需要做什么。第一种方法看起来像是我需要抓取子类的“复合隐藏”。我采取的另一种方法返回一堆新行和其他额外字符，尽管我试图只获取文本并去掉这些字符。//www.rotowire.com/baseball/daily-lineups.php' soup = BeautifulSoup(r

浏览 13提问于2021-06-02得票数 1

回答已采纳

1回答

清理抓取的HTML列表

、、

使用BeautifulSoup，我可以得到一个非常脏的列表(包括许多无关的项目)，我想要清理它，但是我试图“清理”这个列表时，它并没有改变。 #1).Weapons'weapons_soup = BeautifulSoup(weapons_page.content, 'html.parser

浏览 7提问于2020-09-21得票数 0

回答已采纳

1回答

如果我需要从网页中提取json数据，那么该网页必须包含某种json类型的数据，或者我们可以从任何类型的网页中提取jason数据？

、

我写了下面的代码作为对json文件的练习，我不能从网页中提取json数据，请更正代码并帮助我，什么样的网页适合于提取json文件，或者我们可以从任何类型的网页中提取json。

浏览 13提问于2020-02-03得票数 0

回答已采纳

1回答

我是python的新手，刚刚开始学习使用漂亮的汤(在Jupyter notebook中)进行web抓取。我从古腾堡项目上刮了一本书，想做翻译。然而，在清理文本时遇到了困难，随后进行了翻译。我想去掉抓取文本开头的东西(颜色{e.g.BODY: Black；background:白色；....)然后使用google API翻译整个文本。将会对这两方面的帮助/建议表示感谢。到目前为止，我的代码是管道转换代码不起作用，并返回以下错

浏览 0提问于2021-05-12得票数 1

2回答

尝试将数据从网站加载到json文件中。

、、

m=1" print(r.text)print(r.json)继续：：import json“，s，err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数

浏览 2提问于2020-05-10得票数 0

2回答

使用XMLHttpRequest时，单源策略妨碍了我

、

我想建立一个使用javascript的本地html页面，它显示了从API调用这个网站返回的一些结果。我的第一个想法是使用XMLHttpRequest，它不会从站点返回任何内容--这是由于单一来源策略造成的已知问题。我无法控制API返回的内容--要么返回XML，要么什么都不返回。我非常希望我的解决方案保持简单--只有HTML和javascript，没有php、as

浏览 4提问于2013-11-11得票数 0

1回答

使用Iframe嵌入csv并允许用户从中进行搜索

、、、

我这里有一个简单的html/jscript代码，它允许用户输入一个关键字并将结果从示例csv数据(在此代码中模拟为var CSV )返回到HTML中的表格格式，现在我希望使用嵌入CSV的iframe，而不是将我的DB引用到这个模拟的CSV，我该如何做？这段代码运行良好，但我需要将我的搜索数据库指向iframe。提前谢谢你。<html> <title>

浏览 2提问于2016-01-15得票数 0

4回答

ASP.NET将PDF写入文件系统

、、、、

我有一个报告，当前我允许用户在提供报告参数(日期范围、过滤器等)时选择输出选项(HTML或PDF)。我想更改报表，使其始终执行HTML，并在呈现的HTML页面上放置一个链接，以便用户可以在需要时抓取PDF。如何修改我的IIS6/IIS7配置、用户权限等，以允许我的站点将PDF写入文件系统？我计划创建具有随机文件名的PDF，并添加一个进程来清理旧的PDF，这样我就不会有磁盘空间问题。这是一

浏览 1提问于2009-03-26得票数 2

回答已采纳

1回答

使用Rails获取google搜索结果

、

我一直在寻找一种使用RoR检索谷歌搜索结果的方法。我可以看到，以前只有通过抓取HTML页面(Scruby，Nokogiri，Mecheanize…)才能做到。我想知道，第一，如果这是合法的，第二，我并不是真的理解，你怎么能依赖另一个网站的HTML和CSS -如果它在第二天改变了会发生什么……也许我漏掉了什么？然后我看到Google提供了一个API来做这件事，但是我找不到任何处理它的Rails插件。谢谢:-)。

浏览 0提问于2011-10-30得票数 0

回答已采纳

2回答

从网页中提取值的更有效的方法是什么？

、、

我需要从一个网站检索一个值(可以变化，我没有控制的网站)。我现在有一些代码可以工作..。但跑步需要很长时间。我知道有一个大大改进的方法，我只是不知道这是什么。但如果不试一试，我就不知道什么才是最有效的。我相信还有更多的可能性。 result += sLine Loop Dim startTag as string ="<some html，但是

浏览 4提问于2012-06-26得票数 2

回答已采纳

1回答

for循环中的多处理

、、

我读过有关多处理包和线程模块的文章，但我不太确定如何在我的例子中使用它，尽管我仍然认为实现它会使我受益。我目前正在编写一个处理和抓取一堆HTML文件的管道。我的清理方法遍历所有HTML文件并对它们进行处理，方法是调用另一个提取数据并返回熊猫数据帧的方法。清理方法目前正在等待一个文件完成解析，这就是为什么我认为多处理在这里会有所帮助。我不太确定线程或多处理是正确的

浏览 2提问于2021-10-27得票数 0

回答已采纳

1回答

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

、

我目前正在抓取一个网站，以便能够在本地对数据进行排序，然而，当我这样做时，代码似乎不完整，我觉得在我滚动网站以添加更多内容时，可能会发生变化。这会发生吗？如果是这样的话，我如何确保我能够抓取整个网站进行处理呢？我目前只知道一些python和html用于web抓取，正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。我希望在抓取网站时得到50个名字的列表，但它只返回13个。我已经下载了整个<

浏览 0提问于2019-01-02得票数 0

1回答

如何在R中从抓取的网页中分离出单个元素

、、、

我想使用R来抓取这个页面：( )和其他页面，以获得目标得分者和时间。results/matches/match=97410001/report.html"webpagecont- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE) 并且pagetree对象现在包含一个指向我解析的h

浏览 1提问于2010-06-08得票数 12

回答已采纳

1回答

MS web刮刀返回"&“代替"&”

、

我正在使用Access VBA做一些网络抓取。Mon&day，它实际上返回Mon&day。我正在使用IE对象进行web抓取。Set ie = CreateObject("InternetExplorer.Application")tdRow(subCounter).innerHTML 我知道&是<e

浏览 2提问于2019-12-29得票数 1

回答已采纳

3回答

如何使用javascript匹配和删除空格html标记？

、、、

我需要从HTML字符串中去掉空格标记。我所说的“标记”是指任何包含实体或字符的空HTML元素，这些实体或字符将在web浏览器中呈现为空白。zwnj;</p>Test <div> </div><br/><span> okay </span>Test <span> okay </span> 重点是从DO

浏览 2提问于2018-03-08得票数 1

2回答

清理抓取结果以返回锚点文本，而不是HTML

、、

我正在尝试从给定的URL中获取曲棍球棒的价格。最终，我也想抓取名称+URL，但我不认为这是解决这个问题的必要方法。Gecko) Chrome/73.0.3683.103 Safari/537.36'} soup = BeautifulSoup(page.text, 'html.parserproduct-title') stick_prices = soup.find_all(class_='r

浏览 15提问于2019-05-02得票数 1

回答已采纳

1回答

Ruby on Rails从另一个站点拉取信息

、、、

我有一个ruby on rails项目，在那里我必须制作一个新闻页面，但我不想只是将文章放在数据库中(这将花费太长时间)，无论如何，您可以从另一个网站提取信息，并将其显示在您自己的网站上。

浏览 0提问于2013-06-27得票数 0

回答已采纳

1回答

我需要有关创建Windows 7小工具的帮助

、、、、

我需要创建一个Windows7小工具(或Widget)作为一个小项目。我知道如何创建一个基本的HelloWorld小工具(包括xml清单和html页面)，但我不知道如何创建一个复杂的小工具。我的公司使用一个bug跟踪软件(比如XYZ)。我的小部件需要能够访问和显示来自XYZ的关于bug的数据，给定bug ID或其他搜索条件。请帮帮忙。

浏览 2提问于2015-01-16得票数 0

1回答

如何从YouTube通道将HTML标记更新为总视图值？

、

然后用HTML文件中的总视图更新段落标记。我该怎么做？我知道Python语言可以很容易地做到这一点，但是使用Javascript可以吗？提前谢谢你。

浏览 5提问于2021-12-16得票数 -1

回答已采纳

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

、、

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

点击加载更多