我正在学习BeautifulSoup,发现了许多"html2text“解决方案,但我正在寻找的解决方案应该模仿格式:
<ul>
<li>One</li>
<li>Two</li>
</ul>
会变成
* One
* Two
和
Some text
<blockquote>
More magnificent text here
</blockquote>
Final text
至
Some text
More magnificent text here
Final text
我在看
我正在使用美汤来编辑一个html文件。我已经能够添加标记,但是在script元素中添加javascript代码时遇到了问题。
我有以下代码:
soup = BeautifulSoup(differencehtml, 'html.parser')
# create a new tag
tag = soup.new_tag("script")
tag.append = jscodestring # this is not adding the javascript to the html file
# tag.string = jscodestring # al
我想为我的主页创建内容片段。一个示例文章看起来就像
<p>Your favorite Harry Potter characters enter the Game of Thrones
universe, and you'll never guess what happens!</p>
<readmore/>
<p>...they all die</p>
在主页上,我只希望<readmore/>出现之前的内容。我在想,我可以在金佳过滤器中使用美丽的汤来删除阅读和之后的所有内容。如果没有<readmore
我想在字符串中处理带有html标记的文本。
考虑一下字符串
str = "before <b>This text is bold</b> after. <i>italic</i>"
为了提供更多的上下文,我使用PIL ImageDraw对象来编写具有指定宽度的包装文本。代码的一部分如下所示
rect = Rectangle(x,y,width,height)
curx = rect.x
cury = rect.y
for word in allWords:
wordWidth, wordHight = fo
我想从当地一家电影院的网站上刮点东西,当某部电影在运行时,我会一直拍下去。
我找到了一张表格,其中列出了如下形式的时间:
[<time datetime="2020-01-31T21:15:00+01:00">21:15</time>].
如果我用漂亮汤作为x.find_all(“时间”)。我得到了上面所示的所有时间。但我只想要“日期时间”,所以在本例中,2020-01-31T21: 15: 00 + 01: 00。现在当我搜索x.find_all(‘time’)‘日期时间’时,我得到以下错误:
TypeError: list indices must
我在试着 刮擦 一些网站上有很好的汤,但是我不能让它工作。在网站上有一个主要的div,我用下面的代码实现了这个div: for divs in soup.find_all('div', {'class': 'row div-1'}): #I'm taking main div
innerDivs = divs.find_all('div') #Taking inner div's in main div
for inner in innerDivs: #loop for all inner
我想做的是把下面的网站
view-source:
并选择执行的年份,输入最后一个语句链接,并检索语句.也许我会创建两个字典,都是以执行号为键的。
之后,我会根据语句的长度对语句进行分类,除了“标记”之外,还会拒绝给它,或者只是没有给出。
最后,所有这些都将在一个SQLite数据库中编译,我将显示一个图表,显示每年按类型分组的消息数量。
美汤似乎是要走的路,我已经有麻烦了,只是印刷一年的执行.当然,我对打印执行年数并不感兴趣,但这似乎是检查至少我的代码是否正确地定位了我想要的标记的好方法。
tags = soup('td')
for tag in tags:
print(
作为标题,我尝试使用read_html,但出现以下错误:
In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml')
File "<string>", line unknown
XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6
我做错了什么?
更新01
HTML在顶部包含一些javascript,然后是一个html表。我使用R来处理它,通过解析html by XML
我想在强标签中选择文本,但是没有div在下面.
是否有可能直接用汤汁做这件事?
我对选择的尝试(不起作用,在强标记中选择完整的内容):
Elements selection = htmlDocument.select("strong").select("*:not(.dontwantthatclass)");
HTML:
<strong>
I want that text
<div class="dontwantthatclass">
</div>
</strong>
<p>
A
<span>die</span>
is thrown \(x = {-b \pm
<span>\sqrt</span>
{b^2-4ac} \over 2a}\) twice. What is the probability of getting a sum 7 from
both the throws?
</p>
在上面的html中,我只需要删除“(标记)”中的标记,即\(x = {-b \pm <span>\sqrt</span> {b^2-4ac} \
四年前有人问过,但现在BS4的答案已经过时了。
我想要删除我的html文件中的所有评论使用美丽的汤。因为每个都是由BS4创建的,所以我认为下面的代码会起作用:
for comments in soup.find_all('comment'):
comments.decompose()
所以那不管用...如何使用BS4查找所有评论?