我正试着从刮掉的数据中删掉几个字。
3 Bedroom, Residential Apartment in Velachery
有许多这样的数据行。我想把“卧室”这个词从绳子上去掉。我用漂亮的汤和蟒蛇来刮网页,这里我用的是
for eachproperty in properties:
print eachproperty.string[2:]
我知道上面的代码会做什么。但我想不出怎么才能把“卧室”移走
我刚开始吃蟒蛇。我试图在网上刮一个网站,以获取价格和标题从它。我已经看过多个教程和博客,最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站,那么就可以使用beautifulsoup。It can use builtin libraries请推荐我一个博客、文章或教程,这样我就能学到
我试图从这个网站上搜集数据:
一开始,熊猫把我弄出了大门,我可以刮桌子,但我却在挣扎着下垂的菜单。我想选择总分框旁边的选项,这些选项是PUB、CIT等。当我检查元素时,它看起来可能是Javascript,而对这些选项进行交互的常用方法不起作用。我已经尝试过贝蒂法尔汤和最近的硒,以选择下降下降的手。这适用于默认的表数据“”
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import Select
driver = webdriver.Chrome
for h3 in soup.find_all('a'):
print((str(h3.text)),file=open("demo.txt", "a"))
上面是我刮网站的代码行。我用漂亮的汤和硒来刮这个网站。它说的第一行“一个”标签汤找到了所有。然后打印这些标记的文本,并在文件demo.txt中打印它。
由于某种原因,我不得不加上"a“,作为全文的附件,以便打印出来。用"w“只打印一行。我正在寻找一种关闭demo.txt文件的方法,以便它能够不断地附加到同一个文件中。
这也将有助于学习如何从文本文件中删除某些行。例如
我有一个查询,因为我一直在刮一个网站"“,因为我无法从表中给定的链接中抓取电子邮件id。虽然需要从给定表格中的链接中刮取姓名、电子邮件和董事。请任何人,解决我的问题,因为我是一个新手,使用python与美丽的汤和要求的网页刮。
谢谢你,迪克沙
#Scraping the website
#Import a liabry to query a website
import requests
#Specify the URL
companies_list = "https://www.zaubacorp.com/company-list"
link = requests.
我有一张桌子
Id | Name | Num
----------------
#1 | a | 3
#1 | b | 4
#2 | a | 1
#2 | e | 2
想把它重组成
| a | b | e
---------------
#1 | 3 | 4 |
#2 | 1 | | 2
我可以用熊猫库在蟒蛇上做,但是当数据集很大的时候,它会非常慢。我想知道它是否可以用SQL来完成。