有时候我们想爬的数据是表格样式,(网页好丑,大家将就一下)如下图。好消息是在页面html中能找到对应的数据
但坏消息是虽然数据存在于网页内部,没有可用来获取原始数据的API。 所以,现在你必须花费精力去解析网页。 这并不难,但是浪费时间,你可以用更加事半功倍的方式去解决。
pandas
世上都说Python大法好,pandas库提供了内置的方式可以读取html文件,并从中抽取出表数据。
pandas会在网页中寻找任何符合html表形式的数据,并将其转化WieDataFrame对象作为返回结果。
Code
pandas使用方法
实战代码开始
注意啊,这里得到的数据格式是list。
DataFrame对象df.to_json()
而只要知道数据存储在DataFrame中,一切都变的简单起来。 比如我很希望数据以json记形式输出,很简单!这只是一行代码的事情。
df.to_csv()
dataframe对象,还可以将数据输出保存为csv文件
这里输出的虽然是csv文件,但是没有达到预期,不晓得是怎么回事。建议大家对数据做一下处理再保存到csv中。
数据采集文本处理分析图片数据处理其他
领取专属 10元无门槛券
私享最新 技术干货