从UCI机器学习存储库将数据集(.data和.names)直接读取到Python DataFrame中,可以通过以下步骤实现:
import pandas as pd
import urllib
url_data = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
data = urllib.request.urlopen(url_data)
df = pd.DataFrame()
for line in data:
line = line.decode("utf-8") # 将字节数据解码为字符串
line = line.strip() # 去除行尾的换行符
line_data = line.split(",") # 将每行数据按逗号分割为列表
df = df.append(pd.Series(line_data), ignore_index=True) # 将列表转换为Series,并添加到DataFrame中
url_names = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.names"
names = urllib.request.urlopen(url_names)
feature_names = []
for line in names:
line = line.decode("utf-8")
if line.startswith("1."):
feature_name = line.split(":")[0].strip()
feature_names.append(feature_name)
df.columns = feature_names
现在,数据集已经成功读取到了Python DataFrame中。你可以使用pandas库提供的各种函数和方法对数据进行处理、分析和可视化。
注意:以上代码示例中的数据集是UCI机器学习存储库中的鸢尾花数据集,你可以根据需要修改URL地址来读取其他数据集。另外,为了简化示例,没有进行异常处理和数据类型转换,实际应用中可能需要根据具体情况进行适当的处理。
领取专属 10元无门槛券
手把手带您无忧上云