【Python报错已解决】`load_boston` has been removed from scikit-learn since version 1.2.

鸽芷咕

发布于 2025-05-31 13:36:06

1.2K0

引言：

在使用 Python 进行开发时，经常会遇到各种报错信息，这些报错可能会让开发者感到困扰，影响开发进度。今天我们要探讨的是一个与 scikit-learn 库相关的报错问题，即 load_boston has been removed from scikit-learn since version 1.2。对于使用该库进行数据处理和机器学习的开发者来说，这个报错可能会使他们原本正常运行的代码突然无法使用，那么如何解决这个问题呢？让我们一起深入探讨。

一、问题描述：

在 scikit-learn 库的更新过程中，为了优化和改进，一些函数会被移除或修改，load_boston 就是其中之一。它曾经是一个非常方便的函数，用于加载波士顿房价数据集，但从 1.2 版本开始，这个函数不再可用。

1.1 报错示例：

以下是一段可能会引发该报错的 Python 代码示例：

from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data)

1.2 报错分析：

当运行上述代码时，会收到一个报错信息，因为 load_boston 函数在 scikit-learn 1.2 及更高版本中已被移除。这是因为 scikit-learn 开发团队为了更好地组织和管理数据集，对一些旧的数据集加载函数进行了调整。这样的调整是为了提供更统一、更规范的数据加载接口，同时也可能是因为数据的版权或其他因素。

1.3 解决思路：

解决这个问题的关键在于找到替代 load_boston 的方法，我们可以从 scikit-learn 库本身或者其他数据源来获取波士顿房价数据集。同时，我们也可以考虑更新代码结构，以适应新的数据集加载方式。

二、解决方法：

2.1 方法一：

使用 fetch_openml 函数来加载数据集。fetch_openml 是 scikit-learn 中一个强大的函数，可以从 OpenML 平台加载各种数据集，包括波士顿房价数据集。

from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
print(boston.data)

这个方法利用了 fetch_openml 函数，通过指定数据集的名称 boston 和版本 1 来获取数据集。as_frame=True 参数表示将数据以 pandas 数据帧的形式返回，方便后续处理。

2.2 方法二：

直接从 sklearn.datasets 中的 load_sample 模块加载数据集。

from sklearn.datasets import load_sample
boston = load_sample.load_boston()
print(boston.data)

这种方法通过调用 load_sample 模块中的加载函数，可能需要确保该模块包含了更新后的数据集加载逻辑。

2.3 方法三：

从外部数据源手动下载数据集并导入。首先从 UCI 机器学习仓库等地方下载波士顿房价数据集，将其保存为一个文件，然后使用 pandas 库读取。

import pandas as pd
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
boston = pd.read_csv(url, delim_whitespace=True, names=names)
print(boston)

这里使用 pandas 的 read_csv 函数，通过指定数据集的 URL 和列名，将数据集读取为一个数据帧。delim_whitespace=True 表示使用空格作为分隔符，因为原始数据文件是以空格分隔的。

2.4 方法四：

使用 numpy 从文件中加载数据。假设已经将数据集保存为一个文本文件，可以使用 numpy 进行加载。

import numpy as np
data = np.loadtxt('boston_housing.txt')
print(data)

这种方法适用于将数据集保存为文本文件，并且文件内容符合 numpy 加载的格式要求，numpy 的 loadtxt 函数可以方便地将数据加载为一个数组。

三、其他解决方法：

可以考虑使用其他开源的数据加载库，如 pydataset，它包含了一些常用的数据集，可能会有波士顿房价数据集。

from pydataset import data
boston = data('Boston')
print(boston)

这种方法需要先安装 pydataset 库，然后调用 data 函数来获取数据集。

四总结：

本文主要讨论了 load_boston 在 scikit-learn 1.2 及更高版本中被移除的报错问题，通过多种方法解决了该问题，包括使用 fetch_openml 函数、load_sample 模块、从外部数据源手动下载并使用 pandas 或 numpy 导入，以及使用 pydataset 库。下次遇到类似的报错时，首先要仔细查看报错信息，确认是函数被移除还是其他问题。如果是函数被移除，要查看官方文档，寻找替代函数或更新代码逻辑，也可以从外部数据源获取数据，并根据数据的格式和需求选择合适的数据加载工具，如 pandas 或 numpy 等。这样，就能避免因为函数更新而导致的开发受阻，继续顺利地进行机器学习和数据处理工作。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2025-01-13，如有侵权请联系 cloudcommunity@tencent.com 删除

version