课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
6分钟

数据格式

1. xgboost 的数据存储在DMatrix 对象中

2. xgboost 支持直接从下列格式的文件中加载数据:

  • libsvm 文本格式的文件。其格式为:

 [label] [index1]:[value1] [index2]:[value2] ... 
 [label] [index1]:[value1] [index2]:[value2] ... 
 ...
dtrain = xgb.DMatrix('train.svm.txt') #libsvm 格式
dtest = xgb.DMatrix('test.svm.buffer') # xgboost binary buffer 文件

3. xgboost 也支持从二维的numpy array 中加载数据

data = np.random.rand(5, 10)  
label = np.random.randint(2, size=5) 
dtrain = xgb.DMatrix(data, label=label)#从 numpy array 中加载

4. 你也可以从scipy.sparse array 中加载数据

csr = scipy.sparse.csr_matrix((dat, (row, col)))
dtrain = xgb.DMatrix(csr)