是否总是需要从导入的CSV中移除头部以进行培训?
这就是我拥有的..。
raw_data_df = [pd.read_csv(
file, header=None, skiprows=[0], low_memory=False) for file in input_files]
train_data_df = pd.concat(raw_data_df)跳过标头时使用header=None和skiprows=[0],并将其传递给LogisticRegression().fit()
还是保留标题更好?
发布于 2020-11-11 21:34:44
如果所有文件中的标题都是相等的,那么您可以保留它们。或者只保留第一个文件的头。
有一个标题的优点是,当您运行逻辑回归时,您可以很容易地找出哪些系数属于哪个列名(因此哪些系数是最重要的)。
例如:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train, y_train)
df_lr_coef = pd.DataFrame({
'features': lr.classes_,
'coefficients': lr.coef_,
'coef_abs': np.abs(lr.coef_),
}).sort_values(by='coef_abs', ascending=False)https://stackoverflow.com/questions/64791347
复制相似问题