目前我有一个很大的CSV文件(大约5 5GB),我试图逐行读取整个文件,并尝试应用最典型的算法(SVM、朴素贝叶斯、线性回归等)。
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import csv
i_f = open('top2Mmm.csv', 'r' )
reader = csv.reader( i_f, delimiter = ';' )
for row in reader:
print("Fila ->", row)
我刚刚阅读了CSV,但我不知道如何每一行都建立一个模型。我从一个较小的文件开始,以加快这个过程,但我不知道如何让这个过程正常工作。有什么线索或提示吗?
发布于 2017-05-29 10:48:09
您可以使用Pandas Dataframe对象加载CSV,并以这种方式操作数据。
如果需要,您还可以遍历数据帧。
df = pd.read_csv('top2Mmm.csv', sep=';')
for index, row in train.iterrows():
print(row['fieldName'])
发布于 2017-05-29 10:48:14
将数据(行)分成要素(X)和标签(Y)。然后,您可以将它们应用于,例如,SVM。
from sklearn.svm import SVC
clf = SVC()
clf.fit(X, y)
https://stackoverflow.com/questions/44240145
复制相似问题