我目前正在使用Apache在Scala中编程的FlinkML编写一个讨厌的语音过滤器。
我有一个庞大的.csv训练数据集,其中包含如下行:
id,count,hate_speech,offensive_language,neither,class,tweet
326,3,0,1,2,2,"""@complex_uk: Ashley Young has tried to deny that bird s*** landed in his mouth ---> http:**** https:****"" hahaha"
我的问题是,
我试图用SVC在sklearn上解决一个文本分类问题。我还想检查哪一个向量器最适合我的数据:单词包CountVectorizer()或TF-IDF TfidfVectorizer()
到目前为止,我所做的是分别使用这两个向量器,一个接一个,然后比较它们的结果。
# Bag of Words (BoW)
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
features_train_cv = count_vectorizer.fit_transform(
我正在尝试应用计数矢量器对印地语和印地语,这是印度language.But,矢量器是自动词条。
count_vect = CountVectorizer()
xv=count_vect.fit_transform(['she is a good girl','वो बहुत सुन्दर है','ఇది చాలా లాడిష్ మరియు బాల్య టీనేజ్ కుర్రాళ్ళు మాత్రమే దీనిని ఫన్నీగా చూడవచ్చు', 'దోపిడీ మరియు ఎక్కువగా లోతు లేదా అధునాతనత