在pandas中,我试图从col2中出现的单词中展开一袋单词。我的主要目标是找到每个不同类别中所有独特的单词及其频率。如果一个词在一个类别中出现两次,将计入1(例如"msk“和"people")。workspace , ltd ] Services [happy , people , party , new ]
我的<
我想训练一个系统来根据字符串中的内容自动分类一个项目的各种属性。,当在同一属性上存在“竞争”的值时,如何将正确的值分配给属性。假设某只基金可以同时拥有Strategy: Long-Short和Strategy: High Yield,这两个术语都存在于基金名称中。该系统应根据培训数据集中存在的历史偏见选择正确的系统。我是一个机器学习的完全初学者,除了一些基本的统计知识,所以我只是想指出一个总的方向。
这能/