我正在建设一个NLP管道,我试图让我的头脑在优化的结构。我目前的理解如下:
从我在网上读到的内容来看,有几种关于特征提取的方法,但是没有一个可靠的例子/答案。
提前谢谢你
发布于 2019-07-02 04:17:59
预处理管道主要取决于您要解决的问题。TF-以色列国防军、字嵌入等的使用有自己的限制和优势。
您需要了解问题以及与其相关的数据。为了充分利用这些数据,我们需要实现适当的流水线。
特别是对于与文本相关的问题,您会发现单词嵌入非常有用。在需要解决问题时,TF-以色列国防军是有用的,它强调频率较低的词语。另一方面,字嵌入将文本转换为N维向量,而N维向量可能显示出与其他向量的相似性。这可能会给您的数据带来一种关联感,并且模型可以学习到可能的最佳特性。
在简单的情况下,我们可以使用一袋文字表示来标记文本。
因此,您需要找到解决问题的最佳方法。如果您解决的问题与著名的NLP问题非常相似,比如IMDB审查分类、Twitter数据上的情感分析,那么您可以在互联网上找到许多方法。
https://stackoverflow.com/questions/56851945
复制相似问题