文本预处理

、、、

在Keras中，我们主要有三种预处理方式，即序列预处理、文本预处理和图像预处理。然而，对我来说，我认为“序列”和“文本”的含义是一样的。如何理解这两种预处理操作的区别？

浏览 0提问于2020-11-17得票数 1

回答已采纳

1回答

使用Orange预处理excel列单元格中包含的文本

、、

我想预处理(小写，删除断句，柠檬化，删除标点符号ecc.)使用橙色软件(由预处理部件)包含在excel文件列的单元格中的文本。我能够获得和看到预处理完成的唯一方法是使用"word cloud“小部件，但是我无法保存一个应用预处理的新excel文件。我该怎么做？谢谢大家总之，我想使用橙对文本进行预处理，并将产生的文本保存为新的文档。

浏览 5提问于2022-03-15得票数 0

1回答

如何在检测lex意图之前为话语创建预处理层/lambda/step

、、、

在检测到意图之前，我想对转录文本进行某种形式的预处理(因为预处理可能会更改原始文本中的某些单词，从而更改生成的意图)。因此，理想情况下，我希望能够在检测到意图之前捕获文本。我需要(1)捕获转录文本(2)对其执行预处理(3)将预处理后的文本发送到lex并让它发挥它的魔力。我可以在中看到一个类似的预处理层，但它假定文本不是基于音频的(链接是与twilio集成的教程)。

浏览 4提问于2020-04-29得票数 0

1回答

文本数据预处理的质量检验

、、

我开发了一个文本数据预处理管道，使用了不同的清理技术，如词干、词条化、停止字词删除等。但现在，业务团队的要求是量化预处理步骤(或它生成的文本数据)的质量。我们如何开发一些度量来评估文本数据的预处理质量？

浏览 0提问于2020-12-07得票数 1

1回答

Thymeleaf解析文本并执行文本表达式。

、

我需要处理该文本，并将th:href="'someLink'"替换为正确的链接，以便用<a href="someLink">Download</a>显示文本。带有链接的文本存储在变量textThatContainsLinks.中。我显示文本的代码是<div th:utext="${textThatContainsLinks}">。我还尝试使用像<div th:utext="${__

浏览 1提问于2017-09-15得票数 1

1回答

以前预处理过的数据

、、

对于每一个文本，我都希望以完全相同的方式对文本进行预处理。我的预处理文本是作为一个列表的文字。不幸的是，scikit-学TfidfVectorizer似乎只接受字符串列表。train_data)是否有一种方法可以使用科学学习TfidfVectorizer直接对这种预处理的数据进行信息检索如果没有，是否可以让TfidfVectorizer进行预处理并在之后重用其<em

浏览 4提问于2015-07-10得票数 1

回答已采纳

1回答

如何部署带有数据预处理的mlflow模型(文本数据)

我开发了keras文本分类模型。我有预处理的数据(标记化)。我已成功记录训练好的模型(mlflow.keras.log_model)。我已经使用mlflow服务为模型服务了。现在，在对文本数据进行预测时，我需要使用用于训练的相同标记器对象进行预处理。如何预处理测试数据并从服务模型中获得预测。

浏览 8提问于2020-03-13得票数 2

回答已采纳

3回答

使用Hadoop预处理文本消息的最佳方法

、、

我正在使用Hadoop处理文本消息(SMS)。但我不确定对这些数据进行预处理的最佳方法，以便进行有效的搜索。例如，在对数据进行预处理之后，如果有人搜索“NY”，我将能够显示包含单词“NY”的消息。建议将预处理后的数据写入xml文件而不是数据库。注意:我在一个.csv文件中有大约200K的文本消息。

浏览 0提问于2011-07-01得票数 0

1回答

快速文本预处理模型的文本预处理

、、、

我想使用预先设定的快速文本模型来检测语言：。在哪里可以找到--用于训练这个特定模型的文本预处理的确切Python代码？我不感兴趣的一般答案，我们应该如何准备文本使用模型-我可以寻找相同的转换，用于培训。

浏览 1提问于2021-11-05得票数 0

回答已采纳

1回答

将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)

、、

我一直在关注TensorFlow文本分类教程()，对IMDB评论进行分类。IMDB数据是keras发行版的一部分，并经过下载和预处理。我想用我自己的文本做实验。有没有一种有效的方法将我自己的文本预处理成word->int表示？我尝试过使用字典、元组和排序，但效率非常低。我有种感觉，有一种更有效的方法。我浏览了nltk和keras预处理工具，但可能忽略了其中的一些内容。

浏览 0提问于2019-06-30得票数 0

1回答

这些代币是在预处理后还是在预处理过程中计算的？

、

在预处理过程中，我们通常会扫描所有的macros，但是我有点困惑，因为预处理程序也会生成标记，这些标记实际上是由词法分析器获取的，它会进一步扫描输入文件，我已经研究过这个，并且提到预处理令牌可以分为五个大类:标识符、预处理数字、字符串文本、标点符号和其他，那么在预处理状态期间生成的令牌是否仅为？

浏览 0提问于2015-12-05得票数 0

回答已采纳

1回答

、、

目标是：输入:作者致力于训练一个预测的种子。我有原始文本，一个包含几千行文本的平面文本文件。以下是我的文本：The Wild West\n Ha ha, ride\n All you see is the sun reflectin\' off of the --SNIP本质上，我想从种子中生成文本。这是正确的做法吗？还是说更好

浏览 2提问于2016-10-22得票数 2

1回答

哪种格式更适合出版书籍数据集(普通的还是预处理的)？

、

当我决定出版作为一个数据集的书籍文本集合时，我是应该先做一些预处理，还是应该发布“纯文本”？例如，https://huggingface.co/datasets/bookcorpus是作为句子的集合发布的(因此完成了基本的预处理)，但是https://huggingface.co/datasets/bookcorpusopen是用原始文本发布的。

浏览 0提问于2022-06-21得票数 1

回答已采纳

1回答

我想使用python 2实现一个分类应用程序，在进行分类之前，应该对文本进行预处理。分类器和预处理器在不同的包中。然后在分类包中在类中创建了一个preprocessing class对象。这是我的项目探险家preprocessing class def预处理(self，file)：inputFile = "text“outputFile = "plainText.txtstopWrdsObj.removeStopwords( text ) text= text

浏览 1提问于2016-09-02得票数 0

2回答

文本预处理

、

我有一条这样的文本：我需要对zhe文本进行标记化:每行一个单词，在句子的末尾有一个空行。问题是，有些句子没有“。在最后。所以我需要把".“如果有nu标点符号，则换行。

浏览 2提问于2017-05-15得票数 2

1回答

C预处理器:动态#定义创建

、、

我希望扩展这些C预处理器行：_POUND_ _FALSE 0展开最后一行(即_FALSE)扩展到0 )。

浏览 5提问于2016-05-05得票数 0

回答已采纳

1回答

条件执行不适用于这种情况下的代码？

为什么没有执行#ifdef INITIALISATION和#endif中的代码？ { #if DLEVEL > 5 #endif { Display(); // This line is never being executing :: please hel

浏览 2提问于2021-03-28得票数 0

2回答

C11标准的源文件到底是什么？

、

程序的文本保存在本国际标准中称为源ﬁles (或预处理ﬁles)的单元中。源ﬁle连同通过预处理指令#ﬁ包括的所有标头和源ﬁles被称为预处理转换单元。起初，它说程序的文本保存在一个叫做源文件的单元中。在此之后，源文件连同头文件和源文件被称为预处理翻译单元。因此，源文件是与头文件有关的不同实体，还是包含两者的源文件？

浏览 6提问于2014-11-17得票数 3

2回答