如何使用TF 2.0从巨大的二进制数据中生成训练数据集？

使用TF 2.0从巨大的二进制数据中生成训练数据集的方法可以通过以下步骤实现：

导入TensorFlow库和其他必要的库：

import tensorflow as tf
import numpy as np
import os

定义数据集生成器函数：

def data_generator(data_dir, batch_size):
    # 读取二进制数据文件
    data = np.fromfile(data_dir, dtype=np.float32)
    # 根据数据大小计算总的样本数
    num_samples = len(data) // input_size
    # 将数据重塑为合适的形状
    data = data.reshape((num_samples, input_size))
    # 创建一个无限循环的生成器
    while True:
        # 随机打乱数据
        np.random.shuffle(data)
        # 生成批量数据
        for i in range(0, num_samples, batch_size):
            batch_data = data[i:i+batch_size]
            yield batch_data

定义模型和训练过程：

# 定义模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(input_size,)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(num_classes, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 创建数据集生成器
train_generator = data_generator(train_data_dir, batch_size)

# 训练模型
model.fit(train_generator,
          steps_per_epoch=train_steps_per_epoch,
          epochs=num_epochs)

在上述代码中，需要根据实际情况设置输入数据的大小（input_size）、类别数（num_classes）、训练数据目录（train_data_dir）、批量大小（batch_size）、每个训练周期的步数（train_steps_per_epoch）和训练周期数（num_epochs）。

这种方法通过生成器函数从二进制数据中逐批次读取数据，并将其用于模型的训练。由于数据量巨大，无法一次性加载到内存中，因此使用生成器可以有效地节省内存并实现高效的训练过程。

推荐的腾讯云相关产品：腾讯云AI智能机器学习平台（https://cloud.tencent.com/product/tfsm），该平台提供了强大的机器学习和深度学习工具，可用于处理大规模数据集并训练模型。

如何使用TF 2.0从巨大的二进制数据中生成训练数据集？

、、

我有一个超过15G的二进制数据集。我想使用TF 2.0提取用于模型训练的数据。目前我正在做的是： import numpy as np import tensorflow as tf data1 = np.fromfile('binary_file1', dtype='uint8') data2 = np.fromfile('binary_file2', dtype='uint8') dataset = tf.data.Dataset.from_tensor_slices((data1, data2)) # then do so

浏览 21提问于2019-10-23得票数 1

2回答

TF2.0data API从每个类标签获取n_i示例

、、、、

我必须使用TF2 Keras模型将形状为32x32的输入分类为3类。我的训练集有7000个示例 >>> X_train.shape # (7000, 32, 32) >>> Y_train.shape # (7000, 3) 每一类的示例数量各不相同(例如，class_0有大约2500个示例，而class_1有大约800个示例，等等) 我想使用tf.data应用程序接口创建一个dataset对象，该对象返回一批批不带no的训练数据。由[n_0, n_1, n_2]指定的每个类的示例。我想从每个班级随机抽取这些n_i样本，并从X_train, Y_train

浏览 0提问于2019-08-17得票数 3

1回答

如何从Pandas DataFrame到Tensorflow BatchDataset进行NLP？

、、、、

老实说，我正试图弄清楚如何将数据集(格式:熊猫、DataFrame或numpy数组)转换成一种简单的文本分类tensorflow模型可以用来进行情感分析的形式。我使用的数据集类似于IMDB (包含文本和标签(正或负))。我看过的每一篇教程要么准备了不同的数据，要么就不去做数据准备，而把它留给你想象。(例如，所有IMDB教程都从tensorflow_datasets导入一个预处理的Tensorflow tensorflow_datasets，当我使用自己的数据集时，这是没有帮助的)。我自己试图将Pandas DataFrame转换为Tensorflow的Dataset类型，这在训练中导致了Val

浏览 2提问于2019-10-13得票数 11

回答已采纳

1回答

Tensorflow对象检测:不使用自定义数据进行预测

、、、

我使用这个仓库有一个基本代码()，它使用Tensorflow对象检测，来检测一个评论截图中的评论，日期，喜欢和评分。我浏览了100张图片(只是想测试这是否可能)，用4个标签(评论、日期、点赞和评分)对图片进行注释，将其从XML转换为CSV，然后生成TFrecords。这是针对训练数据和评估数据进行的。100幅图像用于训练，20幅图像用于评估。下面是我所注释的内容的截图。对于训练，我使用了以下配置 model { ssd { num_classes: 4 image_resizer { fixed_shape_resizer { height: 5

浏览 3提问于2018-08-02得票数 0

回答已采纳

1回答

在从dataset中训练单词嵌入时不提供渐变

、、、、

我正在尝试从TF2数据集中训练一个自定义的单词嵌入。我的文本已经被编码为整数，我的模型在示例数据集(即从加载的数据集)上工作得很好。但是，当我从(批)数据集中输入我的张量时，模型无法开始使用ValueError: No gradients provided for any variable: ['embed/embeddings:0', 'relu/kernel:0', 'relu/bias:0', 'out/kernel:0', 'out/bias:0'].进行训练。不知道为什么会发生这种事。导致相同错误的类似

浏览 1提问于2020-07-03得票数 1

回答已采纳

1回答

如何使用map在tensorflow数据集中创建两个训练示例

、、

我的数据集中有许多训练样本，我想轮换每个样本，这样我就可以得到两倍的数量。我正在使用数据集，并尝试如下所示： def addrotation(images, labels): images_rotated_left = tf.contrib.image.rotate(images, pi/2.0) labels_rotated_left = tf.stack([labels[1], labels[2], labels[0]]) return tf.stack([images,images_rotated_left]), tf.stack([labels, labels_rotate

浏览 0提问于2018-02-05得票数 0

1回答

将.pb从Tensorflow 1.14迁移到2.0

、、

我正在尝试在TensorFlow2.0中运行FaceNet模型。我下载了一组预先训练好的权重(.pb文件)，并使用tf.GraphDef()在TF1.14中加载图形。我想知道我应该如何在TF 2.0中运行它：我尝试使用tf.SavedModel.load()方法，但返回一个空的签名字典。在新的Tensorflow 2.0版本中是否可以重用TF 1.x pb文件？如果是这样，又是如何做到的呢？

浏览 23提问于2019-10-17得票数 0

回答已采纳

1回答

为什么使用tensorflow2.0的同一数据集的训练精度和验证精度不同？

、、、、

我正在使用tensorflow2.0和tensorflow_datasets进行训练。但是我不明白:为什么训练的准确率和损失与验证的准确率和损失是不同的？这是我的代码： import tensorflow as tf import tensorflow_datasets as tfds data_name = 'uc_merced' dataset = tfds.load(data_name) # the train_data and the test_data are same dataset train_data, test_data = dataset['tr

浏览 48提问于2019-11-15得票数 3

回答已采纳

3回答

我应该如何比较两个tensorflow模型？

、、、

我在两个不同但相似的数据集上用TensorFlow训练了模型，每个数据集使用相同的代码，如下所示： model = tf.keras.models.Sequential([ tf.keras.layers.Input(shape=(D,)), tf.keras.layers.Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossent

浏览 40提问于2020-06-07得票数 0

1回答

使用急切执行重新计算卷积值

、

我在试着用急切的行刑。我创建了一个训练集、一个权重和一个卷积层。我声明了卷积并改变了权重。如何在不再次声明图层的情况下重新计算卷积？我预计会是这样的： import tensorflow as tf tf.enable_eager_execution() tfe = tf.contrib.eager TrainingDataExample = tf.constant(0.5, shape=[8, 5, 6, 1], name="Inputs") WeightExample = tfe.Variable(tf.truncated_normal([1, 3

浏览 0提问于2018-08-30得票数 1

1回答

在Tensorflow 2中使用Dataset和ndarray的拟合方法有什么区别？

、

作为TF的新手，我对BatchDataset在训练模型时的用法感到有点困惑。让我们以MNIST为例。在这个分类任务中，我们可以加载数据并提供x的ndarray。 _ trian，y _ 直接训练到模型中。 mnist = tf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0 model = tf.keras.models.Sequential([ tf.keras.layers

浏览 85提问于2021-02-17得票数 3

回答已采纳

2回答

当调用tf.keras.model.fit时，Tensorflow 2.0不会遍历整个数据集

、、

我正在使用tensorflow 2.0在tf.keras中训练一个模型。我遇到了一个问题，我的模型似乎训练得很成功，但它并没有迭代整个数据集。I将代码重组为tensorflow 1.15，我在tensorflow 1.x中没有这个问题。我是跟随为多输入系列。以下是更多细节：我有一个时间序列数据集。它非常小，所以我可以将它加载到内存中，所以我不需要dataset API。我正在对时间序列加窗口，以产生两个数组，例如X和Y， X=[ [[1,2,3],[4,5,6], [7,8,9]], [[4,5,6],[7,8,9], [10,11,12]], [[7,8,9],[

浏览 12提问于2019-11-12得票数 1

回答已采纳

1回答

tensorflow网络不适合

、、

我有一个pandas dataset where col1 ->输入文本(使用预训练的记号赋值器对文本进行标记化)，col2 ->二进制分类0,1.将其转换为tensorflow数据集 dataset = tf.data.Dataset.from_generator(lambda: dataset, output_types=(tf.string, tf.int32)) 创建模型 def build_classifier_model(): text_input = tf.keras.layers.Input(shape=(), dtype=tf.string, name=&#

浏览 1提问于2021-01-02得票数 0

4回答

使用TensorFlow对不平衡数据进行训练

、、、、

情境：当我的训练数据在两个标签之间的标签分布不平衡时，我想知道如何最佳地使用TensorFlow。例如，假设被简化为只区分1和0，其中我们可以使用的所有图像要么是1，要么是0。当我们有大约50%的每种类型的图像需要训练和测试时，使用提供的TensorFlow教程进行训练是很简单的。但是，如果我们的数据中90%的图像是0，而只有10%是1，那该怎么办呢？我观察到，在这种情况下，TensorFlow例行公事地预测我的整个测试集为0，实现了无意义的90%的准确率。我曾经使用过的一种策略是随机选择一批具有0和1均匀分布的训练数据进行训练，这种方法可以确保我仍然可以使用所有的训练数据并产生良好的结果

浏览 168提问于2016-01-28得票数 29

回答已采纳

2回答

在Keras中使用大于2GB的数据集

、、

TensorFlow在单个张量上有2GB的长期限制.这意味着你不能在一次超过2GB的数据上训练你的模型。见；这些帖子中引用的标准解决方案是使用占位符并通过feed_dict将其传递给“会话”： my_graph = tf.Graph() sess = tf.Session(graph=my_graph) X_init = tf.placeholder(tf.float32, shape=(m_input, n_input)) X = tf.Variable(X_init) sess.run(tf.global_variables_initializer(), feed_dict={X_

浏览 3提问于2018-12-26得票数 1

1回答

Tensorflow slim如何在训练期间指定批量大小

我正在尝试使用slim接口来创建和训练卷积神经网络，但我不知道如何指定训练的批量大小。在训练期间，我的网络崩溃，因为我的显卡上的“内存不足”。所以我认为这应该是处理这种情况的一种方式…我是不是必须分批拆分数据和标签，然后显式循环，还是由slim.learning.train来处理？在我粘贴的代码中，train_data是我训练集(numpy数组)中的所有数据，..and模型定义没有包括在这里，我对源代码进行了快速循环，但到目前为止还没有成功…… g = tf.Graph() with g.as_default(): # Set up the data loading:

浏览 0提问于2016-09-12得票数 2

1回答

如何将tf.data.Dataset与kedro一起使用？

、、、、

我正在使用准备一个用于训练tf.kears模型的流数据集。使用，有没有办法创建一个节点并返回创建的tf.data.Dataset，以便在下一个训练节点中使用它？可能不会工作，因为tf.data.Dataset不能被酸洗(deepcopy是不可能的)，另请参见。根据的说法，在MemoryDataset中进行深度复制是为了避免其他节点修改数据。有人能详细解释一下为什么/如何发生这种并发修改吗？从上看，似乎有一个copy_mode = "assign"。在数据不可拾取的情况下是否可以使用此选项？另一种解决方案(也在问题91中提到)是只使用一个函数在训练节点内生成流tf.data

浏览 0提问于2020-09-04得票数 3

1回答

为什么Tensorflow tf.learn分类结果差异很大？

、、、、

我使用TensorFlow高级API tf.learn来训练和评估一系列二进制文本分类的DNN分类器(实际上我需要多标签分类，但目前我单独检查每个标签)。我的代码非常类似于 classifier = tf.contrib.learn.DNNClassifier( hidden_units=[10], n_classes=2, dropout=0.1, feature_columns=tf.contrib.learn.infer_real_valued_columns_from_input(training_set.data)) classifier.fit(x=

浏览 1提问于2016-09-10得票数 0

回答已采纳

3回答

Tensorflow Keras -训练中的高精度，预测中的低精度

、、、、

我有一个非常基本的多类CNN模型，用于将车辆划分为4类[pickup, sedan, suv, van]，这是我使用Tensorflow 2.0 tf.keras编写的： he_initialiser = tf.keras.initializers.VarianceScaling() model = tf.keras.Sequential() model.add(tf.keras.layers.Conv2D(32, kernel_size=(3,3), input_shape=(3,128,128), activation='relu', padding='same&#

浏览 3提问于2020-06-26得票数 0

2回答

为什么经过多次在线训练后识别率会下降？

、、、

我正在使用tensorflow对MNIST数据集进行图像识别。在每个训练时期，我随机挑选了10,000张图像，并进行了批量为1的在线训练。识别率在前几个时期有所提高，但在几个时期后，识别率开始大幅下降。(在前20个时期，识别率达到~94%。之后，识别率从90->50->40->30->20)。这是什么原因呢？此外，当批处理大小为1时，性能比使用批处理大小为100时更差(最大识别率为94%，而不是96%)。我查阅了几篇参考文献，但关于小批量或大批量是否能获得更好的性能，似乎存在相互矛盾的结果。在这种情况下，会发生什么情况？编辑:我还添加了训练数据集和测试数据集的识别率

浏览 0提问于2017-08-02得票数 3

2回答

训练准确性好，评价差

、、、

我训练了一个DNN模型，得到了较好的训练精度，但评价精度较差。 def DNN_Metrix(shape, dropout): model = tf.keras.Sequential() print(shape) model.add(tf.keras.layers.Flatten(input_shape=shape)) model.add(tf.keras.layers.Dense(10,activation=tf.nn.relu)) for i in range(0,2): model.add(tf.keras.layers.Dense

浏览 3提问于2019-12-09得票数 0

1回答

使用TfIdfVectorizer生成测试数据

、、

我已经将我的数据分成了训练部分和测试部分。我的数据表有一个'text‘列。考虑一下，我还有另外十列表示数字特征。我已经使用TfidfVectorizer和训练数据来生成术语矩阵，并将其与数字特征相结合来创建训练数据框架。 tfidf_vectorizer=TfidfVectorizer(use_idf=True, max_features=5000, max_df=0.95) tfidf_vectorizer_train = tfidf_vectorizer.fit_transform(X_train['text'].values) df1_tfidf_train =

浏览 29提问于2020-04-10得票数 0

3回答

Keras模型在训练时获得较高的验证精度，但在评估时精度很低。

、、、

我正在尝试在keras.applications下训练一个简单的keras.applications，如下所示 base_model = keras.applications.MobileNetV3Small( input_shape= INPUT_SHAPE, alpha=.125, include_top=False, classes=1, dropout_rate = 0.2, weights=None) x = keras.layers.Flatten()(base_model.o

浏览 4提问于2022-06-27得票数 1

3回答

如何在tensorflow 2.0中创建训练、测试和验证拆分

、、、

我是tensorflow的新手，我已经开始使用tensorflow 2.0 我已经为多类分类问题构建了一个tensorflow数据集。让我们称其为labeled_ds。我已经准备好了这个数据集，从它们各自的类目录中加载所有图像文件。我遵循了这里的教程：现在，我需要将labeld_ds拆分为三个互不相交的部分:训练、验证和测试。我正在研究tensorflow API，但没有允许指定拆分百分比的示例。我在中发现了一些东西，但我不确定如何使用它。此外，如何对拆分进行分层？ # labeled_ds contains multi class data, which is unbalanced. tr

浏览 0提问于2019-10-16得票数 5

1回答

batch_size in tf model.fit()与batch_size in tf.data.Dataset

、、

我有一个可以容纳主机内存的大型数据集。然而，当我使用tf.keras训练模型时，它会产生GPU内存不足的问题.然后查看tf.data.Dataset，并希望使用其batch()方法对训练数据集进行批处理，以便它能够在GPU中执行model.fit()。根据其文件，一个例子如下： train_dataset = tf.data.Dataset.from_tensor_slices((train_examples, train_labels)) test_dataset = tf.data.Dataset.from_tensor_slices((test_examples, test_labels

浏览 6提问于2020-07-01得票数 5

回答已采纳

1回答

处理大训练数据

我写这封信是为了询问如何将一个大的训练数据提供给张量流模型的原理。我的培训数据托管在csv文件中，基本上是使用下面的代码将数据加载到队列中。 filename_queue = tf.train.string_input_producer([...]) reader = tf.TextLineReader() _, line = reader.read(filename_queue) line = tf.decode_csv(line, record_defaults=default) label_batch, feature_batch = tf.train.shuffle_batch([l

浏览 4提问于2016-05-25得票数 1

3回答

TF保存/恢复图在tf.GraphDef.ParseFromString()失败

基于这个，我尝试保存/恢复TF图，但没有成功。下面是saver： with tf.Graph().as_default(): variable_node = tf.Variable(1.0, name="variable_node") output_node = tf.mul(variable_node, 2.0, name="output_node") sess = tf.Session() init = tf.initialize_all_variables() sess.run(init) output =

浏览 0提问于2016-02-12得票数 9

回答已采纳

1回答

如何在一个训练示例上有多个正确的激活？

、、

我正在尝试教tensorflow-keras神经网络在5*5网格上玩picross。理想情况下，网络的输出层将有25个神经元，如果正方形已满，每个神经元的正确激活为1，如果为空，则正确激活为0。因此，一个训练示例的正确答案“激活”应该是一个由1和0组成的字符串，25位长。然而，到目前为止，我只知道如何训练一个网络，使每个训练示例都有一个正确的答案。我训练了一个神经网络来对MNIST手写数字进行分类。我已经设置了一种生成训练数据的方法，包括picross网格和相关提示。 #x_train is a list of lists. Each sub_list contains the rele

浏览 0提问于2019-07-29得票数 0

1回答

用于多文本文档的mllib和pyspark词袋模型

、、、、

我有150个文本文档(训练集)，我想用pyspark和mllib包"feature“对它们进行”词袋“表示。然后，我有另外150个文本文档(测试集)，我还想将每个文档转换为一个词袋，目的是将此测试集的每个元素映射到具有最高余弦相似度的训练集文档。为了做到这一点，我将为权重实现TF-IDF :这需要中每个文档的词频和我想要匹配的组合训练集。我正在使用这个指南：注意，它有一个注释"# Load documents (one per line)“。但是，为了简洁起见，我从相同的目录中循环上传每个文本文件，如下所示： import os from pyspark import S

浏览 2提问于2015-08-11得票数 1

1回答

"tf.keras.preprocessing.text_dataset_from_directory"？中的“子集”到底是什么？

、、、

因此，我正在遵循官方的keras教程这里。然而，我不能真正理解subset和validation_split的tf.keras.preprocessing.text_dataset_from_directory参数。我是如何使用它们的： raw_train_ds = tf.keras.preprocessing.text_dataset_from_directory( "aclImdb/train", batch_size=BATCH_SIZE, validation_split=0.2, subset="training",

浏览 0提问于2021-10-12得票数 0

1回答

使用仅整数量化的TF_lite转换

import tensorflow as tf saved_model_dir='D:/sfz/tf_sfz' def representative_data_gen(): for input_value in tf.data.Dataset.from_tensor_slices(train_images).batch(1).take(100): yield [input_value] converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir) converter.optimiz

浏览 77提问于2020-09-10得票数 0

1回答

动态提取补丁和扁平数据集的TF管道

、、

我试着训练一个图像补丁的自动编码器。我的训练数据包括加载到带有形状[10000, 256, 512, 1]的numpy数组中的单通道图像。我知道如何从图像中提取补丁，但是批次选择图像是不直观的，因此每批的点数取决于每个图像提取了多少补丁。如果每个映像提取了32个补丁，我希望数据集表现得像[320000, 256, 512, 1]一样，以便每次从多个图像中提取洗牌和批处理，但同时提取补丁，这样就不必将其保存在内存中。我所见过的最接近的问题是，但正如我提到的，它没有提供我想要的东西。 PATCH_SIZE = 64 def extract_patches(imgs, patch_size=PA

浏览 5提问于2021-10-13得票数 1

回答已采纳

1回答

如何将此数据集拆分为训练集、验证集和测试集？

、

按照https://www.tensorflow.org/tutorials/load_data/images的说明，我已经使用自己的数据定义了一个数据集，如下所示： list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*')) 我看过tf.data.Dataset的方法，但不知道如何像tfds.Split那样将这个数据集分成三个部分(训练、验证、测试)。如何将此数据集拆分为三个部分？我希望训练/验证/测试集的大小分别为list_ds的80%、10%、10%。

浏览 22提问于2019-12-04得票数 0

1回答

用RNN预测名称来源

、、、、

我正在尝试训练一个RNN来预测名字的来源。数据集来自Pytorch教程，我基本上需要使用tensorflow/keras重做教程。数据集： !wget https://download.pytorch.org/tutorial/data.zip !unzip data.zip data = [] for filename in glob('data/names/*.txt'): origin = filename.split('/')[-1].split('.txt')[0] name

浏览 11提问于2020-04-06得票数 0

1回答

如何在tensorflow2.0 2.0中按名称查找变量

tensorflow 2.0似乎删除了函数tf.global_variables()。那么，我的问题是:如何在模型中找到具有给定名称的变量？tensorflow 2.0提供了这样的功能吗？目前，我们的培训框架无法访问构建模型的代码。它使用tf.global_variables()查找加载模型中的各种变量，以推入和提取训练数据或结果。tensorflow 2.0能够支持这种框架吗？

浏览 3提问于2019-05-18得票数 1

回答已采纳

3回答

如何在Tensorflow 2.0数据集中动态更改批量大小？

、、、

在TensorFlow 1.X中，您可以使用占位符动态更改批处理大小。例如 dataset.batch(batch_size=tf.placeholder()) 在TensorFlow 2.0中如何做到这一点？我已经尝试了以下方法，但不起作用。 import numpy as np import tensorflow as tf def new_gen_function(): for i in range(100): yield np.ones(2).astype(np.float32) batch_size = tf.Variable(5, trainab

浏览 0提问于2019-12-17得票数 9

1回答

如何加快tf.data.Dataset.from_generator()

、、

在张力流2.0中，我想要训练一个具有nce损失的跳过克模型。tf.data.Dataset.from_tensor_slices()不适合，因为输入文件非常大。所以我编写了一个数据集生成器类，如下所示： class DataSet: """""" def __init__(self, args, vocab): self.args = args self.vocab = vocab def generator(self): """a generat

浏览 2提问于2019-12-23得票数 1

2回答

TensorFlow中细胞神经网络的样本加权

、、

我在Tensorflow中实现了一个CNN，改编自教程：CNN with Estimators。摘自data_input_fn： dataset = dataset.batch(batch_size) iterator = dataset.make_one_shot_iterator() features, labels = iterator.get_next() return features, labels 摘自model_fn： loss = tf.losses.softmax_cross_entropy(onehot_labels=labels, logits=logits)

浏览 16提问于2019-03-12得票数 0

1回答

特征向量:计算训练集与测试集的权重

、、

我正在使用支持向量机进行文本分类，但基本上我对测试集的特征向量的计算感到困惑。对于训练特征向量，我将TF-IDF向量用于每个训练数据，并使用TF-IDF值构建了一个特征矩阵docs x term。但是如何计算测试集的特征向量呢？我应该只使用训练集中的TF-IDF值来计算它吗？例如:在特定单词"apple“的训练集中，文档频率是5。对于测试集，我应该使用值5来表示"apple”吗？还是根据测试集重新计算TF-IDF？？或者更确切地说，我在计算特征向量时走错了路吗？？提前感谢！

浏览 2提问于2013-04-21得票数 2

回答已采纳

1回答

我是否在k折cross_validation中使用相同的Tfidf词汇表？

、、、

我正在做基于TF-IDF向量空间模型的文本分类，我只有不超过3000 samples.For的公平评估，我正在使用5折交叉验证对分类器进行评估，但令我困惑的是，是否有必要在每次折叠交叉验证中重建TF-IDF向量空间模型。也就是说，在每个折叠交叉验证中，我是否需要重新构建词汇表并重新计算词汇表中的IDF值？目前，我正在基于scikit-learn工具包进行TF-IDF变换，并使用SVM训练我的分类器。我的方法如下:首先，我将手头的样本除以3:1的比例，其中75%的样本用于拟合TF-IDF向量空间Model.Herein的参数，该参数是词汇表的大小和其中包含的术语，以及vocabulary.Th

浏览 1提问于2017-09-02得票数 12

1回答

如何找出一个数据集是否可以训练一个神经网络？

、、

我是一个机器学习的新手，这是第一个挑战现实世界的ML任务之一。一些实验数据包含512个独立的布尔特征和一个布尔结果。在所提供的数据集中有大约1e6个真实的实验记录。在一个经典的XOR示例中，所有4个可能的状态都需要训练NN。在我的例子中，它是唯一接近于零的2^(10-512) = 2^-505。我没有关于数据性质的更多信息，只有这些(512 + 1) * 1e6位。在可用数据上尝试了一个隐藏层的NN。训练后的神经网络对样本的输出，即使是训练集，也总是接近于0，而不是一个接近"1“的样本。玩权初始化，梯度下降学习率。我的利用Python1.3，Python3.模型摘录： wi

浏览 4提问于2017-10-20得票数 0

回答已采纳

1回答

在tensorflow中使用tf.data.Dataset api还原模型后，在开发数据集中运行该模型

、、

当我在tensorflow中使用tf.data.Dataset api时，我用tensorflow训练了我的模型。我想演示我的代码的一些部分： # This corresponds to loading the data using the tf.data.Dataset api... names_train, detected_train, arousal_train, valence_train, liking_train, is_talking_train, images_train,\ iterator_train_all = load_train_sewa_tfrecords(fil

浏览 1提问于2018-10-31得票数 0

回答已采纳

1回答

Tensorflow重用神经网络

、

我是tensorflow的新手，我一直在训练一个简单的神经网络，但是一旦训练完成，我就不知道如何重用NN来获得输入的输出。 def train_neural_network(x,y,aDataTrain,aTargetTrain,aDataTest,aTargetTest): batch_size = 500 prediction = neural_network_model(x,len(aDataTrain[0])) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=predict

浏览 0提问于2017-11-09得票数 2

2回答

从图像中提取特征向量--流动OOM

、、

我使用我从Caffe动物园下载的经过预先训练的网络权重，在tensorflow中构建了一个特征提取器(VGG-16)。因此，我重新定义了以输入权值为常数的TF网络的结构，并添加了一个额外的完全连接层和tf.Variables，通过SGD对铰链损失成本进行训练。我的初始训练集是由100000幅32x32x3图像组成的，这些图像以numpy数组的形式出现。因此，我不得不将它们调整为224x224x3，这是VGG的输入大小，但这不适合内存。因此，我删除了不必要的例子，并将其缩小到10000x224x224x3图像，这是可怕的，但仍然可以接受，因为只有支持向量是重要的，但即使那时，我仍然得到与T

浏览 3提问于2016-05-10得票数 1

回答已采纳

1回答

量化的TFLite模型比TF模型具有更高的精度

、、、

我正在开发一个端到端训练和量化训练的例子.使用数据集，我加载了一个经过预先训练的模型，然后使用TensorFlow指南中的来量化我的模型。在整个过程正确完成之后，我得到以下结果： Quant TFLite test_accuracy: 0.94462 Quant TF test accuracy: 0.744700014591217 TF test accuracy: 0.737500011920929 我想知道，这怎么可能？量化应该会降低一些精度。我注意到，在TensorFlow的指南示例中，准确性也得到了一些提高，但与我的示例相比却很少。更确切地说，在运行这个

浏览 6提问于2020-09-23得票数 2

1回答

关于文本分类任务迁移学习的任何有用提示

、、、

我正在做一个监督的二进制文本分类任务。我想对A、B和C站点的文本进行分类。对于每个站点的文本来说，域内性能看起来都很好。(92%~94%)。然而，如果我将一个站点的文本培训模型直接应用到另一个站点的文本上(不进行微调)，那么性能就会大大降低。(7%-16%的精度降级)。我已经尝试过的方法： Doc2vec嵌入(对一个站点的文本进行训练)+ logistic回归。 Bert嵌入+ logistic回归。(使用bert -as-a-服务来生成基于google预先培训的bert模型的嵌入)。 TF-国防军+ logistic回归。预先训练的Word2vec嵌入(文本的平均单词嵌入)+ lo

浏览 0提问于2020-07-21得票数 2

回答已采纳

1回答

如何正确使用形状未知的TensorFlow dataset API？

、、、

几个小时来，我一直在努力完成这项任务，但没有成功。我有一个非常大的数据集，它由以下结构组成：我想将这些数据分割成X和Y(并将Y传递给tf.to_categorical)，就像在使用tf.data.Dataset API时一样，但不幸的是，我每次尝试使用它都会导致某种错误。如何使用tf.data.Dataset： tf.to_categorical.Split 将每一行拆分为x和y。将Y转换为使用将数据集分类为batches.Feed my模型。我目前的尝试是： def map_sequence(): for sequence in input_sequences:

浏览 3提问于2020-07-02得票数 1

回答已采纳

1回答

在自己的数据集上培训SSD的问题

、、、、

我对ML很陌生，我试图用我在github上找到的一些Keras代码github.com/pierluigiferrari/ssd_角化来训练一个C0。为了进行培训，我使用了自己的(非常小的)对象数据集，这些对象不在任何更大的已知数据集中。我的数据集具有以下特征：对象在图像中有非常不同的大小(从20x40到250x200) 图像中只有一个类别的标签。图像在RGB中所有图像的大小都适合300x300。 dataset包含319幅用于培训和验证的图像。现在我的问题是，验证的损失函数不是收敛的，但是训练损失是收敛的。请看这张图，它显示了历代的损失函数。我训练了120个时代，每一次都有1000步

浏览 0提问于2019-03-01得票数 1

回答已采纳

1回答

来自tf.data的数据是如何生成并传递给模型的

、、

在《使用Scikit-Learn，Tensorflow和Keras操作ML》一书中，作者解释了如何使用数据API有效地操作、转换和传递数据到模型，他编写了以下函数： def csv_reader(filepaths, batch_size=32): dataset = tf.data.Dataset.list_files(filepaths) dataset = dataset.interleave(lambda filepath: tf.data.TextLineDataset(filepath).skip(1), cycle_length=5) datase

浏览 14提问于2020-02-19得票数 0

1回答

SGDClassifier与HashingVectorizer和TfidfTransformer

、、

我想了解是否可以使用SGDClassifier和TfidfTransformer来训练一个在线的HashingVectorizer (用partial_fit)。简单地将它们加入管道将无法工作，因为TfidfTransformer是有状态的，因此这将破坏在线学习过程。表示，不可能以在线方式使用TF-下手，但一条对的评论表明，这可能是可能的：“尤其是，如果你使用状态变压器作为TfidfTransformer，你需要对数据进行多次传递”。如果不把整个训练集加载到记忆中，这是可能的吗？如果是这样的话，是怎么做的？如果没有，在大型数据集中是否有将HashingVectorizer与tf相结合的替代解决

浏览 7提问于2014-08-15得票数 4

回答已采纳