当我用cnn训练数据时,有时在第一批数据中会发生"NaNlossduringtraining“。> loss function is L1-norm> GradientDescentOptimizer is used.我真正困惑的是,当所有参数都固定时,结果是有时可以正常运行,有时在第一批处理时得到错误"Nan“。我想知道它是怎么发生的?导致这一结果的因素是什么?
在我在Google引擎中完成的工作中,一些培训配置会导致NaN丢失,从而导致错误。我希望能够忽略这些试验,并保持不同的参数细化。我使用的是NanTensorHook和fail_on_nan_loss=False,当不执行并行测试(maxParallelTrials: 1)时,它在ML引擎中成功工作(maxParallelTrials,fail_on_nan_loss=False)
l
在train()方法中,我注意到了they don't print the training accuracy during the training session。只有训练损失是打印出来的。= len(dataloader.dataset) correct = 0.0# accumulate the trainingloss - each b