Tensorflow音频特征提取过程不会运行

TensorFlow是一个开源的机器学习框架，用于构建和训练各种机器学习模型。它支持多种领域的任务，包括图像处理、自然语言处理和音频处理等。

音频特征提取是音频信号处理中的一个重要步骤，它将原始音频数据转换为一组有意义的特征向量，以便机器学习模型能够对其进行分析和处理。下面是音频特征提取的一般过程：

预处理：对原始音频数据进行预处理，包括采样率转换、降噪、去除静音等操作，以提高后续特征提取的准确性和稳定性。
分帧：将预处理后的音频数据切分成短时帧，通常每帧持续时间为10-30毫秒。这样做是为了捕捉音频信号的短时特征。
加窗：对每个帧应用窗函数，以减少频谱泄漏效应。常用的窗函数有汉明窗、矩形窗等。
傅里叶变换：对每个帧应用快速傅里叶变换（FFT），将时域信号转换为频域信号。
频谱处理：对每个帧的频谱进行进一步处理，例如应用滤波器、计算功率谱密度等。
特征提取：从处理后的频谱中提取有意义的特征向量。常用的特征包括梅尔频谱系数（MFCC）、音频能量、频谱质心等。

TensorFlow提供了一些用于音频特征提取的工具和库，例如Librosa和TensorFlow Audio。这些工具可以帮助开发人员方便地进行音频特征提取，并将提取到的特征用于训练机器学习模型。

腾讯云提供了一系列与音频处理相关的产品和服务，包括音频转写、语音识别、语音合成等。您可以通过腾讯云语音识别（ASR）服务来实现音频特征提取和语音识别功能。该服务支持多种音频格式，提供了丰富的API接口和SDK，方便开发人员快速集成和使用。

腾讯云语音识别（ASR）产品介绍链接：https://cloud.tencent.com/product/asr

请注意，以上答案仅供参考，具体的音频特征提取过程和推荐产品可能因实际需求和情况而有所不同。建议根据具体情况进行进一步的调研和选择。

页面内容是否对你有帮助？

有帮助

没帮助

在google的音频集中，使用什么算法进行音频特征提取？

、、

我开始使用谷歌的。虽然数据集是广泛的，但我发现有关音频特征提取的信息非常模糊。网站提到 128维音频特征提取在1Hz。音频特征提取使用VGG灵感的声学模型描述在好时特。艾尔，在YouTube的初步版本上接受训练--800万。这些特征经过PCA和量化，以与YouTube-8M提供的音频功能兼容。它们作为TensorFlow记录文件存储。在中，作者讨论了在960毫秒块上使用mel谱图来获得96x64表示。然后，我不清楚他们是如何获得Audioset中使用的1x128格式表示的。有人知道这件事吗？

浏览 5提问于2017-05-19得票数 1

回答已采纳

1回答

如何提取音频数据以便进行比较？

、

我正在做一个涉及机器学习和数据比较的项目。为了这个项目的目的，我向一个神经元网络提供抽象的视频数据。现在，抽象图像数据非常简单。我可以在视频中的某些点取静止帧，将它们缩小为5×5像素(或任何其他可管理的分辨率)，并得到像素值以供分析。由此产生的数据提供了一个独特的、小的、数据丰富的样本(即使是5x5px的5个样本也足以将戏剧与自然纪录片区分开来，等等)。然而，我被卡在音频部分。由于音频由样本组成，每个样本本身没有固有的意义，所以我无法找到将音频抽象为可处理块的方法。这一过程是否有共同的技术？如果没有，可以量化和抽象音频数据的指标是什么？

浏览 2提问于2014-05-22得票数 0

回答已采纳

1回答

在颤振应用程序中进行特征提取是否可行？

、、、、

我正试图在我的移动应用程序中实现一个音频分类器。在训练数据时，我使用了从原始音频中提取的混合谱图。我正在使用Tensorflow Lite将模型集成到应用程序中。问题是，在进入tflite模型之前，我需要对麦克风输入的音频执行相同的特征提取。Python的Librosa库实现了我需要的所有函数。我最初的想法是运行Python中的flutter (这里有一个启动颤振包，但我无法让它开始工作)。我是不是走错路了？如果是的话，我应该怎么做？我可以用dart lang重写Librosa函数，但我并不特别想这样做。

浏览 0提问于2019-09-08得票数 0

回答已采纳

1回答

无法从tf2模型训练Tensorflow的自定义模型

、、、、

我想用更快的RCNN ResNet50 V1训练我的自定义模型，我已经运行了以下命令： Tensorflow/models/research/object_detection/model_main_tf2.py \ --model_dir=Tensorflow/workspace/models/faster_rcnn_resnet50_v1 \ --pipeline_config_path=Tensorflow/workspace/models/faster_rcnn_resnet50_v1/pipeline.config \ --num_train_steps=2000

浏览 77提问于2021-07-09得票数 0

1回答

对于TensorFlow的对象检测api中的Faster-RCNN架构，有没有神经网络修剪的工作示例？

、

我正在尝试为Faster-RCNN架构找到一个神经网络修剪的工作示例。我的核心堆栈是TensorFlow1.12，它的Python3.5.2 (Ubuntu16.04LTS)上的object_detection应用程序接口(link)。我遇到了一些神经网络修剪报告(例如link，使用泰勒展开link实现了NVIDIA的修剪论文-看起来最有希望的是(a)在Pytorch中实现，(b)在分类网络上而不是检测器上)。我也知道这个软件包(link)下的TensorFlow中存在修剪功能，但只能运行以下StackOverflow问题(link)的注释中的示例来训练和修剪(未经过彻底测试)一个简单的

浏览 32提问于2019-02-07得票数 0

1回答

我在哪里可以找到在COCO数据集上训练过的带有Mobilenet特征提取器的fasterRCNN / R-FCN的预训练模型？

、

我希望使用Mobilenetv1或v2在FasterRCNN上训练一个自定义数据集。我想使用tensorflow动物园中预先训练好的模型。但我找不到更快的Rcnn模型，使用mobilenet作为基础提取器。我在哪里可以买到它？我已经在github中创建了tensorflow动物园。我之前也使用过SSD+Mobilenet配置来做同样的事情。现在，我想将FasterRCNN和RCNN与Mobilenet的结果进行比较。

浏览 2提问于2019-05-17得票数 0

1回答

训练时TensorFlow目标检测错误

、、

伙计们！我试图在本地运行猫的例子，但我在训练步骤中卡住了。我得到了这个很长的错误。有没有人能帮我弄清楚哪里出了问题？提前谢谢。命令: bertalan@mbqs:~/tensorflow/models$ python对象检测/Train.py --logtostderr --pipeline_config_path=/home/bertalan/tensorflow/models/object_detection/samples/configs/Myfaster_rcnn_resnet101_pets.config _dir=TrainCat 下面是带错误的输出： INFO:tensor

浏览 6提问于2017-07-26得票数 0

1回答

TensorFlow对象检测api:使用预训练模型改变训练时的类数时的分类权值初始化

、、、、

我不仅要利用特征提取器预训练的权重，还要利用特征映射层的分类器/本地化预训练权重，使用tensorflow对象检测API ( tensorflow object Pre)对tensorflow对象检测模型(SSD)进行微调。当我的新模型与我用于微调检查点的预训练模型有不同数量的类时，TensorFlow对象检测API将如何处理分类权重张量？当在像SSD这样的ML对象检测模型中微调预训练模型时，我不仅可以用预先训练的权重初始化特征提取器的权重，而且可以初始化特征地图的定位层权重和分类层权重，后者只选择选择的预训练类权重，这样我就可以减少模型最初能够识别的类数(例如，从90层MSCOCO类到这9

浏览 1提问于2018-03-20得票数 2

回答已采纳

1回答

如何向tensorflow的对象检测API添加特征提取器netwrok，例如mobilenetv2

、

This tutorial讨论了如何在tensorflow中使用异议检测应用编程接口。我正在寻找教程，解释如何将mobilenetV2等特征提取器添加到tensorflow的对象检测框架中。

浏览 10提问于2019-03-04得票数 0

回答已采纳

2回答

固态硬盘MobileNet V2 FPNLite 320x320中的FPN代表什么？

、、、、

我最近查看了FPN2.0检测动物园，发现了TensorFlow预训练模型，并想知道"FPNLite“中的SSD MobileNet V2 FPNLite 320x320部分是什么意思。

浏览 139提问于2020-08-30得票数 4

回答已采纳

1回答

基于logistic回归的二值分类婴儿哭检测模型

、

我需要一些关于我的最后一年项目的帮助。我对机器学习还很陌生，我已经尝试过如何用logistic回归来训练一个模型。我有两个数据集的音频剪辑，每个5秒，一个婴儿哭的声音和一个婴儿‘不哭’。我想在google上使用logistic回归来训练这个模型。现在，我已经成功地将音频剪辑转换成谱图图像。但是我被困在训练模型上，因为我无法理解如何训练模型(代码在我到现在为止见过的任何地方都是非常复杂的)。我想要的是用logistic回归来训练模型，在输出时得到100个权重。然后我会用Arduino录下婴儿的哭声。然后我将从新录制的音频中获得100个数据点。然后，以前的和新的100个权重将乘以1

浏览 0提问于2021-02-28得票数 1

2回答

如何在移动设备上运行python代码

、、

我用Python开发了一个机器学习模型。我想在移动设备上运行。该模型需要Xgboost机器学习算法，很少有信号处理库来提取信号特征。我不想在手机上进行训练，但只是测试模型。到目前为止我尝试过的这是谷歌的服务。但问题是它的使用，tensorflow。不支持Xgboost 核心ML -专为iOS。但是信号处理支持是不可用的。 Treelite我们可以将模型转换为C，但是C代码没有特征提取。我曾尝试用C，Java进行特征提取，但需要的信号处理包我无法在其中找到或实现。检查了其他各种链接和文章，但没有支持。如果有可能在移动设备上直接运行python包，这可以挽救我的生命

浏览 3提问于2019-10-16得票数 2

1回答

Tensorflow Hub和JS:如何对预先训练好的模型进行微调并将其导出以便在Tensorflow.js中使用？

、、、

我正在尝试使用Tensorflow Hub应用迁移学习，并将训练好的模型导出到Tensorflow.js。然而，导出的训练模型只有2MB，远远不够。似乎没有导出Tensorflow集线器模块。如何导出？ def mobilenet_model_fn(features, labels, mode): module = hub.Module("https://tfhub.dev/google/imagenet/mobilenet_v2_100_224/classification/2") input_layer = features['images']

浏览 44提问于2019-01-25得票数 1

1回答

tensorflow是否使用opencv将图像隐藏到numpy数组

、、

tensorflow是否使用opencv将图像隐藏到numpy数组中？如何在tensorflow中进行特征提取？它与opencv模型有什么不同？

浏览 0提问于2019-02-20得票数 0

回答已采纳

2回答

如何在java中提取音频特征？

、

我的论文项目是音频特征提取，它们的分类和比较。我无法提取过去6个月的音频特征。我只是有个可能行得通的主意。任何格式的音频都可以转换为pcm格式，并可以从中提取带宽、零交叉率、噪声帧比、基音强度和mel频率谱系数等特征。然后使用这些特征准备数据集，然后对其应用各种音频分类算法。请帮助我如何才能进一步提取音频特征？谢谢

浏览 0提问于2011-02-02得票数 4

1回答

如何将音频映射到目标文本转录

、、、、

我是深度学习的新手，我正在使用tensorflow API，LSTM模型和ctc损失函数制作一个基本的端到端语音识别器。我已经将我的音频特征提取到mfccs。我真的不知道如何将我的音频映射到转录，我知道ctc就是为了这个目的而使用的，我知道ctc是如何工作的，但不知道实现它的代码。下面是我提取特征的代码 import os import numpy as np import glob import scipy.io.wavfile as wav from python_speech_features import mfcc, logfbank # Read the input audio

浏览 0提问于2019-04-22得票数 1

3回答

tensorflow对象检测:使用更多的特征提取器和更快的RCNN

、

我正在尝试对一个自定义的、相对简单的数据集(具有大约30k个样本)执行对象检测。我已经成功地将Faster_RCNN与Resnet101_v1 (最终的mAP 0.9)和inception_resnet_v2特征提取器(正在培训中)一起使用。现在我想让我的模型运行得更快，但仍然保持良好的性能，所以我想比较一下我的模型，与固态硬盘在不同版本的mobile_net上运行。然而，为了了解哪些性能变化来自固态硬盘，哪些来自特征提取器，我也想尝试更快- mobile_nets的RCNN。这也有可能在性能和推理时间之间产生我需要的折衷(更快的RCNN是好的和慢的，mobile_nets是快的)。最初的提

浏览 19提问于2017-07-11得票数 2

回答已采纳

1回答

Tensorflow对象检测:调整图像大小和填充

、、

我正在尝试用MobileNet创建一个单镜头多盒检测器的tensorflow对象检测。我的数据集由大于300x300像素(例如1280x1080)的图像组成。我知道tensorflow对象检测在训练过程中将图像减少到300x300，我感兴趣的是：如果我在使用填充训练之前将图片减少到300x300像素，对以后的目标检测有积极还是消极的影响？没有填充，我不认为它有任何负面影响，但有了填充，我不确定它是否有任何我忽略的影响。提前谢谢你！

浏览 5提问于2020-07-31得票数 0

1回答

短音频样本的分类

、、、、

我有少量类似的声音(我将称之为DB_sounds)，我需要与录音(Rec_sounds)相匹配。每个Rec_sound都是短而独特的，需要与其相应的DB_sound相匹配。我该怎么做才能匹配他们？为了说明我的问题，请考虑以下几点：鲍勃，A房间里有个低沉的声音(带有一些背景噪音)，马云说艾丽斯，B房间里声音很高，她说一个婴儿正在学习说话。他的第一句话是 Ma和Eh是两种不同类型的DB_sounds，所以我必须返回两个不同的结果。我有几个不同人的DB_sound样本，他们说Ma和Eh来比较Rec_sounds 我正在处理的声音是单个音节的录音，如la，ba，ne，嗯，ma等。我该怎么处理

浏览 2提问于2015-06-04得票数 0

回答已采纳

1回答

如何在c#中比较存储在内存流中的两个音频样本

、、、

我一直在想如何比较复制到内存流中的两个音频样本我使用:- stream.Write(buffer，0，buffer.Length)存储音频数据；现在，如果我将另一个音频数据存储在另一个流中，那么我如何比较第一个音频流和第二个音频流，以检查它们是否相同？就像如何比较两个单词一样，我想知道如何比较两个音频流？如果你能提前证明代码snippet.....Thanks，我将不胜感激

浏览 2提问于2014-10-16得票数 0

2回答

SSD和Mobilenet的区别

、、

我把SSD和mobilenet搞混了。据我所知，它们都是神经网络。SSD提供本地化，而mobilenet提供分类。因此，SSD和移动网络的结合可以产生目标检测。这张图片来自。SSD的默认分类网络是VGG-16。因此，对于SSD Mobilenet，VGG-16将替换为移动网络。我的陈述正确吗？我在哪里可以获得更多关于SSD Mobilenet的信息，特别是在Tensorflow模型动物园上提供的信息？

浏览 2提问于2018-05-29得票数 4

1回答

如何使用Tensorflow API对音频文件进行重采样

、、、

我在tensorflow中使用tf.data.Dataset作为管道来读取和转换音频。我想添加音频重采样，以减少过拟合。我在谷歌上搜索了一种在python/tensorflow中重新采样文件的方法，我找到了诸如resampy之类的仅有python的解决方案。它工作得很好，但它减慢了我的管线10倍，因为我必须使用tf.py_func来运行它。我的音频文件有1秒长，速率为16000，下面是我的代码，它执行重采样，然后填充或裁剪结果数组： def _resample(pcm, label): if resample_range < 1e-8: return pcm, l

浏览 0提问于2018-01-14得票数 4

2回答

微调与再培训

、、、

因此，我正在学习如何使用Tensorflow对自定义数据集的Inception-v3模型进行微调。我找到了两个与此相关的教程。一个是关于"“的，另一个是”“的。我在虚拟机上做了第一个再培训教程，只花了2-3个小时就完成了。对于相同的flowers数据集，我正在GPU上做第二个微调教程，大约花了一整天的时间进行训练。再培训和微调有什么区别？我的印象是，两者都涉及到使用预先训练的初始v3模型，删除旧的顶层，并在花朵照片上训练新的顶层。但我的理解可能是错误的。

浏览 5提问于2017-07-17得票数 4

1回答

如何在Wav2Vec中限制特征向量的大小？

、、、

我试图通过使用wav2vec来接收使用的短wav (音频)文件的特征向量。然而，由于未知的原因，无论我使用哪种方法来控制输出大小，结果都不符合我的要求。理想情况下，我想让所有的向量都是相同的长度(例如60K)。我试图通过以下命令获得它： feature_extractor(input_audio, sampling_rate=16000, return_tensors="np", padding="max_length", max_length=60000).input_values 该

浏览 23提问于2021-07-18得票数 1

1回答

使用Estimator接口与预先训练的tensorflow对象检测模型进行推理

、、

我正在尝试从Tensorflow Object Detection存储库加载一个预先训练好的tensorflow对象检测模型作为tf.estimator.Estimator，并使用它进行预测。我可以使用Estimator.predict()加载模型并运行推理，但是输出是垃圾。加载模型的其他方法，例如作为Predictor，以及运行推理都可以很好地工作。任何帮助正确加载模型作为调用predict()的Estimator的帮助都将不胜感激。我当前的代码：加载并准备镜像 def load_image_into_numpy_array(image): (im_width, im_hei

浏览 24提问于2019-05-01得票数 2

1回答

ssd_mobilenet_v2_fpnlite_640x640的体系结构是什么？

、、、

ssd_mobilenet_v2_fpnlite_640x640的体系结构是什么，它是一个在TensorFlow模型动物园上可用的模型。如果我的理解是正确的，移动网用于特征提取，而SSD用于检测。那么，FPNlite的目的是什么，在哪里使用呢？

浏览 0提问于2022-12-06得票数 1

回答已采纳

1回答

变形两张面孔图像

、、

我想从openCV的狂热爱好者那里得到一些帮助。我想知道如何变形两张脸的方向(以及一些建议或代码)，以及一种比例，即第一张脸的10%和第二张脸的90%。我见过像cvWarpAffine和cvMakeScanlines这样的函数，但我不确定如何使用它们。所以如果有人能帮我，我会很感激的。提前谢谢。

浏览 1提问于2012-03-30得票数 2

回答已采纳

1回答

对象检测api，coco模型

、、、

我刚开始使用tensorflow api，并训练了几个模型。我突然意识到faster_rcnn_inception_resnet_v2_atrous_lowproposals_coco模型的名字是不同的，而且准确性也很差，比如faster_rcnn_inception_resnet_v2_atrous_coco和faster_rcnn_resnet50_coco之间的主要区别是什么？为什么在resnet 50中什么都没有使用，为什么会出现atrous，low proposals这样的术语：

浏览 4提问于2020-07-13得票数 0

1回答

使用Tensorflow对象检测API检测图像中的小对象

、、

我想使用Tensorflow 来识别一系列摄像头图像中的对象。对COCO数据集进行预培训的似乎是合适的，因为它们包含了我需要的所有对象类别。但是，我希望改进模型在识别每个图像中相当小的对象方面的性能。如果我正确理解，我需要编辑中的锚点参数，以获得模型使用较小的边界框。我的问题是：在调整这个参数之后，是否需要在整个COCO数据集上重新训练模型？或者，是否有一种方法来改变模型，仅仅是为了推理和避免任何再训练？除了将图像裁剪成各部分并分别对每个部分进行推理外，是否还有其他技巧可以成功地识别小对象呢？背景信息我目前正在为模型提供1280x720图像。在大约200x150像素

浏览 1提问于2018-01-15得票数 12

回答已采纳

1回答

为什么是情节特征？

、

在PyTorch的教程基于波形2Vec2的语音识别中，声学特征是从音频波形中提取出来的(尽管它是不必要的，因为该模型可以一步完成特征提取和分类)，然后绘制。 📷 我们从这些阴谋中得到了什么？他们有没有告诉我们模型的重量？

浏览 0提问于2022-11-03得票数 0

2回答

将tensorflow与另一个库一起使用时出现分段故障，这两个库都链接到eigen3

、、、、

我目前正在尝试在我的程序中使用Tensorflow的共享库和另一个立体视觉库，但当我同时使用这两个库时，我得到了一个分割错误。我为tensorflow创建了一个共享库"libtensorflow_cc.so"，这样我就可以在其他使用CMake的程序中使用TensorFlow。我可以用它编译一个简单的tensorflow程序并运行它:神经网络工作得很好，我复制了我用Python得到的结果。TensorFlow (r0.12)是用Protobuf (3.1.0)和Eigen (v3)编译的。我可以用专用的立体视觉共享库编译我的立体视觉程序，并在没有TensorFlow的情况下运

浏览 14提问于2017-02-22得票数 2

1回答

如何在Tensorflow对象检测API中重用分类层

、、、、

使用Tensorflow对象检测API和来自SSD_inception_v2_coco的，我想保持原始的权重在分类器和特征提取器的权重，从预先训练的模型。从这个，在freeze_variables: ".*FeatureExtractor.*"中加入train.config将冻结特征提取器在训练过程中的权重。，所以这是否意味着我在预先训练的模型中有相同的特征提取器的权重？从这个，如果课程数量与训练前的模型不同，分类器的权重将被初始化。，这是否意味着，如果我使用SSD-Inception-v2-coco?的相同标签映射，就可以在预训练模型中拥有相同的分类器的权重。

浏览 1提问于2018-04-30得票数 2

5回答

有没有开源的音频特征提取软件？

、、、

我承担了一个个人项目，这涉及到一个系统的开发，将自动生成音频缩略图剪辑(约30秒的长度)从一个完整的轨道。为了做到这一点，我想要查看音频的能量和音高，以尝试并正确地识别其主要结构特征。有没有开源软件可以做能量/音调提取？如果没有，我将开始寻找使用MATLAB的替代方法。谢谢!

浏览 7提问于2010-07-21得票数 0

回答已采纳

1回答

如何为Keras有状态LSTM层设置输入？

、、、

我在Keras中设置stateful=True LSTM层的输入时遇到了问题。这就是我到目前为止所知道的： clear_session() model = Sequential() model.add(LSTM(hidden_units, batch_input_shape=(1,1,1), return_sequences=False, stateful=True)) model.add(Dense(1, activation=None)) X = np.random.rand(100, 1, 1) Y = np.random.rand(1

浏览 5提问于2021-01-14得票数 0

1回答

有人能解释一下eager_few_shot_od_training_tflite.ipynb代码吗？

、、、

我试图理解tensorflow团队在github链接中提供的示例代码。除了下面几行代码之外，我能够理解大部分代码。不确定为什么要创建fake_box_predictor变量和创建fake_model 为什么我们不能直接恢复detection_model上的检查点而不是创建fake_model 此外，我不理解上面的注释代码“我们将恢复框回归头，但初始化分类头从零”。有人能详细解释下面的代码在做什么(以及上面提供的注释意味着什么)吗？ # Set up object-based checkpoint restore --- SSD has two prediction #

浏览 4提问于2021-02-26得票数 0

1回答

如何使用Accord.net C#提取音频特征

、、、

我想在C#中提取输入音频文件的特性。(频率、长度等) 为此，我尝试使用Accord.audio nuget库。但我没有找到一个适合我需要的如何指导或工作的例子。您能告诉我如何使用accord.audio nuget库提取文件的音频特征吗？作为一个例子，当我输入"song.mp3“文件时，我想要一个频率数组、分贝数组、长度等"song.mp3”特征。

浏览 0提问于2019-05-05得票数 2

回答已采纳

1回答

目标检测-如何使用CNN检测和提取特征，并使用分类器对其进行分类？

、、、

我有一个图像分类问题，其中类的数量随着时间的推移而增加，当创建一个新类时，我只用新类的图像训练模型。我知道用CNN是不可能做到这一点的，所以为了解决这个问题，我确实转移了学习，我使用了Keras预训练模型来提取图像的特征，但我没有用新的层替换最后一层(用于分类)，而是使用了能够增加类数量的随机森林。我使用在imagenet数据集上训练的InceptionResnetV2达到了86%的准确率，这对目前来说是好的。现在我想做同样的事情，但是是关于一个物体检测问题。我如何才能做到这一点？我可以使用Tensorflow对象检测API吗？有没有可能用Faster-RCNN或SSD这样的检测算法，用随

浏览 97提问于2018-06-26得票数 2

1回答

tensorflow ffmpeg控制输出

、、

首先，我想说我对TensorFlow和机器学习是完全陌生的。我在看控制部分，我看到了解码音频文件的例子，我想知道解码音频文件的矢量输出是什么？我正在运行的代码如下所示： import tensorflow as tf from tensorflow.contrib import ffmpeg with tf.Session() as sess: audio_binary = tf.read_file('test.wav') waveform = ffmpeg.decode_audio(audio_binary, file_format='wav'

浏览 2提问于2016-06-24得票数 1

回答已采纳

1回答

在特征提取方面比SIFT做得更糟

、、

我们正在做关于多模式检索的论文。它基本上是在搜索不同的模式(多媒体例子:文本、视频、图像.)其他方式。即使用文本查询搜索图像数据库。对于任何形式，我们首先需要将其映射到一个具有固定数量的特征的空间，而这些特征必须以某种方式表示数据。对于图像，我们评价的论文采用SIFT特征提取，使用诺瓦德来评价不同的方法，它已经以SIFT格式存在，所以我们评价的大多数论文都使用这些现有的数据集。我们试图通过使用Inception或Resnet来改进这种特征提取机制，并在softmax之前将层作为我们的特性。然而，他们的表现要比筛差得多。我们使用tensorflow和keras来提取特征。那么，你知道re

浏览 0提问于2017-07-02得票数 1

回答已采纳

2回答

Java样本人脸识别

、

我正在开发一个系统，在这个系统中，有人可以为某人的脸拍照，在图像被发送到远程服务器后，客户端将能够读取有关此人的信息。以前，我曾尝试过JavaCV，但是我发现它对我的目的来说太不准确了。到目前为止，我已经尝试过这些JavaCV算法： Fisher人脸识别特征人脸识别 LBPH人脸识别但是，我需要建立一个面部识别系统。这将是“独立的”，不会在Android上运行(例如)。我需要一些帮助来选择正确的java /库(以及是否可以避免商业解决方案，如'Cybula‘、'NeuroTechnology’和‘合理的远景’)。任何帮助都将不胜感激！谢谢, 哑光

浏览 11提问于2013-12-05得票数 6

回答已采纳

1回答

在树莓Pi上运行TensorFlow模型推断的首选方法是什么？

、、、

我想用Tensorflow在Raspberry上运行卷积神经网络的模型推理。目前，在云中运行该模型并不是的一个选项。我想有两种不同的方法可以做到： 1)直接在tensorflow上运行RPi代码。(现在可以直接在pip install tensorflow上使用RPi，参见。 2)使用ModelServer ( tensorflow serving() )运行一个实例。现在，我想要的是一个运行在RPi上的应用程序，它读取实时传感器数据(在我的例子中是来自麦克风的音频)并运行分类算法。我假设查询ModelServer将是首选的选项(我甚至不需要在RPi上安装tensorflow )，但我在任

浏览 0提问于2018-08-08得票数 1

1回答

如何在不保存音频文件的情况下在python上播放音频

、、、

我正在和Tensorflow_TTS一起工作。我正在使用快速语音和梅尔根生成音频。现在这个音频是一个热切的张量，更准确地说是：<class 'tensorflow.python.framework.ops.EagerTensor'>。我想在脚本中播放这个音频张量，而不是将其转换为音频文件，然后再播放它。有没有办法做到这一点？

浏览 0提问于2020-10-25得票数 0

2回答

Anaconda安装的Tensorflow缺少contrib框架中的“audio_ops”

我正在尝试按照教程进行操作。我已经使用python3.6创建了一个Anaconda环境，并按照相应的安装说明安装了GPU whl。我可以运行'hello world‘TF示例。当我在音频识别网络教程/示例中运行'train.py‘时，我得到： Traceback (most recent call last): File "train.py", line 79, in <module> import input_data File "/home/philglau/speech_commands/input_data.py

浏览 106提问于2017-08-30得票数 7

3回答

在iOS上使用TensorFlow音频识别模型

、

我尝试在iOS上使用TensorFlow音频识别模型(my_frozen_graph.pb，在此处生成：)。但是TensorFlow手机的tf_simple_example项目中的iOS代码NSString* network_path = FilePathForResourceName(@"my_frozen_graph", @"pb");会输出这个错误消息：Could not create TensorFlow Graph: Not found: Op type not registered 'DecodeWav'。有人知道我怎么解决这个问

浏览 0提问于2017-12-19得票数 2

1回答

机器学习数据集的不同麦克风

、、

我目前正在跟随的Tensorflow简单音频识别教程，我想知道在我的数据集中有不同麦克风录制的音频是否会对我的训练结果产生负面影响。是否所有音频都应由同一类型的麦克风录制？

浏览 2提问于2018-03-29得票数 0

1回答

使用librosa时出现“无后端错误”

、

file = open('data.csv', 'w', newline='') with file: writer = csv.writer(file) writer.writerow(header) genres = 'blues classical country disco hiphop jazz metal pop reggae rock'.split() for g in genres: for filename in os.listdir(f'./genres/{g}'

浏览 0提问于2020-06-04得票数 0

1回答

如何在升级脚本失败时将此tensorflow 1.0代码转换为tensorflow 2.0？

、

我有以下tensorflow 1.0代码： import tensorflow as tf feature_cols = tf.contrib.learn.infer_real_valued_columns_from_input(X_train) dnn_clf = tf.contrib.learn.DNNClassifier(hidden_units=[300,100], n_classes=10, feature_columns=feature_cols) dnn_clf = tf.contrib.lear

浏览 0提问于2020-10-08得票数 0

1回答

ModuleNotFoundError:在pip安装之后没有名为“tensorflow”的模块--遵循TF官方安装文档

、

我最近使用TensorFlow官方网站上的pip安装说明安装了TensorFlow。由于技术问题，我降级到了Python版本3.6.2。但是，当我进入IDLE，打开另一个文件并输入： import tensorflow as tf Python的回应是： Traceback (most recent call last): File "/Users/gg-mac/Documents/firsttensorflow.py", line 1, in <module> import tensorflow as tf ModuleNotFoundError:

浏览 0提问于2018-11-06得票数 0

1回答

在CNN中，转移学习和特征提取有什么区别？

、、

因此，据我所知，转移学习是指在有大量数据的数据集上训练模型，然后保留大部分经过训练的系数，并且只对数据集上的最后一层进行重新训练，以解决有少量数据的问题。 CNN的特征提取意味着你有一个从图像中提取特征的通用模型，然后你只需要训练最后一层来解决图像上的一个特定问题。那么，特征提取只是一个特定的情况，还是有一些微妙的地方我不明白？

浏览 0提问于2020-10-02得票数 1

1回答

用pysintaller打包tflite运行时出错

、、

我试图将tflite运行时打包到pyinstaller中，以便与其他人共享该文件。然而，每次我运行打包程序。它给出了以下错误： ModuleNotFoundError: No module named 'tensorflow' [15468] Failed to execute script gallerycleaner 当它是.py格式的时候，它可以很好地工作。我甚至尝试在隐藏导入部分中添加tflite运行时，但仍然无法工作。 hiddenimports=['tflite_runtime'], 请注意，我不能导入整个tensorflow包，因为这样文件大小会急

浏览 4提问于2020-08-09得票数 0

回答已采纳