Deepgram 是 YC 投资的一家初创公司,其业务是使用机器学习分析企业的音频数据。近日该公司开源了内部的深度学习工具 Kur(https://github.com/deepgram/kur)。该工具能够进一步帮助那些对音频分析感兴趣的人实现他们的想法。开源内容还包括10个小时的已转录音频,以10秒的片段拼接,目的是加快训练过程。
Kur 与 Keras 相似,但 Kur 进一步节略了建立和训练深度学习模型的过程。通过使深度学习更容易实现,Kur 进一步使图像识别和语音分析更容易进行。
Deepgram CEO Scott Stephenson 解释说,公司最初使用的是一个公共的在线有声读物 LibriSpeech 作为训练数据集,并为数据加标签用于训练早期的机器学习模型。
Deepgram 这次开源的工具并非重新造轮子。来自初创企业,大学和大型客机公司的数据转存和开源项目,例如 Tensorflow,Caffe,Torch 等开源框架已经非常有用。ImageNet 数据库为图像识别任务创造了奇迹,语音识别方面许多开发者使用 VoxForge,但开源数据当然还是越多越好。
Stephenson 补充说:“你可以从图像分类开始(使用这个工具),最后用于自动驾驶汽车也没问题。重点是它给开发者一个小的模型,然后你可以改变模型,让它做各种不同的任务。”
开源 Kur 也是 Deepgram 试图招募人才的一个手段,该策略已经在大公司被证明对招聘机器学习专业人士和数据科学工程师来说非常有效。
在 Kurhub.com 网站,开发者可以很方便地共享模型、数据集和权重,以促发更多的创新。Deepgram 希望为其发布的数据集释放权重,这样一来 DIY 深度学习的开发者就完全不用进行处理器密集型的训练过程。虽然该数据集只有10小时的音频数据,模型在一个 GPU 上训练仍然需要大约一天的时间,而在非专门设计的计算机上训练需要更长的时间。
如果 Deepgram 的数据集对你来说不够用,你也可以用自己的数据很方便地扩展数据集。需要做的只是将 WAV 的音频文件和嵌入式的转录文本以10秒为单位增量。你可以使用更多公共领域的资源提供给数据饥渴型的深度学习模型,以提高准确度。
编译来源:https://techcrunch.com/2017/01/18/deepgram-open-sources-kur-to-make-diy-deep-learning-less-painful/