首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何评估语音到文本数据的质量,而不访问真正的标签?

如何评估语音到文本数据的质量,而不访问真正的标签?
EN

Data Science用户
提问于 2021-01-24 01:12:46
回答 2查看 154关注 0票数 2

我正在处理一组转录的呼叫中心数据,客户在与代理交互时被记录下来。然后由外部转录系统自动转录。我想自动评估这些转录的质量。

可悲的是,质量似乎是灾难性的。在某些情况下,它只不过是胡言乱语,往往是由于机器无法处理的不同方言。我们无法访问原始记录(数据隐私),因此无法获取或创建真正的标签。正如我们所承诺的那样,这个制度是不能被取代的。

还有一个问题:是否有任何方法可以自动评估NLP方法的转录质量?我们希望量化和比较转录质量,以筛选出最佳样本,以便在下游任务中对客户的输入进行语义推断。为了找出最有意义的句子,无论是语法上还是语义上,我都在想一种类似连贯度的方法。可悲的是,BLEU、WER或Rouge这样的东西在这种情况下行不通。

如果有任何东西指向正确的方向,我将不胜感激。最重要的是,我们没有标签,它需要可伸缩。

非常感谢!

EN

回答 2

Data Science用户

发布于 2021-01-24 17:05:58

至少有一种方法:

  1. 为所使用的语言创建/获取语法模型(NLP中使用的各种语言有几种这样的模型)
  2. 测试成绩单以确保语法/语法的正确性。
  3. 这一评估至少排除了胡言乱语和大多数与口语的有效句子不相对应的文字记录。
票数 2
EN

Data Science用户

发布于 2021-08-18 07:19:42

我最近研究了ASR语音系统,使用大量的方言进行文本处理,目前的最新研究表明,处理方言的最佳方法是使用XLSR方法,微调你的模型来识别一个方言,而你却预先接受了N种语言的训练。要做到这一点,并构建这样一个系统,就是使用Transformers,实际上您可以在这里评估您的WER和PER,而不需要感知数据的外观,甚至从一开始就不理解语言。因为方言往往不是一种容易理解的方式,以防我们不是本族语者。

这就是说,我只想在如何处理好你的方言模型方面提供帮助,你可以看看这个,它对我有很大帮助:https://arxiv.org/abs/2006.11477,也可以检查这个https://arxiv.org/abs/2006.13979

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88393

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档