我在我的mac上使用了一些VoiceOver和文本到语音的功能。我注意到数字和标点符号的发音方式有一些不同。例如,"the year is 1978“这句话,当我突出显示它并使用文本到语音时,它被完美地读出。然而,在画外音上,它是这样写的:“那年是一九七八年”。
我如何告诉屏幕阅读器我想要以某种方式发音?我可以为这种行为添加ARIA属性吗?
这不仅仅是日期和年份,还有价格和标点符号(可能还有很多其他的东西!)
是否仍然通过Node JS Google Text-to-speech客户端支持Wavenet语音?它以前可以在NodeJs客户端的v.1.3.0上运行,但现在不行了。当我尝试使用Wavenet语音生成语音时,我得到了以下错误:Request contains an invalid argument 正常的声音可以正常工作。
我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
我使用语音库()在Java中使用netbeans进行语音合成,下面是代码。
public class synthesisTest{
public static void main(String[] argv){
voce.SpeechInterface.init("../../../lib", true, false, "", "");
voce.SpeechInterface.synthesize("This is a speech synthesis test.");
voce.SpeechInte