文档中心>腾讯云智能数智人>数智人 SSML 标记语言规范

数智人 SSML 标记语言规范

最近更新时间:2024-08-23 10:50:32

我的收藏

<phoneme>

描述
用于控制文本的具体发音,支持长度1字。
标签关系
空标签,只包含文本,不包含其他标签。
属性
名称
参数值
是否必选
描述
alphabet
py
指定拼音的方式
ph
拼音串
遵守拼音书写规范:
拼音间用空格分隔,拼音的数目与字数相等
拼音由发音和音调组成,音调为1-5分表:阴平、阳平、上声、去声和轻声
示例
本行将每月定期上 <phoneme alphabet="py" ph="chuan2"> 传 </phoneme> 记录至人民银行。

<break>

描述
用于文本中除了标点符号外,需要自定义插入停顿的标签。需要插入在除标点符号外的文字内容后。
标签关系
空标签,不包含其他标签。
属性
名称
参数值
是否必选
描述
time
"停顿时间"
指定具体位置停顿的时长,需填写单位 :
ms(毫秒)、s(秒)
strength
x-weak/weak/medium/strong/x-strong
表示当前位置停顿的韵律属性,默认为 meduim
示例1
自定义停顿 <break time="100ms"/>的 SSML 标签
示例2
自定义停顿的 <break strength="weak"/>SSML 标签

<word>

描述
用于表示文本的词语结构,该标签是可选标签。英文文本通常采用空格来进行分词,一般无需使用此标签。<word>标签内部必须是一个独立的词或短语,这个词或短语只能包含纯中文或纯英文,不能中英混合。
标签关系
包含文本,可嵌套insert-action。
属性
无属性

示例1
广州市长<word>隆马戏</word>欢迎您

<sub>

描述
使用别名替换标签内文本。
标签关系
包含文本,可嵌套insert-action。
属性
名称
参数值
是否必选
描述
alias
替换内容
替换的指定文本
示例1
<speak><sub alias="语音合成">TTS</sub></speak>

<say-as>

描述
用于控制文本按指定的类型或规则去发音。
标签关系
只包含文本,不包含任何标签。
属性
名称
参数值
是否必选
描述
interpret-as
cardinal/digits/telephone/address/id/date/time/punctuation/characters/measure/currency
cardinal:按整数或小数发音。
digits:按数字发音。
telephone:按电话号码常用方式发音。 address:地址格式。 id:id编号格式。 date:日期格式。 time:时间格式。 punctuation:标点符号格式。 characters:字符格式。 measure:单位格式。 currency:货币格式。

各参数支持范围

cardinal

格式
示例
输出
数字串
123
一百二十三
负号+数字串+小数
-123.01
负一百二十三点零一
负号+数字串
-1487
负一千四百八十七
支持分隔符
10,000
一万

digits

格式
示例
输出
数字串
123045
一二三零四五

telephone

格式
示例
输出
说明
座机号
5605560
五六零 五五六零
支持7~8位座机号,支持空格和’-‘作为分隔符。其中:7位座机号支持“3-4”的数字分隔方式。8位座机号支持“4-4”的数字分隔方式。
560 5560
五六零 五五六零
560-5560
五六零 五五六零
55605560
五五六零 五五六零
5560 5560
五五六零 五五六零
5560-5560
五五六零 五五六零
座机号 + 分机号
55605560-105
五五六零 五五六零 转幺零五
1.支持1~4位分机号。 2.部分 音色的读法里,省略掉了“转”及“分机号”。
55605560转105
五五六零 五五六零 转幺零五
55605560分机105
五五六零 五五六零 转幺零五
55605560分机号105
五五六零 五五六零 分机号幺零五
区号+座机号
01055605560
零幺零 五五六零 五五六零
支持区号:010、02x、03xx、04xx、05xx、07xx、08xx、09xx。
010 55605560
零幺零 五五六零 五五六零
010-5560-5560
零幺零 五五六零 五五六零
(010)55605560
零幺零 五五六零 五五六零
031955605560
零三幺九 五五六零 五五六零
0319-55605560
零三幺九 五五六零 五五六零
区号+座机号+分机号
010 33878528-1054
零幺零 三三八七 八五二八 转幺零五四
1.部分 音色的读法里,省略掉了“转”及“分机号”。
010-33878528-1054
零幺零 三三八七 八五二八 转幺零五四
(010)33878528-1054
零幺零 三三八七 八五二八 转幺零五四
(010)33878528转1054
零幺零 三三八七 八五二八 转幺零五四
(010)33878528分机1054
零幺零 三三八七 八五二八 分机幺零五四
(010)33878528分机号1054
零幺零 三三八七 八五二八 分机号幺零五四
国家代码+区号+座机号
86-010-33878528
八六 二幺 三三八七 八五二八 转幺零五四
支持国家代码:86、(86)、+86、(+86)、0086。并统一读为“八六”。
(86)10-33878528
八六 零二幺 三三八七 八五二八 转幺零五四
+86-010-33878528
八六 零二幺 三三八七 八五二八 转幺零五四
0086-10-33878528
八六 二幺 三三八七 八五二八 分机号幺零五四
(+86)-10-3387 8528
八六 二幺 三三八七 八五二八 分机号幺零五四
国家代码+区号+座机号+分机号
(86)21-33878528-1054
八六 二幺 三三八七 八五二八 转幺零五四
部分 音色的读法里,省略掉了“转”及“分机号”。
(86)021-3387-8528-1054
八六 零二幺 三三八七 八五二八 转幺零五四
(86)021-33878528转1054
八六 零二幺 三三八七 八五二八 转幺零五四
(86)21-3387-8528分机号1054
八六 二幺 三三八七 八五二八 分机号幺零五四
+86-021-3387-8528分机1054
八六 二幺 三三八七 八五二八 分机号幺零五四
手机号
151 8828 1075
幺五幺 八八二八 幺零七五
支持11位手机号,支持3-3-5、3-4-4两种数字分隔方式。
151-882-81075
幺五幺 八八二 八幺零七五
151-8828-1075
幺五幺 八八二八 幺零七五
国家代码+手机号
+86-15188281075
八六 幺五幺 八八二八 幺零七五
部分音色读法略有不同。
(+86)-151-8828-1075
八六 幺五幺 八八二八 幺零七五
+8615188281075
八六 幺五幺 八八二八 幺零七五
0086-151 882 81075
八六 幺五幺 八八二八 幺零七五
服务号
110
幺幺零
1. 支持常用的服务号如110。 2. 支持以400/800开头的10位服务号,支持以“3-3-4”的数字分隔方式。 3. 支持以12530/17951/12593开头的16位号码。
95566
九五五六六
4008110280
四零零 八幺幺 零二八零
800-810-8888
八零零 八幺零 八八八八
1253013520638377
幺二五三零 幺三五 二零六三 八三七七
其他
(86)(21)8832-80976-0907
八六 二幺 八八三二 八零九七六 零九零七
支持“数字串+分隔符(左右括号、-)”方式。 部分音色读法略有不同

address

格式
示例
输出
说明
地址格式
阳光海景A座3-605
阳光海景A座三杠六零五
支持常用地址格式。此处地址指标准的邮寄地址。 部分音色读法略有不同。
学府路388弄1001-1008号
学府路三八八弄幺零零幺杠幺零零八号

id

格式
示例
输出
说明
字符串
hello0101
H E L L O 0 1 0 1
大小写英文字符、阿拉伯数字0~9、下划线。输出的空格表示每个字符之间插入停顿,即字符一个一个地读。 部分音色读法略有不同。
my_id
M Y 下划线 I D
date
格式
示例
输出
说明
xx年
12年
一二年
范围符号支持- ~,年月份格式缩写符号支持 - / . ,年份支持4位数年份及2位数年份
1998年
一九九八年
xx年xx月
98年4月
九八年四月
2008年01月
二零零八年一月
xx年xx月xx日 xx年xx月xx号
1998年8月8日
一九九八年八月八日
2020年01月01号
二零二零年一月一号
xx月xx日 xx月xx号
8月8日
八月八日
8月1号
八月一号
年月缩写
2018/08
二零一八年八月
2018.08
年月日缩写
2018/08/08
二零一八年八月八日
2018-8-8
2018.08.08
月日缩写
08/08
八月八日
08.08
日期范围
10月1日~7日
十月一日至七日
10月1日~10月7日
十月一日至十月七日
2020年10月1日~7日
二零二零年十月一日至七日
2020年10月1日~2020年10月7日
二零二零年十月一日至二零二零年十月七日
2020/10/1~2020/10/7
二零二零年十月一日至二零二零年十月七日
2020.10.1~2020.10.7
二零二零年十月一日至二零二零年十月七日
2020年10月1日~10月7日
二零二零年十月一日至二零二零年十月七日
2020/10/1~10/7
二零二零年十月一日至十月七日

time

格式
示例
输出
时刻
12:30
十二点三十分 或 十二点半
10:20:30
十点二十分钟三十秒
时间缩写
5:00am
凌晨五点
10:50AM
上午十点五十分
12:30pm
中午十二点三十分 or 中午十二点半
6:15PM
晚上六点十五分
时刻范围
10:20~11:20
十点二十分至十一点二十分
10:20am~3:10pm
上午十点二十分至下午三点十分
10:20:30-11:20:30
十点二十分三十秒至十一点二十分三十秒
9:00:12am-5:30:12am
上午九点十二秒至上午五点三十分十二秒

punctuation

格式
示例
输出
说明
标点符号
省略号
支持常见中英文标点。输出的空格表示每个字符之间插入停顿,即字符一个一个地读。标签内的文本如果包含XML的特殊字符,需要做字符转义。
……
省略号
!#$%&
叹号井号dollar百分号and
‘()*+
单引号左括号右括号星号加号
,-./:;
逗号杠点斜杠冒号分号
=?@
等号问号at

characters

格式
示例
输出
说明
字符串
版本号2.0
版本号二点零
支持中文汉字、大小写英文字符、阿拉伯数字0~9以及部分全角和半角字符。输出的空格表示每个字符之间插入停顿,即字符一个一个地读。标签内的文本如果包含XML的特殊字符,需要做字符转义。常用的共有5个:&lt;&gt;&amp;&quot;&apos;分别对应<、>、& 、"、'。
苏M MA000
苏M M A 零 零 零
空中客车A330
空中客车A 三 三 零
型号s01 s02和s03
型号S 零一 S 零二和S 零三
空中客A330
空中客A 三三零
αβγ
等号问号at 阿尔法贝塔伽玛

measure

格式
示例
输出
说明
数字+中文单位
2片
两片
支持常见中文单位及单位缩写
120公顷
一百二十公顷
100多毫克
一百多毫克
100来米
一百来米
100余人
一百余人
1厘米20毫米
一厘米二十毫米
120.00平方公里
一百二十点零零平方公里
数字+单位缩写
100m
一百米
12cm
十二厘米
6mm
六毫米
范围
10~15kg
十至十五千克
10.24~789.82亩
十点二四至七百八十九点八二亩
10米~15米
十米至十五米
数字+单位+"/"+单位
10元/斤
十元每斤
199~299元/件
一百九十九至二百九十九元每件
其他默认读法
12扎
十二扎
4万万同胞
四万万同胞
12.897微克
十二点八九七微克

currency

格式
示例
输出
说明
数字+金额标识符
12.00RMB
十二点零零人民币
支持AUD(澳元) 、CAD(加元)、 HKD(港币)、JPY(日元)、USD(美元)、CHF(瑞士法郎)、NOK(挪威克朗)、SEK(瑞典克朗)、GBP(英镑)、 RMB(人民币)、CNY(元)和EUR(欧元)。 支持的数字格式包括:整数、小数以及以逗号分隔的国际写法。
12.50RMB
十二点五零人民币
金额标识符+数字
$12
十二美元
支持 CAD(加元)、 $(美元)、 $(美元)、Fr(法郎)、kr(丹麦克朗)、 £(英镑)、¥(元)¥(元)和 €(欧元)。 支持的数字格式包括:整数、小数以及以逗号分隔的国际写法。
$12.00
十二点零零美元
$12.12
二点一二美元
其他默认读法
1213
一千二百一十三


示例
<say-as interpret-as="cardinal">-123.01</say-as>,这是一个负数。
<say-as interpret-as="digits">123456</say-as>,这是一个数字串。
<say-as interpret-as="telephone">18304561111</say-as>,这是电话号码。

<insert-action>

描述
用于控制主播在标签插入位置展示指定动作。
标签关系
空标签,不包含任何标签。
属性
名称
参数值
是否必选
描述
type
基于具体形象发放枚举值
动作标签内容
示例1
右手体侧 <insert-action type="right_slide_up"/> 向上滑动