前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云语音合成TTS试用

腾讯云语音合成TTS试用

原创
作者头像
AI大眼萌
发布于 2024-06-30 15:58:27
发布于 2024-06-30 15:58:27
1.9K01
代码可运行
举报
文章被收录于专栏:AI产品体验专栏AI产品体验专栏
运行总次数:1
代码可运行

随着人工智能技术的飞速发展,人机交互的方式也在不断革新。腾讯云语音合成(TTS)技术,作为AI领域的一项重要应用,正在以前所未有的速度改变我们的生活和工作方式。大家好,我是AI大眼萌,今天就让我们一起探索这项技术的魅力和潜力!

一、核心概念:什么是语音合成(TTS)?🗣️👂

在人工智能的世界里,ASR(Automatic Speech Recognition)和TTS(Text-To-Speech)是一对默契的搭档。ASR,就像人类的耳朵,能够将声音转化为文字;而TTS,仿佛人类的嘴巴,将文字转化为声音。就像我们熟悉的Siri,那些流畅的语音回复,其实都是TTS技术在背后默默工作的结果。TTS的实现方法主要有两种:拼接法和参数法。

1. 拼接法:声音的拼图游戏

拼接法,就像是用预先录制好的语音片段,像拼图一样拼接出想要的语音。这种方法使用的基本单位可能是音节、音素,甚至是双音子,以确保合成语音的连贯性。它的优点显而易见——语音质量高,但缺点也同样明显:需要庞大的数据库支持,成本高昂。

2. 参数法:声音的统计学

参数法则是另一种魔法,它依据统计模型生成语音参数,再将这些参数转化为波形。这个过程包括前端处理、建模和声码器三个模块。前端处理负责解析文本,决定发音、语气、节奏等,而声码器则是复现声音信号的关键环节。

前端处理:文本的解析者

前端处理,就像是文本的解析者,它决定了每个字的发音,语气语调,甚至是需要强调的重点。尽管目前的算法还无法完全捕捉所有的细节,但它已经能够处理包括韵律边界、重音、边界调等在内的多种语气相关数据。

个性化TTS:声音的定制师

个性化TTS,大多数采用参数法实现,它可以根据需求定制出独特的声音。虽然Adobe和微软等大公司也尝试过拼接法,但参数法因其通用性和成熟度更受青睐。

二、TTS的应用场景🎙️

  1. 智能客服:TTS技术可以提供自然、拟人化的语音服务,帮助企业构建智能客服系统,自动回答客户咨询,提高服务效率。
  2. 有声阅读:将电子书、新闻、文章等文本内容转化为语音,为用户提供便捷的听书体验,尤其适合视力障碍人士或在驾驶等双手忙碌时使用。
  3. 教育辅助:TTS技术可以帮助学生学习语言,通过语音输出辅助发音练习,同时也可以作为教学工具,增强学习互动性。
  4. 信息播报:在广播、电视、新闻APP等平台,TTS可以将新闻稿自动转化为语音播报,快速传递信息。
  5. 车载导航:TTS技术在车载系统中提供语音导航提示,使驾驶者能够安全地接收路线指引。
  6. 智能家居控制:TTS可以作为智能家居系统的语音输出部分,通过语音命令控制家中的智能设备。
  7. 社交媒体和内容创作:短视频创作者可以使用TTS技术快速生成视频配音,提高内容制作的效率和质量。
  8. 公共服务:在公共交通、机场、火车站等公共场所,TTS可以提供自动的语音指引和信息播报服务。
  9. 辅助技术:为有视觉障碍或阅读困难的人士提供辅助,将网页、文件等文本信息转化为语音,帮助他们更好地获取信息。
  10. 企业内训和广播:企业可以使用TTS技术进行内部培训材料的语音化,或在工作场所进行安全、操作等重要信息的语音广播。
  11. 广告和宣传:商家可以利用TTS技术制作吸引人的语音广告,通过电话、广播或在线平台进行产品宣传。
  12. 紧急通知系统:在自然灾害或其他紧急情况下,TTS系统可以快速生成并传播紧急通知和指导信息。

三、腾讯云TTS的产品试用🛠️

1、腾讯云TTS产品架构

2、腾讯云TTS的产品矩阵

  • 基础语音合成:适用于短文本,无实时性要求的场景。
  • 实时语音合成:支持中长文本,满足高实时性需求。
  • 长文本语音合成:适合长文本合成,适用于有声阅读等场景。
  • 离线语音合成:无网络环境下的语音合成解决方案。

3、python代码试用

a、输入自己的SECRETID及KEY

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
import os
from dotenv import load_dotenv
root_dir='/mnt/workspace/'
load_dotenv(os.path.join(root_dir, "TTS.env"))
APPID =os.getenv('APPID')
SECRET_ID =os.getenv('SECRET_ID')
SECRET_KEY =os.getenv('SECRET_KEY')

#定义函数,通过网页获取语音文件

代码语言:python
代码运行次数:1
运行
AI代码解释
复制
import hmac
import hashlib
import json
import time
from datetime import datetime
from uuid import uuid4
import base64
from http.client import HTTPSConnection
from IPython.display import Audio
import io

def sign(key, msg):
    return hmac.new(key, msg.encode("utf-8"), hashlib.sha256).digest()

TEXT =  """请相信,每一个努力的瞬间,都是你人生故事中不可或缺的篇章。
 """
VOICETYPE = 301006 # 音色类型
CODEC = "wav" # 音频格式:pcm/mp3
SAMPLE_RATE = 16000 # 音频采样率:8000/16000
ENABLE_SUBTITLE = True

def text_to_speech(text, voice_type=VOICETYPE, sample_rate=SAMPLE_RATE, codec=CODEC, enable_subtitle=ENABLE_SUBTITLE,EmotionCategory='sad'):
        service = "tts"
        host = "tts.tencentcloudapi.com"
        region = "ap-shanghai"
        version = "2019-08-23"
        action = "TextToVoice"
        token = ""
        # 使用提供的参数更新 payload 字典
        payload = {
            "Text": text,
            "VoiceType": voice_type,
            "SampleRate": sample_rate,
            "Codec": codec,
            "EnableSubtitle": enable_subtitle,
            "EmotionCategory": EmotionCategory,
            "SessionId": str(uuid4())  # 生成唯一会话 ID
        }
        params = json.dumps(payload)
        endpoint = "https://tts.tencentcloudapi.com"
        algorithm = "TC3-HMAC-SHA256"
        timestamp = int(time.time())
        date = datetime.utcfromtimestamp(timestamp).strftime("%Y-%m-%d")
        # ************* 步骤 1:拼接规范请求串 *************
        http_request_method = "POST"
        canonical_uri = "/"
        canonical_querystring = ""
        ct = "application/json; charset=utf-8"
        canonical_headers = "content-type:%s\nhost:%s\nx-tc-action:%s\n" % (ct, host, action.lower())
        signed_headers = "content-type;host;x-tc-action"
        hashed_request_payload = hashlib.sha256(params.encode("utf-8")).hexdigest()
        canonical_request = (http_request_method + "\n" +
                             canonical_uri + "\n" +
                             canonical_querystring + "\n" +
                             canonical_headers + "\n" +
                             signed_headers + "\n" +
                             hashed_request_payload)
        # ************* 步骤 2:拼接待签名字符串 *************
        credential_scope = date + "/" + service + "/" + "tc3_request"
        hashed_canonical_request = hashlib.sha256(canonical_request.encode("utf-8")).hexdigest()
        string_to_sign = (algorithm + "\n" +
                          str(timestamp) + "\n" +
                          credential_scope + "\n" +
                          hashed_canonical_request)
        # ************* 步骤 3:计算签名 *************
        secret_date = sign(("TC3" + SECRET_KEY).encode("utf-8"), date)
        secret_service = sign(secret_date, service)
        secret_signing = sign(secret_service, "tc3_request")
        signature = hmac.new(secret_signing, string_to_sign.encode("utf-8"), hashlib.sha256).hexdigest()
        # ************* 步骤 4:拼接 Authorization *************
        authorization = (algorithm + " " +
                         "Credential=" + SECRET_ID + "/" + credential_scope + ", " +
                         "SignedHeaders=" + signed_headers + ", " +
                         "Signature=" + signature)
        # ************* 步骤 5:构造并发起请求 *************
        headers = {
            "Authorization": authorization,
            "Content-Type": "application/json; charset=utf-8",
            "Host": host,
            "X-TC-Action": action,
            "X-TC-Timestamp": timestamp,
            "X-TC-Version": version
        }
        if region:
            headers["X-TC-Region"] = region
        if token:
            headers["X-TC-Token"] = token
        print('start-----')
        try:
            req = HTTPSConnection(host)
            req.request("POST", "/", headers=headers, body=params.encode("utf-8"))
            resp = req.getresponse()
            # 假设我们成功获取了音频数据并保存到了 audio_file_path
            # 解码 JSON 响应体
            response_json = json.loads(resp.read().decode('utf-8'))
            # # 获取 Base64 编码的音频数据
            base64_audio = response_json['Response']
            return base64_audio
        except Exception as err:
            print(err)

#输出结果

参数配置可参考官方教程:https://cloud.tencent.com/document/product/1073/37995#.E7.A4.BA.E4.BE.8B1-.E5.9F.BA.E7.A1.80.E8.AF.AD.E9.9F.B3.E5.90.88.E6.88.90.E8.B0.83.E7.94.A8.E7.A4.BA.E4.BE.8B

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
rest=text_to_speech(TEXT,VOICETYPE, SAMPLE_RATE,CODEC,ENABLE_SUBTITLE)
Audio(base64.b64decode(rest['Audio'].encode("utf-8")), autoplay=True)

四、腾讯云语音试用下来的技术亮点与优势✨

  • 音色真实:合成音色接近真人,具有极高的拟真度和表现力。
  • 多语种支持:覆盖中文普通话、粤语、英文等多语种及方言。
  • 动态调参配置:支持SSML标记语言,实现个性化语音配置。
  • 定制声音:提供声音复刻、定制、变换等个性化服务。

五、结语🌈

腾讯云语音合成技术,正在开启智能语音的新纪元。它不仅仅是技术的突破,更是对人类生活方式的一次深刻变革。让我们一起期待并探索,TTS技术将如何进一步丰富我们的世界!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【玩转腾讯云】【腾讯云机器翻译TMT】机器翻译入门
通过https://cloud.tencent.com/register注册腾讯云账号
LinSP
2020/05/02
10.1K2
10分钟使用腾讯云知识引擎带你接入DeepSeek
最近的DeepSeek好火,它是由杭州深度求索人工智能基础技术研究有限公司出品的一款先进的人工智能产品。DeepSeek以其强大的技术实力和创新应用,迅速在人工智能领域崭露头角,成为行业关注的焦点。
半月无霜
2025/02/19
2272
V3手动鉴权失败之Python篇
腾讯云 API 全新升级 3.0 ,该版本进行了性能优化且全地域部署、支持就近和按地域接入、访问时延下降显著,接口描述更加详细、错误码描述更加全面、SDK增加接口级注释,让您更加方便快捷的使用腾讯云产品。人脸识别、文字识别,语音识别等众多产品均已接入云API 3.0。
周朋伟
2020/11/27
1.1K0
V3手动鉴权失败之Python篇
基于Powershell 实现腾讯云 API 调用
虽然腾讯云已经提供了支持多种语言的 SDK,使用起来也非常方便,但是某些环境中没有相关的运行环境使用起来往往带来一些环境准备和合规的成本。PowerShell 作为Windows环境普遍存在脚本环境,如果能够顺利运行云相关API将会非常方便。
用户8856568
2023/01/06
3.5K1
【玩转OCR | 腾讯云智能结构化OCR应用探索和场景实践】
在数字化时代,光学字符识别(OCR)技术已成为企业提升效率、降低成本的关键工具。腾讯云智能结构化OCR凭借其高精度、灵活性和易用性,正在推动跨行业高效精准的文档处理与数据提取新时代。本文将全面介绍腾讯云智能结构化OCR的功能、技术优势、应用场景以及通过实际代码示例展示其应用实践,帮助读者深入了解并有效运用这一强大的工具。
中杯可乐多加冰
2024/12/31
3930
Lighthouse搭建UptimeKuma监控网站连通与证书状态并接入腾讯SMS通知
随着Google推进90天证书步伐的加快,已有几家机构发布了调整通知,缩短有效期已经成为了板上钉钉的事。
kr
2024/02/12
5300
Lighthouse搭建UptimeKuma监控网站连通与证书状态并接入腾讯SMS通知
玩转腾讯云批量ModifyInstancesVpcAttribut调整cvm vpc信息(包括批量StopInstances、批量StartInstances)
11月是个有期待的月份,双十一活动入口:https://cloud.tencent.com/act/pro/double11-2024。
Windows技术交流
2024/11/12
2050
玩转OCR | 腾讯云智能结构化OCR全面指南
在数字化转型的浪潮中,光学字符识别(OCR)技术已成为企业提高效率、降低成本的关键工具。腾讯云智能结构化OCR凭借其先进的技术和广泛的应用场景,正在推动跨行业高效精准的文档处理与数据提取新时代。本文将全面介绍腾讯云智能结构化OCR的功能、技术优势、应用实践以及行业案例,帮助您深入了解并有效运用这一强大的工具。
Damon小智
2024/12/24
1K1
玩转OCR | 腾讯云智能结构化OCR全面指南
【玩转腾讯云】【腾讯云语音合成TTS】短视频批量生成器
疫情期间发现一个有趣的现象,有一类短视频父母刷抖音的时候经常会看到,这类视频只有一个或多个简单的背景图片,配合一段文字录音,讲一段新闻、故事、或者鸡汤。我想可能是他们对纯文本或者纯语音的内容都不感兴趣,更容易接受短视频这样简单的内容形式。又想到腾讯云有语音合成的产品,加上ffmpeg等视频处理工具,是不是可以批量生成一些这类短视频呢。
01player
2020/05/04
7.9K2
智能云上手指南:语音合成 API 快速接入
6月21日,腾讯云在2017「云+未来」峰会上推出了战略新品——智能云,宣布将腾讯积累近20年的AI能力向政府、企业和开发者开放,其中首批开放计算机视觉、智能语音识别、自然语言处理的三大核心能力。腾讯
腾讯云开发者社区
2017/06/22
2.7K0
使用Postman玩转腾讯云
产品上云,那么作为产品的开发人员,其中一项重要的工作就是调用云厂商提供的API接口,来使用云产品。俗话说,工欲善其事,必先利其器。为了上云更轻松,我们需要一把利器来调用云厂商的API接口。接下来本文就向你介绍如何使用Postman这个API测试利器,来调用腾讯云API的接口,让你轻松玩转腾讯云。
风之泪
2019/12/10
5K2
【玩转腾讯云】【腾讯云语音合成】智能语音交互之语音合成篇
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。 提供多种音色选择,支持自定义音量、语速,让发音更自然、更专业、更符合场景需求。语音合成广泛应用于语音导航、有声读物、机器人、语音助手、自动新闻播报等场景,提升人机交互体验,提高语音类应用构建效率。
ruskin
2020/05/04
21.6K1
【玩转腾讯云】【腾讯云语音合成】智能语音交互之语音合成篇
开发案例| 基于Vue3+SpringBoot+腾讯云语音合成TTS+混元大模型的音频祝福小助手项目
可以从这里进入:https://console.cloud.tencent.com/cam/capi
后台技术汇
2024/11/15
5760
开发案例| 基于Vue3+SpringBoot+腾讯云语音合成TTS+混元大模型的音频祝福小助手项目
用腾讯云语音合成(TTS)批量生成英语绘本的朗读音频
孩子进行英语启蒙,需要看很多英语绘本,而且要听配套的音频来练听力。但有些英语绘本是没有对应音频的,下面简单几步,就可以将任意英语绘本制作出对应的英语朗读音频。
AIGC部落
2024/06/23
4190
Python:TTS语音合成技术,市场各大平台对比以及实现
前景提要:在线的实时合成TTS技术,巴拉巴拉... 此处省略3千字 市场的TTS平台:讯飞语音,百度智能语音开放平台,阿里云,腾讯云,思必驰,捷通华声(灵云)等。
Python疯子
2019/03/15
4.1K1
使用nemo训练语音合成模型
训练好的模型会保存在./nemo_experiments/Tacotron2/训练时间/checkpoints/Tacotron2.nemo文件中。
zzyh
2022/06/03
1.4K0
文字转语音——这招你学到了吗
我喜欢上了看小说,不知道为什么,这是一个谜,(因为我是谜一样的男人,哈哈),看着看着感觉眼皮在打架,突然我想,要是有一个人可以阅读就好了(这里我们明显感觉小编与世界脱轨),那不如写一个自动阅读的软件好了,然后就有了语音阅读神器。
大家一起学编程
2021/03/29
2.8K0
最佳实践!用腾讯云AI语音合成打造自己的第一本有声书
现代生活中,我们不可避免会遇到很多碎片时间,等公交、倒地铁、排核酸、买早点等等。这些时间累积起来,无疑是一笔很大的个人资源,而想利用这部分时间,听显然是最好的方式。
腾讯云AI
2022/08/22
1.9K0
最佳实践!用腾讯云AI语音合成打造自己的第一本有声书
重塑银幕声音:腾讯云语音在视频中的应用
近期,改编自金宇澄同名小说,知名导演王家卫执导的电视剧《繁花》的热播引起剧烈反响。原著小说以其细腻的笔触和丰富的上海风情,描绘了 20 世纪 60 年代至 90 年代上海市民的生活图景,是一部具有浓厚地域特色和时代感的作品。王家卫的影视作品以其独特的美学风格和深刻的情感表达著称。沪语版剧中使用上海话配音,字证腔圆让人耳目一新,相信后面肯定会有更多、更好的沪语影视作品呈现给观众,也会有更多的优秀专家深度参与,用沪语来叙述上海故事。
leon 橙
2024/05/27
1.1K3
重塑银幕声音:腾讯云语音在视频中的应用
基于树莓派的语音识别和语音合成
语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。树莓派自问世以来,受众多计算机发烧友和创客的追捧,曾经一“派”难求。别看其外表“娇小”,内“心”却很强大,视频、音频等功能通通皆有,可谓是“麻雀虽小,五脏俱全”。本文采用百度云语音识别API接口,在树莓派上实现低于60s音频的语音识别,也可以用于合成文本长度小于1024字节的音频。 此外,若能够结合snowboy离线语音唤醒引擎可实现离线语音唤醒,实现语音交互。
全栈程序员站长
2022/09/13
4.3K0
推荐阅读
相关推荐
【玩转腾讯云】【腾讯云机器翻译TMT】机器翻译入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档