专业智能高效的语音处理服务
尽管语音处理技术取得了显著进展,但在复杂场景下的表现仍有待提升。远场语音识别、高噪音环境、多人同时说话等场景下,识别准确率仍然面临挑战。这些场景中,语音信号容易...
Hugging Face Transformers:提供wav2vec 2.0、Whisper、VITS等预训练模型
中国互联网络信息中心 | 工程师 (已认证)
网络钓鱼是当前最普遍、危害最突出的网络安全威胁类型,攻击者依托伪造邮件、短信、社交信息与虚假网站,结合社会工程学手段诱导用户泄露敏感数据或执行恶意操作,对个人信...
多模态融合是指将语音、文本、图像三种不同模态的信息进行整合、互补,利用各模态的优势,提升模型的性能和应用场景的适配能力。其中,语音提供听觉信息,文本提供语义信息...
语音钓鱼(Vishing)依托号码仿冒、AI 语音克隆与实时社会工程学交互,已成为 2025—2026 年全球增长最快的网络攻击形式之一。SQ Magazine...
ASR、TTS和声纹识别作为语音处理的三大核心技术,各自拥有完整的技术体系和应用场景。通过深入理解其核心技术流程、性能影响因素和主流模型演进,可以更好地设计和优...
本文以韩国政府跨部门电信金融诈骗综合应对小组成立半年来的治理实践为研究样本,结合警方公开数据与技术防控机制,系统分析语音钓鱼案件数量下降 31.6%、涉案损失下...
语音处理是一门融合信号处理、计算机科学、语言学、声学等多学科的技术,核心是对语音信号进行采集、分析、转换、合成、识别等操作,实现"机器听懂语音""机器说出语音"...
Darktrace 于 2026 年 3 月发布的调研数据显示,80% 的美国职场员工对自身识别钓鱼邮件的能力充满自信,但在真实场景测试中仅 32% 能够准确识...
随着通信技术的演进,网络攻击正从传统的文本钓鱼向更具欺骗性的语音钓鱼(Vishing)形态演变。近期,智能照明品牌Aura遭遇的客户数据泄露事件,揭示了攻击者利...
随着信息通信技术的迭代升级,电信网络诈骗犯罪呈现出组织化、智能化及非接触化的显著特征。其中,语音钓鱼(Voice Phishing)作为传统社会工程学攻击的现代...
pVAD(Personal Voice Activity Detection,个性化语音活动检测)是一种能够识别特定说话人语音的端到端神经网络模型。与传统 VA...
本报告对目标说话人语音活动检测(Target-Speaker Voice Activity Detection, TS-VAD)和个性化语音活动检测(Perso...
近期,韩国发生了一起针对韩国信用信息服务(Korea Credit Information Service, KCIS)的复杂语音钓鱼(Vishing)攻击事件...
随着国际地缘政治冲突的频发,网络犯罪团伙正迅速调整其社会工程学攻击策略,将宏观时事热点转化为微观欺诈工具。本文以韩国金融当局近期发布的关于“利用中东局势实施语音...