北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

产品动态NEWS

北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

AI之声,更懂表达:灵云语音合成技术全新升级!

 发布于:2025-10-30 18:22   浏览:
从智能音箱的晨间播报,到有声读物的沉浸式讲述,再到虚拟主播的实时互动,语音合成正以多元形态深度融入日常生活,拉近人与数字世界的距离。
随着以大模型、智能体为代表的新一代人工智能技术日趋成熟,智能客服、车载助手、数字员工等专业领域对高表现力、场景化的语音体验需求持续攀升,语音合成技术由此告别了传统的“机械读字”时代,凭借对情感、韵律、音色的细粒度调控,在多语言自然切换、个性化表达等能力上持续突破,为不同行业场景精准赋能,释放出更为广阔的价值空间。

捷通华声作为国内最早从事智能语音等人工智能技术研发与产业化应用的企业,通过持续的技术迭代与优化创新,推出新一代语音合成技术。本次升级聚焦核心技术突破与场景应用深化,进一步提升了在音色丰富度、情感表现力、发音稳定性与流畅度等方面的能力,通过多项功能创新与性能优化,为各行业提供更智能、高效、自然的语音合成解决方案。

 

 
01

核心技术突破,奠定行业新标准

生僻字范围扩展:新增对CJK统一汉字扩展B-F字符集的支持,生僻字表覆盖范围扩展至0x2E80-0x2FDF,有效解决了古籍数字化、专业文献语音化中冷僻字的发音问题。

 

合成逻辑优化:采用一句前端一句合成的全新处理逻辑,大幅优化了长文本合成的首包响应时间,显著提升了实时交互场景下的用户体验。

 

声学核心升级:采用深度学习架构,新增全并行音库+HiFiGAN声码器组合,配合LPCNet声码器量化模式,实现音质与效率的双重突破。灵云语音合成效果干净饱满又饱含细节,个人特色还原精准,拟人化表现再攀新高。

02

功能全面升级,提升合成体验

多语种支持扩展:针对多语种需求,合并Multilingual多语种引擎,可直接挂接藏语、维语音库,更好地服务于少数民族地区的信息化建设;粤语音库通过jieba词表优化,有效解决字符集外文字发音问题;中英文混读可智能切换“中文腔调”与“纯正西式腔调”,适配不同场景表达需求。

 

文本处理能力全面提升:通过数字归一化算法与多音字智能识别技术,精准处理日期、金额、姓名等复杂文本。

 

jTag标记语言:全新自定义标记语言支持精细化控制语速、音高、停顿、发音、数字读法等参数,还可插入静音、回调事件或替换文本片段,满足专业场景下的定制化需求。

03

场景深度赋能,释放产业价值

高铁/机场广播与公共服务

 

在高铁站、机场等客流量庞大的公共服务场所,广播作为核心指引载体,其清晰性、准确性与及时性直接影响旅客出行体验。

 

为适配高频更新的动态信息需求,升级后的灵云语音合成技术不仅能精准播报生僻地名、航班/车次等专业信息,还支持流式文本输入,结合实时进度反馈,实现动态信息的即时播报,如晚点通知、检票口调整等。同时,具备多语种支持能力,可覆盖少数民族语言与常用外语,确保不同语言背景的旅客都能获得清晰的语音指引,全面提升公共交通服务的普惠性与高效性。

 

金融行业应用

 

金融业务涉及大量数字、金额播报,灵云语音合成通过数字归一化算法,可精准解析复杂数字逻辑,确保金额、利率、账号等信息播报零偏差,避免因读音误差引发误解;自定义jTag标记语言支持精细控制语速、音高,在风险提示、重要通知等场景中,可通过插入静音、放缓语速等方式强调关键信息,引导客户重点关注;同时支持用户自定义词库,可提前录入专业金融术语、专属公司名称等特殊词汇,确保读音规范统一,既彰显金融机构的专业严谨,也进一步提升客户服务体验与信任度。

 

政务服务场景

 

政务服务场景兼具专业性与普惠性,其语音播报需精准传递政策条文、机构名称等专业内容,同时兼顾不同群体的理解需求,对多音字识别准确性、语音韵律自然度要求极高。

 

升级后的灵云语音合成技术针对政务场景定向优化:通过强化多音字智能判断逻辑,结合政务专业语料库训练,可精准识别并播报政府机构名称、政策专有术语、公民姓名等内容,避免读音偏差导致的信息误解;同时拓展多语种及方言支持能力,内置普通话、英语、维语、粤语等20多个语种的音库, 打破语言沟通壁垒,更好地服务于不同语言背景及少数民族群体,为政务服务提质增效提供有力支撑。