北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

产品动态NEWS

北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

灵云语音合成技术:让人机交互更有“温度”

 发布于:2021-12-03 10:39   浏览:
语言的多模态应用已成为人们生活中习以为常的现象,一句简单的语音控制、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判......
 
有 “温度”的声音

 
 

 
 
语音技术主要分为语音合成(Speech Synthesis, 或者 Text to Speech)、语音识别(Speech Recognition, 或者 Speech to Text)、自然语言处理。其中,语音合成技术发展最早,且应用已较为普遍。
 
说”是人机交互无法忽视的环节,语音合成的重要性日益凸显。
 
语音合成技术旨在通过将文字转化为语音,让机器“开口说话”使得机器变得有“温度”,实现趋于完美的人机交互。
 
从早期的机械化语音合成开始发展至今,语音合成的应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报,场景相对单调,现其应用场景更复杂更多样,智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。
 
  • 如在有声阅读方面,用户需求越来越个性化;
  • 机场、车站广播等服务业,甜美温柔的音质可以拉进与乘客间的距离,让乘客在繁忙的旅途中感受到温暖;
  • 人们在听新闻时,往往期望播音员具有一个浑厚、稳重的声音;
  • 服务业客服场景下,人们倾向于声音更加热情、亲切。
     
如何让合成的声音听起来自然并富有情感,是语音合成领域的一个主要发展方向。
 
增强语音交互真实感
 
传统的语音合成技术,选音拼接和参数合成两条路线长期并存。前者音频、语速真实,但合成效果不稳定,甚至听不懂,而后者合成内容效果基本稳定,但音质机感浓重,音色损失大,语速不流畅。
 
为了提升合成语音自然度、流畅度,研究者们创立了全新的波形生成和序列到序列路线,直接以因果预测的思路逐个生成音频样点,追求完全还原,填补了参数合成与波形拼接在音质方面的鸿沟。同时,传统的参数合成需要另建一个专用的时长模型来预测每字的长度,存在严重的机器感。由于端到端路线的发展,Transformer架构的Tacotron系统通过直接建立文本序列到音频帧序列的映射模型,克服了一字一顿的顽疾。Tacotron-Wavenet填补了参数合成与拼接合成的鸿沟,加大了语音柔顺度的提升,完胜传统参数合成和各种拼接合成。

 
 

捷通华声所研发的灵云语音合成技术应用最新的深度学习技术,通过引用“全并行架构声学模型”将转化速度、韵律预测效果以及声学模型训练效果进行提升,将合成语音的音质与自然度提升到与人类接近的水平。
 
目前,灵云语音合成技术支持中、英、日、韩、维、藏等多种语言,男声、女声、童声、卡通声等多种音色,具备热情、甜美、严厉等多种风格,为营销、导航、新闻、阅读等领域提供服务支持。
 
声音定制,真正的“人情味儿”
 
捷通华声还可根据用户需求,通过录制和制作语音合成定制音库,在极短时间内定制出各式各样的高度仿真的人工智能声音,效果自然且逼真。
 
实际上,在AI行业或者用户群体中,AI语音定制的能力始终被报以高度期待,利用AI模拟人声,不仅可以注入记忆、陪伴等社会情感因素,还可借助用户熟悉的声音触发更多的应用想象。灵云语音技术可将制作一个高品质声音所需的训练时间极大降低,让AI语音定制不再需耗费过多时间和资源,以更平常方式“飞入寻常百姓家”。
 
语音合成技术的快速发展,机器合成语音越发自然生动,富有情感表现力。捷通华声作为深耕语音合成领域多年的企业,在一次次升级和迭代中,满足不同场景下越来越多的用户需求,已广泛服务于金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域。