灵云语音合成技术：让人机交互更有“温度”_捷通华声—

灵云语音合成技术：让人机交互更有“温度”

　发布于：2021-12-03 10:39　　　浏览：

语言的多模态应用已成为人们生活中习以为常的现象，一句简单的语音控制、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利，与此同时，其社会价值与意义也在被重新估判......

有 “温度”的声音

语音技术主要分为语音合成（Speech Synthesis, 或者 Text to Speech）、语音识别（Speech Recognition, 或者 Speech to Text）、自然语言处理。其中，语音合成技术发展最早，且应用已较为普遍。

“说”是人机交互无法忽视的环节，语音合成的重要性日益凸显。

语音合成技术旨在通过将文字转化为语音，让机器“开口说话”使得机器变得有“温度”，实现趋于完美的人机交互。

从早期的机械化语音合成开始发展至今，语音合成的应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报，场景相对单调，现其应用场景更复杂更多样，智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。

如在有声阅读方面，用户需求越来越个性化；

机场、车站广播等服务业，甜美温柔的音质可以拉进与乘客间的距离，让乘客在繁忙的旅途中感受到温暖；

人们在听新闻时，往往期望播音员具有一个浑厚、稳重的声音；

服务业客服场景下，人们倾向于声音更加热情、亲切。

如何让合成的声音听起来自然并富有情感，是语音合成领域的一个主要发展方向。

增强语音交互真实感

传统的语音合成技术，选音拼接和参数合成两条路线长期并存。前者音频、语速真实，但合成效果不稳定，甚至听不懂，而后者合成内容效果基本稳定，但音质机感浓重，音色损失大，语速不流畅。

为了提升合成语音自然度、流畅度，研究者们创立了全新的波形生成和序列到序列路线，直接以因果预测的思路逐个生成音频样点，追求完全还原，填补了参数合成与波形拼接在音质方面的鸿沟。同时，传统的参数合成需要另建一个专用的时长模型来预测每字的长度，存在严重的机器感。由于端到端路线的发展，Transformer架构的Tacotron系统通过直接建立文本序列到音频帧序列的映射模型，克服了一字一顿的顽疾。Tacotron-Wavenet填补了参数合成与拼接合成的鸿沟，加大了语音柔顺度的提升，完胜传统参数合成和各种拼接合成。

捷通华声所研发的灵云语音合成技术应用最新的深度学习技术，通过引用“全并行架构声学模型”将转化速度、韵律预测效果以及声学模型训练效果进行提升，将合成语音的音质与自然度提升到与人类接近的水平。

目前，灵云语音合成技术支持中、英、日、韩、维、藏等多种语言，男声、女声、童声、卡通声等多种音色，具备热情、甜美、严厉等多种风格，为营销、导航、新闻、阅读等领域提供服务支持。

声音定制，真正的“人情味儿”

捷通华声还可根据用户需求，通过录制和制作语音合成定制音库，在极短时间内定制出各式各样的高度仿真的人工智能声音，效果自然且逼真。

实际上，在AI行业或者用户群体中，AI语音定制的能力始终被报以高度期待，利用AI模拟人声，不仅可以注入记忆、陪伴等社会情感因素，还可借助用户熟悉的声音触发更多的应用想象。灵云语音技术可将制作一个高品质声音所需的训练时间极大降低，让AI语音定制不再需耗费过多时间和资源，以更平常方式“飞入寻常百姓家”。

语音合成技术的快速发展，机器合成语音越发自然生动，富有情感表现力。捷通华声作为深耕语音合成领域多年的企业，在一次次升级和迭代中，满足不同场景下越来越多的用户需求，已广泛服务于金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域。

产品动态NEWS

灵云语音合成技术：让人机交互更有“温度”