网站首页 > 科技论文> 文章内容

同盾科技语音合成论文入选国际旗舰学术大会ASRU2019

※发布时间:2019-10-17 19:40:47   ※发布作者:habao   ※出自何处: 

  ASRU是国际上最大的非营利性专业技术学会IEEE旗下语音和语言处理技术委员会的旗舰技术活动,每两年举办一次,来自全球学术界和工业界的专家和研究人员将围绕当下语音领域的研究热点进行深入探讨。ASRU 2019将于12月14日至12月18日在新加坡圣淘沙举行。同盾也作为此次会议的赞助商,推动产学研合作。

  论文指出,相较于传统语音合成方法,端到端的语音合成技术已经被印证拥有更简洁的预测流程以及更自然的声音。此外,相比于英文直接以字符作为输入,梦到找不到回家的路中文由于更为复杂的语言现象,需要更加精细的前端特征,例如语法词边界、韵律词/韵律短语边界等。论文作者们创造性地提出一种新结构SAG-Tacotron,在编码端引入自注意力结构代替CBHG结构,并加上可学习的高斯偏置。主客观实验表明,该方法可以在后端仅仅使用拼音信息就可以达到复杂输入的合成效果,无需复杂特征工程。

  目前,该方法已在大量线上语音合成系统中应用,通过对接各类智能客服场景,让客户体验到更加自然流畅的合成语音。

  同盾智能语音实验室相关技术人员表示,使用自注意力结构作为编码器的优势在于,它很好地考虑到了上下文的信息。编码器读入输入数据,利用层层叠加的自注意力结构,可以对每一个音素输入都得到一个新的考虑了上下文信息的表征。但是同时,自注意力结构对全局信息的关注也会分散注意力,而引入了可学习的高斯偏置来加强局部信息可以有效解决这个问题。

  “在句子中,与当前音素关联比较大的音素往往出现在周围,但是普通的注意力结构并不能做到这一点。我们的想法是,应当鼓励自注意力结构给邻近的音素更大的权重,为此,我们给原始的权重上加上了一个按临近分布的高斯先验概率,改变自注意力结构的权重分布,从而更加有效地建模句子的局部结构。”

  将自注意力结构和可学习的高斯偏置结合作为端到端的语音合成的编码器,实验表明可以在尽可能减少输入端信息的情况下,能达到跟将韵律信息也作为输入信息时可比的效果,这样极大的简化了合成前端需要耗费大量数据和人工设计复杂的韵律模型训练的过程。

  依托金融科技领域的行业经验积累,同盾智能语音技术针对金融业务的各个场景,已实现了贴合不同场景的智能交互应用。

  据悉,同盾科技于2018年成立人工智能研究院,发力智能语音等领域,目前已经上线自研的语音合成、语音识别、声纹识别和语义理解等全流程对话机器人技术。智能语音实验室相关研究人员均来自于微软、Nuance、腾讯、西北工业大学等一线语音企业和研究机构。同盾与西北工业大学成立联合实验室,并邀请谢磊教授担任同盾科技语音实验室首席科学家,组成产学研闭环,本篇论文也是双方良好合作的阶段性。同盾还积极参行业内的标准制定和技术研讨会,其中包括人工智能产业发展联盟AIIA《中文语音合成服务系统评估规范》的行业标准。