Speech Synthesis with Self-Supervisedly Learnt Prosodic Representations

Authors: Zhao-Ci Liu, Zhen-Hua Ling, Ya-Jun Hu, Jia Pan, Yun-Di Wu, Jin-Wei Wang
Abstract: This paper presents S4LPR, a Speech Synthesis model conditioned on Self-Supervisedly Learnt Prosodic Representations. Instead of using raw acoustic features, such as F0 and energy, as intermediate prosodic variables, three self-supervised speech models are designed for comparison and are pre-trained on large-scale unlabeled data to extract frame-level prosodic representations. In addition to vanilla wav2vec 2.0, the other two pre-trained models learn representations from LPC residuals or adopt a multi-task learning strategy to focus on the prosodic information in speech. Based on FastSpeech2 and PnGBERT, our acoustic model is built with the learned prosodic representations as intermediate variables. Experimental results demonstrate that the naturalness of speech synthesized using S4LPR is significantly better than the FastSpeech2 baseline.
Comments: Accepted in INTERSPEECH 2023.
Audio samples:

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 里面的 走廊 宽阔 而 阴森 , 头顶 是 绿罩灯 , 脚下的 地毯 很厚 , 厚到 扔一个 摔炮 上去 都不会 发出 声音 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 封口 被 撞裂 开来 , 佛头 从 里面 滚出来 , 顺着 书堆 咕噜 下去 , 咣当 一声 砸在 水泥 地上 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 总而 言之 , 这些 女武神 正在 奋力 扫描 战场 , 随时 做好 战斗 准备 , 不论 扫描到 什么 敌友 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 故此 , 摩诃叶 不惜 施展 苦肉计 死守 捱招 , 直到 最关键 时刻 方才 奇兵 突出 , 要一击 制胜 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 曾思涛 脑子里 这么 想的 时候 , 不觉的 骂自己 很扯淡 , 胡思 乱想的 水平 最近 有 飞跃的 意思 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 这里 是间 办公室 , 当中 一张 厚实的 办公桌 , 两侧 两个 大书架 足足 占了 两面墙 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 有的 果农 干脆 在 鲜桃堆 插一根 树枝 , 挂个 塑料袋 , 让 路人 自己 拿桃子 , 自己 往 袋子里 扔钱 。

GT FS2 PR_F0Energy S4LPR_V S4LPR_LPC S4LPR_MT
Text: 每说 一个 名字 , 左拉 就会 伸出 一根 手指 , 晶莹 如玉的 手指 散发着 柔和的 光泽 , 伸到 卢杰 面前 。