声音更自然！谷歌新语音系统可像人类一样说话

2017-12-29

*【环球网科技综合报道】*据英国《每日邮报》12月28日报道，谷歌将推出新款文语转换(TTS)系统Tacotron 2，可让AI语音助手的声音更加自然。

不同于其他以复杂语言学和声学特征为输入的TTS系统，Tacotron 2通过学习人类对话和文本记录并进行训练，以生成更贴近人声的语音。研究团队表示，听众评价Tacotron 2的语音水平与专业录音相当。

基于之前的研究成果Tacotron和WaveNet，Tacotron 2使用序列-序列模型，该模型将字母映射到编码音频的特征上。该过程结合了发音、音量、速度和语调。然后，这些特征被转换成24 kHz的波形。

一项系统演示展示了Tacotron 2如何节奏流利地朗读不同的文本(包括绕口令)。但是，一些较难的词语仍然绊住了它。

研究团队称，虽然该系统在听众试验中取得了不错的反响，但还不够完美。“我们的样本听起来不错，但仍有一些棘手的问题有待解决。例如，我们的系统在复杂词语发音上存在困难，在极端情况下甚至会随机产生奇怪的噪音。而且，它还无法生成实时音频。我们还不能控制它所产生的语音，无法引导它具有高兴或悲伤的情绪。”(实习编译：陈倩云审稿：李宗泽)