这家公司能让电脑像真人一样说话,细思极恐
2017-05-23 15:24:00 来源:腾讯创业

【腾讯创业编者按】《科学美国人》近日撰文称,新兴的语音技术已经可以在短时间内模拟逼真的人声,没有受过训练的人很难将它与真人语音区分开来。但这同时也引发了一些道德和法律担忧。

以下为原文内容:

虽然苹果Siri和亚马逊Alexa这些程序已经能很自然地模仿人声,但仍然可以立刻判断出这些声音来自电脑。蒙特利尔创业公司Lyrebird则希望利用一套人工智能系统改变这一现状,让它学会通过分析语音录音和相应的文本记录来模拟人声,同时识别二者之间的关系。

Lyrebird上周推出的语音合成器可以每秒钟生成数千个句子——比现有方法的速度大幅提升——而且可以模拟任何声音。不过,这项技术也引发了一些道德问题:这种技术究竟应该如何使用?是否有可能被人滥用?

如何生成自然语音一直以来都是TTS编程领域的核心挑战,这种程序可以将文本转化成语音朗读出来。Siri、Alexa、微软Cortana和谷歌(微博)Assistant等人工智能个人助手都在使用TTS软件来开发更加便利的用户界面。这些系统可以将预先录制的单词和短语朗读文件拼凑成完整的句子。而要转换其他声音——例如让Alexa发出男声——则需要一整套包含所有单词的音频文件,才能与用户展开交流。

只要收听几个小时的声音资料,Lyrebird的系统便可学习它的字符、音素和单词发音,之后便可通过推断来朗读全新的句子,然后增加不同的声调和情绪。Lyrebird这项技术的关键是人工神经网络——它可以借助算法来模拟人类大脑的思维方式——从而借助深度学习技术将声音片段转化成语音。神经网络吸收数据后会对模式进行分析。

在学习如何生成语音后,该系统只需要借助一分钟的声音样本即可模仿任何声音。“不同的语音之间共享很多信息。”Lyrebird联合创始人、蒙特利尔大学学习算法学院博士生亚历山大·德·布雷比松(Alexandre de Brébisson)说,“学了几个人的声音后,再学新的声音速度就会大幅加快。正因如此,我们才不需要太多数据来学习新的声音。多一些数据肯定还是有帮助的,但一分钟就足够捕捉一种声音的很多‘DNA’。”

Lyrebird演示了如何使用它的系统模仿美国政治人物唐纳德·特朗普(Donald Trump)、巴拉克·奥巴马(Barack Obama)和希拉里·克林顿(Hillary Clinton)的声音,在一段合成的对话中谈论这家创业公司。他们还准备向开发者出售这套系统,以便应用到更多领域,包括个人语音助手、有声图书、残疾人语音合成等。

谷歌旗下的DeepMind去年发布了自己的语音合成系统WaveNet,只要听几个小时的原始音频文件,便可产生类似于人声的声波。它可以用人类一样的声音大声朗读文本。德·布雷比松表示,Lyrebird和WaveNet都使用了深度学习技术,但底层模式却有所不同。

“Lyrebird的速度比WaveNet快很多。”他说,“我们可以一秒钟生成几千个句子,这对于实时应用来说至关重要。Lyrebird让用户可以很快复制一种声音,而且不会受到语种的影响。”

DeepMind拒绝让WaveNet团队成员接受采访。

但Lyrebird的速度也要付出一些代价。卡内基梅隆大学语言技术学院语音处理专家迪莫·鲍曼(Timo Baumann)指出,Lyrebird生成的语音含有杂音,以及一些模糊但明显的机器人效果。另外,它不会附带呼吸或嘴巴运动的声音,而这在自然语音中非常普遍。

“嘴唇碰撞和吸气的声音在交流中十分重要。这实际上都有一些含义,而且可以被对方注意到。”鲍曼说。他补充道,正是因为存在这些瑕疵,因此可以区分出电脑合成的语音与真实的语音。他认为,可能还要再等几年才能实时合成令人信服的人声。

不过,对于未经训练且没有疑心的人来说,人工智能生成的音频的确可以以假乱真,从而产生安全问题。这类技术可能用于欺骗和绕过语音验证系统。另外一大担忧在于,它可以渲染与众不同的音频和视频记录,从而作为法庭证据提交。而由于出现了可以快速操纵视频的技术,所以直播视频中的内容真伪就会受到质疑,令假新闻问题进一步恶化。

“或许仍然有可能发现声音何时被人篡改,”鲍曼说,“但并不是所有人都会验证这个问题。”

能够发出人声的系统可能也会构成其他一些不太明显但仍然蕴含风险的问题。例如,用户或许会给予它们超出正常水平的信任,向其提供个人信息,或者接受设备提供的购买建议,把它当成朋友对待,而不再单纯将其视作一款满足自己兴趣的商品。“与文本相比,语言更加自然,也跟我们更加亲近。”鲍曼说。

Lyrebird承认这些担忧,因此在其官方网站上发布了一份警告性的“道德声明”。Lyrebird警告称,这种软件可以用于篡改录音文件,从而作为法庭证据,或者让人们误认某人的身份。“我们希望所有人都能很快意识到存在这种技术,知道的确有可能复制别人的声音。”该网站写道。

就像Photoshop时代的照片不足为信一样,今后再听到某个人的声音时,也不能一味轻信。哈佛大学肯尼迪政府学院安全技术员兼公共政策讲师布鲁斯·施内尔(Bruce Schneier)表示,目前还无法阻止人们使用技术来制作虚假语音。他认为,虚假语音片段今后可能成为“新常态”。(编译/长歌)

正文已结束,您可以按alt+4进行评论
  • 为你推荐
  • 公益播报
  • 公益汇
  • 进社区

热点推荐

即时新闻

武汉