27
2018-01

《创新中国》解说制作全纪录

 王同 沐肆洲  2018-01-27

这几天看到好多言论,不少高手都出手了,为这次热度加了一把火。有了大家的关注,公开探讨就可以逐渐形成,往往能产生一些中肯理性的意见来。


也有些言辞比较激烈和绝对,除非要博眼球,其实大可不必。未来是怎样,我们只能合理推测,调整自身,适应变化。


即使是当下,在创新者的眼里,明天,也只是一个个尚未明朗的节点。我与江源的对话中,大量出现着“或许”、“可能”、“大多数情况下”等词汇,否则我很担心被他笑话。


未来,是我们每个人活下去的重要动力。


老规矩,重要内容用红色标注。

  

  


讯飞的语音合成技术,大家每天都在使用。比如高德导航,就是他们提供的语音技术。这次使用的,是他们的实验室级技术。这个很高深,世界上名列前茅,我们是不太懂的。这一部分说出来,对大家也用处不大,除非你想去讯飞做研发。


而沐肆洲团队参与的这部分工作,则与大家紧密相连了。因为我们解决的问题,是创作思路的问题,也是很多人关心的“饭碗问题”。


我打个比方,以说明讯飞与沐肆洲合作制作的关系。


在手工陶瓷制造业,有两个必有工序。一个叫拉坯,就是大家常见的用手将一块不停旋转的泥巴拽出来的一个桶状坯体,算是粗加工。下一个工序叫利坯,是在刚才拉出来的较粗糙的坯体上,用刀具继续做精细加工,再加上一些精细的花纹附件装饰,算是精加工。


每个解说员风格不同,在每个片子里的呈现也会不同。对李老师的解说特点太熟悉了——这恰恰成为我们在制作初期面临困境的原因。


沐肆洲团队中有一位同志,曾是给李老师最后三年录音最多的录音师。他在制作的时候,总是不断希望靠近李老师本人的状态,却恰恰陷入了怪圈。


史岩总导演说:“我们尽可能的做好。做好的标准,是服务于片子内容。内容才是第一位的。”


我想就算李老师在世,他一定也会努力调整自己的风格,以贴近影片内容的。


这次,我们的宗旨,并非完全复原李易老师,而是创造了一个我们心目中的人。这个人,从李易演化而来,带有他的音色,带有他的一部分语感特点。但所有的断句、重音、字头、字腹、字尾、动程,都是在现有顶级语音合成基础上重新设计的。


这个重新塑造的人,他不全是李易。他是我们根据李易的底色,尽可能反映出我们目前对纪录片解说审美的人。


对于在车里听惯了高德导航的我们来说,面对讯飞给过来的合成语音,是惊艳的。“实验室级”的技术确实要高级太多了。它已经不再是每个字都很饱满规律的电子声,而是已经有了变化。甚至,很多有明显情感倾向的词句,机器会自动放慢速度,或者将字的动程拉长,或者语调更低一点。


AI已经开始逐渐明白了字、词的意思。打个比方,让一个七八岁的孩子说一句“历史悠久的”,就算他明白什么意思,表达也不会太到位;但他是明白意思的。


这距离纪录片解说的要求,距离我们所希望的,还是有差距的。




讯飞合成出来的语速,约在每分钟180字,这符合李老师的沉稳风格,但对于《创新中国》来说,语速太慢了。这并不是因为不能合成出快一点的。我们从音质角度考虑,慢了可以加快,快了可不容易变慢。且,语速慢,波形更明显,字与字的间隔就容易被处理,慢速语音更容易做剪辑重组工作。


我们拿到文件之后的处理手法,真是无所不用其极。类似“改变共鸣点位置”这样的多少年都不用的稀奇古怪的技术都使上了。这些音频手段,对非音频专业的人可能也用处不大。但我们的处理思路和判断规则,希望与大家分享。


一、关于强调。


我们在日常对话交流的时候,接收方并非每个字都过脑子的,而是形成了语流来接收。但每句话中,会有一个主要表达的核心意思,这个核心意思,会集中在个别的几个字或者几次词上。在形成长句的时候,相互之间也会产生各种逻辑关系,影响重音位置。这里面反应的是人类浅层的意识思考和大量的背景知识。


但是,在目前,AI很难理解这么复杂的事情。句子若比较复杂,它便无法确定应该强调哪个信息。这会导致语言逻辑上的模糊,接收方也就无法抓住重点。


其实,就算对于职业播音员,逻辑重音,也是重要的一课。


人类强调的方法,有四种。


1、用调值强调。现代汉语分为四个声调,每个声调有一个调值,一声是55,二声是35,三声是214,四声是51(在实际应用中,调值的运用是非常灵活的)。但在生活语言中,除非要强调某个词,基本上是用不到5调值的。用到5调值甚至更高,往往也是为了强调某个重点词。




举个例子,文稿中很多句子以“今天”开头。AI很难判断这个“今”字是应该用5音来读,还是用3音来读,因为它很难判断这个“今天”,真的是指“现在”,还是指“当下一段时期”。


2、用音量强调。这个不用多说,就是把关键字用力地说出来,用音量引起对方注意。


3、用语速和断句强调。在要强调的字词前几个音节,语速会加快,尽量在语势上推向关键字词。相对的,重点字词就会显得长一些,让接收方不会过多地在填充性的非重点字词上耽误注意力。在要强调的字词前后位置,有设计地做一点断句或间隔处理,以让接收方能够在关键字词上多停留一些注意力。


4、用动程强调。将需要强调的字词读慢,动程拉长,以传达不同的情绪水平信息。动程长,意味着情感波动较大,往往伴随着人类更多的“气息”,但是计算机目前很难发出来带有气声的语音,因此我们只能依靠控制音头到音尾的时间,来模拟这一段的情感。


这次人声的制作,对于意思重音的强调,不论对于讯飞的江源,还是对于我们,都是一件重要而棘手的事情。


纪录片解说里存在太多复杂的逻辑,它们需要与画面产生关系,与前后句产生关系,与全片核心内容的指向产生关系。这件事,对于AI来说实在是太难了——当然,对人也不容易。如果不能理解前后句、段和全片的结构,就无法判断重音应该在哪里,应该如何处理。


讯飞和沐肆洲所能做的,就是将上述四种方法,有选择性的,或者迫不得已的,或者顺水推舟的,使用在AI语音上。第一种不行,就用第二种。第二种不行,就用第三种。再不行,我们就从别的段落中找到更合适的字词,或者关联字词,替换进去。最多的时候,一句话是由来自六句话中的字、词和组合拼合而成的。甚至还有的是截取了不同两个字的声母和韵母来拼合,类似于中国古代标音的反切法。


OK,你可以认为我们这是在用巨高的代价换来的“假AI”。但是请注意,巧妇难为无米之炊。这样的制作,是必须建立在AI足够聪明的基础上的。你拿一般的语音合成软件做出来,再怎么“炊”,也达不到现在的水准。况且,你还得是个“巧妇”。


当然,还有一个更高的层次,就是用语流和语势来做强调。有一次,我向央广著名语言艺术家陆洋前辈请教,他说他自上世纪90年代,就开始注意由字词产生强调,转向语流和语势产生强调。这个级别,目前AI还完全做不到。里面牵扯到很多汉语言的格律问题,与文稿写作的可读性都有关系。


上面这段关于重音的内容,并非是教给大家如何寻找重音,而是告诉大家我们和讯飞在制作时候的思路。有了思路的指导,才能够确定每一刀剪下去是不是在朝着正确的方向走。


时至今日,每再听一次,都会发现问题,都有下刀的欲望。但是,就算是一直朝着正确的方向走,也是错的。对于一句话来说,我们不停的剪辑,认为不停地朝着我们认为正确的方向走,其结果大都是走向了另一个错误的极端。就好像人走在一座很长的拱形桥上,需要不停地确定自己所在位置是不是桥的最高点,多一步就是下坡路。


最佳的状态,往往是处于一个微妙的平衡点。


     


二、关于错误。


人与机器的差别,除上面所说的以外,还有一点——人会犯错误,人会马虎。而机器不会。


蜡像若想做的真,五官一定不镜像对称,皮肤上也应该有几个粗大的毛孔,有点儿头皮屑。这样才有人味。“标准”的人是不存在的。


在一些拗口的地方,正常人都会绊舌头。就比如刚才这句话:“在一些拗口的地方”,“的”和“地”紧挨着,“的”不是关键字,我们不会将“的”字发的很饱满,而是一带而过,否则就会显得这句话很笨拙。我们的制作方向之一,就是要分析出来每句话中,如果让人说,在哪里会容易马虎。所以,在我们在工作的时候,常常是嘟嘟囔囔地,为的是找到人类阅读的缺陷。


其实,讯飞制作的语音,已经是“非标准”的了。这种非标准表现在,即使是相同的字,在不同的句子中,字的长短、调值等都会各有不同。这种非标准恰恰是“类人”的表现。“它”会随着内容的不同,点滴理解其中的意思,并采用不同手段来处理。


其实,这一点已经不是老技术了。我们第一次在讯飞参观的时候,他们的演示大厅里,已经有能够给作文阅卷的软件了,而且已经应用在了教育领域。这说明,电脑已经在一定程度上理解了字句的意思——当然,这还是雏形,跟人的丰富理解还不能比。


  

(在科大讯飞展示大厅参观)


三、关于理解。


每一句意思是不同的,则表达不同。仅仅从这一点上看,恐怕已经是令很多语言从业者要警觉的了。我所见到的不少配音员,为了追求声音的标准端庄,读啥都一样,读完了都没明白文字这么写是为什么——至少没理解透。


这让我想起前一段时间中国传媒大学播音主持艺术学院副教授王明军老师给我说的:“不管读什么,只要形成了固定的腔调,都是不对的。”


再向前一步说,纪录片解说的难度,不仅仅在于上述原因,还需要另外两种东西——态度,和思考。对画面呈现内容的思考,以及语言里渗透出来的态度。但凡是思考着说话,对内容有理解了,一定跟纯粹的读文在语感上是不同的。解说员背后的知识积累和文化底色不同,读出来也会不同。这则需要人工智能在另一个高度上探索了。


著名语言表演艺术家徐涛先生曾在一次纪录片解说研讨会上说:“我不收40岁以下的徒弟。”他要的,恐怕也是知识的积累和文化底蕴。


读的前提是理解,读的目的是传播,读的核心是内容。这一点,讯飞做软件瞄准的方向,和采取的步骤,是对的。


江源说,纪录片是他们认为最难的一种合成了,难于新闻。难在分寸感,稳定中有微妙的变化,情感的内敛。他们正在调教计算机,让这种变化更加合理,更加接近人的理解。


    

(《创新中国》首映后,与科大讯飞AI研发主管江源再次合影)


这不仅是关乎计算机的算法,更需要其他门类科学的共同进步——比如对人脑神经传输的研究、人脑记忆的研究、人脑对外界反应的研究等。真正能够达到计算机“聪明地”说话,到那时,或许人工智能就不仅仅会对着稿子读了,而是能够产生自己的思维,能够自主写作了。


说点题外话。自主写作,其实也已经出现在了很多媒体领域。大家平时在网上看到的很多文章和配图,其实就是计算机自主调取信息组合而成的。甚至连文章的题目,都颇为勾引人。比如:《你不知道XXX,就不是80后》,或者《XXX长残了,为什么还有那么多人喜欢她》等格式。所以有时候你会发现,这些文章中,很多段落文字是重复的,或者文不对题。那就说明,你被半智能的计算机骗了点击率。




写到这里,可能大家知道我写这么多,目的何在了。


我试图找到AI与人在现阶段的真正差别在哪里,找到了这个差别,就找到了不被AI炒掉的突破口。


在现阶段,AI可以创造出来任何一种音色,可以比人的嗓音更宽厚,更温暖,更有磁性,更加亲切,更加入耳。只需改变一些参数,再经过一些优化便可以做到。与AI拼音色,无人可以胜出。因为这些,都是可以量化的。


在现阶段,甚至都不需要AI,用各种效果器插件,就可以将人的声音变亮,变厚,变薄,调整共鸣位置。这已经是几十年前的技术了。其实创新,不只是现在,不只是AI。


在一些对内容更为关注的领域,以及对时效性要求较高的领域,比如高德导航,比如新闻快速播报,已经被AI大量占领了阵地。如果在未来的某个项目中,选择了AI,没有选择人,这也是人的选择。能炒掉你的,不是AI,其实还是人。


创新,并非突然扑面而来,而是一直在发生,潜移默化,一点一滴。但我们往往没有发现它的成长,我们看到的只是一个个节点。只有亲历创新的人,才知道它发生质的飞跃的那一个隐藏的瞬间。而我们发现它,却往往只能在朋友圈里。


在未来,人类解说能够胜出的部分,一定在于不容易量化的部分,比如情绪、比如变化、比如基于深厚的功底创造出的迭代审美。十几万年的进化,让我们默契地熟知了人与人彼此间的表达。这是新物种不容易学习的。


播出后,我看到B站上观众的弹幕,评价还是可以的。大部分观众不是专业人士,对于纪录片解说在专业性上的挑剔度不如专业人士高,对于AI和真人的差别辨识并非那么敏感,更容易包容一些我们创作中的错误与遗憾。


但,以我们目前呈现的制作水平,能够得到大部分观众的肯定,或许意味着:各位艺术工作者,如果不想被观众炒掉,得拿出来让观众觉得更有人味儿、有内涵的东西,拿出来作为人胜于AI对文化背景和审美上的优势。


挖掘自己,研究艺术本质,是唯一的出路。


咱们都需要找准方向,加倍努力了。




好吧!我用了6000来字写了个流水账,外加一些创作思路,其实是为了回答文章开篇的前两个问题。如果有耐心看到这里的朋友,非常感激你陪我们重新走了三个月的心路历程,陪着我们一起成长。希望大家可以从这篇长文中各自找到需要的信息。


从我的专业——纪录片声音设计角度说,这三个月里,我们和剧组、和讯飞的合作,让我重新认真思考了纪录片解说这件事,细致入微,刻骨铭心。入行十几年来,从来没有任何一部纪录片,能够让我以毫秒为单位制作下来。


但是,目前制作成本还是高了些,不论对于讯飞,还是对于我们。将高科技惠及民生,不仅仅是软件编程和操作那么简单,还有良好的商业运作和准确的市场切入点。这也是下一步沐肆洲要与科大讯飞一起进一步探讨的地方。


“因为我们看到了人类历史上最为波澜壮阔的一次技术革命,也就是人工智能。这一波二十年错过呢,我就六十岁退休了,我要求自己不要成为一个旁观者,或者是随波逐流者,我一定是一个趋势的驾驭者。”

——吴甘沙在《创新中国》第一集里这样讲


最后一个问题,关于是否有授权,我在微博里有解释。直接拷贝粘贴过来。


“很多朋友关注纪录片《创新中国》,问我这次智能语音合成重现李易老师声音的事,有没有获得李老师家人的授权许可。

在创意之初,没有开始制作之前,沐肆洲作为音频制作团队,受剧组之托,跟李老师家人取得了联络,说明了情况,并获得了同意和支持。

李老师家人也寄予沐肆洲希望:“李易追求完美,你们是李易生前最信得过的人才,希望你们能制作出精品带给大家。”

在随后的制作过程中,剧组也多次与李老师家人联络,并呈现了制作的阶段性成果。

发布会前,剧组向李老师诸家人发出诚挚邀请,希望能亲临现场。

我们选择李老师作为模拟源,很重要的一个原因,在于李老师生前曾为纪录频道录制过大量作品,他的声音已是纪录频道成立初期几年的一个标识性声音。这次亦在向他致以缅怀与致敬!”


既通“情理”,也合“法理”。这是央九《创新中国》剧组、科大讯飞和沐肆洲,共同遵循的标准。在这个层面上,《创新中国》给一个可能会有的新环境开了一个好头。


尊重法律,尊重权益,尊重劳动,这是创新的氧气。


感谢央九《创新中国》剧组


感谢科大讯飞


感谢李易老师


感谢李老师家人的支持


感谢沐肆洲的兄弟们





记得么?我们在《国宝》那篇说到“时间”。


上个月,我们活在5000年前,


这个月,我们活在未来。


时间真奇妙!


纪录片真奇妙!


我爱我的职业!



长按识别下图二维码关注我们^^.