《创新中国》解说制作全记录

2018-01

原创：沐肆洲-王同

这是一篇挺长的文章，我们打算分几次连载。对此内容感兴趣的朋友，不要吝啬时间，请给予这篇文章足够的耐心。因为再长的阅读时间，也不会长过三个月——那是我们团队投入在《创新中国》项目上的时间。

请相信时间的力量。人对知识的吸收，不像是海绵对水的吸收一样快。长时间的浸润，包含着大量的信息，这会让人对事物的认知不同于第一反射的猜测与臆想推理。

或许只能经过这么长的时间，让我有很多想法能够自信坚定，而又谨慎恰切地写出来。你们可以在其中的蛛丝马迹里找到自己需要的信息。

如果觉得文章太长，你可以直接去看红色字部分。这些段落比较重要。

而我，作为一个纪录片人，能够在这个年代，有机会使用国内顶级的人才与技术的匹配对接，得以记录下可以重塑人声的最高水准，已是幸事，即使是缺憾，也有巨大的价值。

趁刚刚做完，记忆还很清晰，也把这次难得的过程记录下来。

向李易先生致敬。

向科技致敬。

向纪录片人致敬。

向创新者致敬。

我从事的行业，与高科技向来是没有什么关系的。

艺术创作，是最古老的劳动之一。从肖韦岩洞的壁画，到米开朗基罗的《大卫》；从居勒马莱伊的电影摄影机，到詹姆斯卡梅隆的《阿凡达》，人的经验、人的思想、人的学识、人的悟性、人的敏感，支撑起来这个以人为最高成本的行业。外物，一直是艺术创作者的工具和实现手段。

换句话说，纪录片行业中的所有工序，人参与的力量一定是主导性的，是属于第一工序的。

摄像机、非线编辑机、音频工作站，都只是各工种的劳动工具。真正参与创作的，是摄像师、剪辑师和录音师。核心工序，一定是以人的可控性主导为源头。

但这次，有一项工种的主导权，不全是人。

——请注意我上述文字措辞的小心。

这几天，很多人联系我，探讨关于纪录片《创新中国》里使用人工智能语音合成技术制作解说的事。

其中，以语言工作者为最大群体。同时，我也看到了很多做声音内容的公众号，发布了相关的文章。

大部分讨论的内容，集中在以下几个方面：

1、人工智能是否已经达到了取代人的成熟？这项技术会不会引起变革？这个变革何时会到来？

2、语言工作者的职业道路将何去何从？会不会有很多人失业？语言相关行业会受多大影响？

3、由此相关的版权问题如何处理？

不可否认，这几个问题，都与语言从业者切身利益紧密相关。

事情还要从最开始说起。

2017年10月19日，我接到《创新中国》史岩总导演电话，说要我去影视之家，重新研究解说人选的事。

史导综合了几个原因，确定使用这项合成技术，并使用李易老师的声音作为模拟源。

其一，本片核心是创新。恐怕没有其他任何片子比它更适合引用一个创新的技术手段融入创作了。

其二，自2011年央视纪录频道成立，李易老师就为其录制了大量的纪录片，成为了频道的标示性声音。频道希望借此机会，向已故的语言大师致敬。

其三，他为纪录频道留下了数量庞大的高音质标准录音素材。这是这件事得以继续的素材基础。

其四，李易老师的吐字发音到位，语速相对均匀，语感稳定，字与字间距均匀，声音特质纯粹，这也是一个让这件事更容易成型的技术因素。

2017年10月26日，我与公司高总陪同史岩总导演和史慧执行总导演，一行四人前往安徽合肥科大讯飞参观协调此事。

这次，我们有幸结识了科大讯飞AI研究院研发主管江源先生。

他是这次语音合成技术的主要技术负责人。还有市场部任萍萍、刘璐等几位同志，他们给了我们的此次行程诉求提供了很大的帮助。

2017年 10月26日，讯飞总部第一次碰头会

或许是因为我跟高总都有工科专业背景，又都是音频工作者，

在与江源先生沟通时颇为顺利。作为“中国最聪明公司”的技术研发高管，他所体现出来的严谨与实事求是，完全异于我们日常看到的关于人工智能的朋友圈文章。

江源告诉我：以目前他们所拥有的国际上最顶级的人工智能语音合成技术，还有很多无法做到令他满意。

比如，还无法合成出来完美的歌唱，无法做到为影视剧配音。但是，给机器一段新闻稿，让机器用标准的普通话合成出来，已经不存在任何技术问题。

他们正在努力让机器更加聪明起来，可以自行准确判断意思重音和结构关系。比如科大讯飞就自己研发了一款软件，叫做“配音阁”（现已改名为讯飞配音），里面就提供了很多种类型的合成语音。也有很多人在用。

其实，此前网上已经出现了很多由语音合成软件制作人声的小视频。这些视频制作成本低，大都以传达信息为主，情感态度语态并不重要。而真正的人类说话，则是这两者并存的。

这次为纪录片制作解说，对他们来说最大的挑战在于，不仅要读字清晰可懂，而且要有神韵和一定的情感。这需要在以前制作的精度上大大提高，不断优化算法。这是他们此前未曾完善的领域。

关注人声合成的朋友们知道，两年前，Adobe公司曾制造出了英语的语音合成软件。

他们对软件输入20分钟左右的人声样音（英文），机器能够识别段落性文字并读出来。大家可以在网上找到发布会演示视频。

但是在这两年的时间里，中国人的技术超过了他们。

我问江源，你需要多少李老师的素材？

他说，越多越好。越多，机器就能够越对李易先生特征了解，模仿出来的就越像。

这个让机器学习并合成的过工程，我打个不太恰当的比方。

计算机就像一锅开水，素材人声就像粉条。粉条放进锅里，煮化了，成了粥水，然后再将这锅“粥”制成粉条。

回到北京后，我们就开始从海量的李老师的语音中筛选。

我们将他的声音分为三类。

第一类，是情绪比较高，浑厚有力的。比如激昂的宣传片和政论片。

第二类，是平缓叙事的，他为纪录频道录制的原创片，大都处于这个表达方式和情绪水平范围。

第三类，是以自然类译制纪录片，声调比较低，声音极为松弛，伴随感较强。

根据《创新中国》的影片需求，我们选定了第二类作为样音基础。

我们重新回顾了李老师在那三年里为频道录制的大量声音，从中精心选出17个小时的素材交给江源。

虽然距离他期望的还有一些差距，但已经可以工作了。

讯飞可以分为几个方面进行分析：音色、韵律、内容。计算机会把这三个方面作为量化分析的重点。

我给大家用简练而不甚准确的语言说明一下。

音色，可以理解为特征波形。每个人的音色的不同，与波形特征有直接的关系。

韵律，可以理解为关系。字内各声母韵母的关系、字头字腹字尾的关系，动程长度，字与字的关系，短语与短语的关系。每个人的韵律不同，每篇文字的韵律也不同。因为这种不同，形成了语言特点与文风。

内容，这是讯飞技术里最容易实现的，就是把字读出来。

江源说，其实，在还有一个更高层次的计算，那就是情感表达。情感是一种不容易量化和学习的复杂参数。正如《创新中国》里讯飞技术高管魏思说，他们正在教给机器如何思考。

科大讯飞的江源和他的团队，是语音方面分析研究的专家，是使用计算机程序的专家，这方面是沐肆洲团队的盲区。但江源不是纪录片人，在纪录片制片流程上，以及对纪录片解说的具体要求上，他并不非常了解。我们两个团队，基于音频搭建的桥梁，组成了一个紧密配合的解说制作小分队。

（2017年10月26日，剧组与讯飞主要参与人员合影）

我们的工作流程是这样的。

1、由剧组向讯飞团队提供稿件，讯飞把稿件进行人工整理分析，标注好一些需要计算机特别需要注意的点，算出音频文件。

2、讯飞团队将合成的语音交给不同人进行初步判断筛选，进行优化处理（曾经有一集出现过最多5个优化版本），交给我们。一并交给我们的，还有一个带编号的解说词文本，每一句话一个编号。上述两个工作，讯飞团队一般需要5天左右时间。

3、我们拿到这条人声文件，将其摆放在片中与预配音对应的位置，进行第二轮筛选。通过预判，找到那些我们认为就算通过各种手段也很难满足要求的人声，在带编号的解说词文本上做好标注，尽快反馈给讯飞，进行进一步焦点处理。不能够满足要求的原因，主要在几个方面：字与字的连贯性、句中断句、重音位置。这个工作，我们沐肆洲团队需要3天左右时间。

4、在讯飞团队进一步做焦点处理的同时，沐肆洲团队开始对声音进行精剪。这是一件工作量极大的事情，也是我在下文中想说明的重点，因为这对于大家来说，这应该也是最有用的一部分。这一步的工作会分为三轮，在我们公司内，由不同的人分别剪辑三遍，通过这种方式，保证每集片子制作水平趋于一致。这个工作需要3天左右时间。

5、等讯飞团队的焦点优化完成，将这些焦点替换进片子里，继续做剪辑。最终，由执行总导演亲临录音棚，与我共同度过了连续半个月，每天12个小时的工作。她家里的孩子期末考试，老公在家发烧，她都没太多时间回去照顾。

为什么把工序过程讲这么多，我是有目的的强调这一部分的。这次合成语音技术之所以能够在限定时间里呈现出一套整体水平一致，平均水平较高的状态，得益于设计的这一套流程的设计。

沐肆洲和讯飞，都是采用由不同人进行几轮初步筛选，层层过筛子，其实在概率上大大降低了硬伤的可能性，让质量维持在一个均衡的水平上。我们管这个水平叫做及格分。在及格分之上，由一两个人最终再过一遍，尽量加分。如果有漏网的硬伤，执行总导演当场改词，以尝试其他可能的组合方式。

工艺和流程是两回事。大部分剧组强调工艺，而忽略流程。所谓工匠精神，不光是一个人埋头苦干，还包括与其他工种协同工作，并设计出一套配合机制。

（未完待续）

长按识别下图二维码关注我们^^.

上一篇:创新中国——科学向艺术致敬
下一篇:我是中国的孩子

公司新闻

Company news

当前位置:

《创新中国》解说制作全记录

作者：沐肆洲