大会上,网易伏羲AI虚拟人首席专家丁彧博士发表了《数字人的前生今世与未来》主题演讲,分享了网易伏羲的数字人研究成果。在丁彧博士的带领下,现场嘉宾展开了一场关于未来的想象:如果数字人成为现实,世界将是怎样。
数字人,是基于数字成像技术的虚拟人。数字人的起源来自人类,只有理解了人类,数字人才可以复刻人类,富有像人类一样的能力——比如有说话语音的能力,讲话的时候有各种表情、肢体语言的能力。
今天,随着器械的制造、信息学、AI技术的蓬勃发展,人类已经可以开始数字化定量地对人类进行理解。这催生了数字人的诞生,数字人从此进入人类历史的舞台。
丁彧博士现场展示了网易伏羲的虚拟人技术。在视频中,数字人可以复现人类细腻的肢体表达。而在一组对比视频中,由人工智能技术算法产生的面部表情动画,已经与由动捕产生的画面十分接近。
运用网易伏羲的技术,由一句话生成动画的时间大概只要30-50毫秒。这背后的意义绝对不仅仅是降低了动画的生产成本,而是意味着一个数字人能够进行自主的表达,不再需要时间。这就为下一代的人机交互做好了准备。
最后,丁彧博士畅想了数字人发展所展现的广阔应用前景。未来,在高效的脑电信号交流的环境下,数字人能够完全复刻人类,比如可以复刻无数的“张桂梅”校长去解决教育资源不平等的问题。而AR、VR等技术也为虚拟人形象的生成提供无限的可能。
以下为网易伏羲AI虚拟人首席专家丁彧博士演讲的部分内容:
大家好,12月的杭州还是有些寒冷的,今天的主题是“洞见与未见”,让我们把脑洞打得更开一些,想象力更多一些。
我今天带来的话题是“数字人”。提到数字人,那它一定不是实体的机器人,而是基于数字成像技术的虚拟人。
数字人的前世,今生,和未来。
首先,让我们来开宗明义: 什么是数字人的前世,什么是数字人的今生,更重要的是,我们想知道未来的数字人是什么样子。
对人类的起源,人们一直以来有很多争论,但是数字人起源是非常清晰的,数字人的起源一定是人类。让我们定义成“数字人的前世就是理解人类”。只有理解了人类,搞懂了人类,那么数字人就可以复刻人类,这也是当今时代各个战线的科技工作者们正在努力的方向:我们希望数字人富有像人类一样的能力——比如有说话语音的能力,讲话的时候有各种表情、肢体语言的能力。
大家可以发挥想象力,尝试想想数字人的未来是什么。在这里,我首先做一个定义,当数字人的技术无限的强大,在那个时候,数字人的未来一定是无限地、充分地服务人类。
先讲讲数字人的前世。数字人的前世与理解人类有关。自人类诞生以来,人类从来没有停止过对人类自身的理解,包括亿万年来人类的起源问题。
在5000年前,在良渚古城向我们揭示了5000年前的人类,他们已经有了非常高效的社交能力。大家可以群聚在一起,以团队的方式完成大型的水利工程,这就说明人类的社交能力在人类生产、生活中至关重要,我想这也一定是数字人将来一定要具备的能力,具有数字社交能力。
时间再拉到文艺复兴19世纪上半叶,实验科学得到了大量发展。实验科学推进了人类对人类的理解。150年前,达尔文通过物证的方法论证了人类的起源,达尔文不仅仅论证了人类的起源,还有实验的方法研究了人类的社交行为,比如表情。为什么表情很重要呢?对于一个婴儿来说,在还没有学会说话的时候,已经会用表情与父母、与亲人产生社交行为。
图中的六幅图片,就是150年前达尔文研究人类的表情,他用电击的方式促进人类不同面部的肌肉,看一下肌肉怎么反应,以此获得人类如何通过面部的肌肉、面部的动作来表达情绪的。同时,除了表达以外,还有研究如何从对方面部肌肉中,感知和理解他的情绪和心理状态。
在过去150年当中,实验科学得到了巨大的发展,给心理学、社会学、行为学积累了大量的对人类定性理解的积累。
但是到了今天,随着器械的制造、信息学、AI技术的蓬勃发展,人类已经不再仅仅满足于定性的对人类理解,人类已经可以开始数字化定量地对人类进行理解。一旦可以定量,这时候数字人就诞生了,数字人就进入人类历史的舞台。
这是网易游戏制作的游戏视频,基于光学的“动捕”设备可以捕捉到人类细微骨骼的运动,我们把细腻肢体艺术表现,可以复刻在游戏的数字人当中。
大家可以看到,在这样一个数字世界中,不仅可以复现人类细腻的肢体表达,数字世界也同样逼真了。
在21世纪前20年,人工智能的技术得到蓬勃发展,在这个时候,人工智能技术已经赋予数字人一种能力,他们不再需要动捕的设备,不再需要手工的制作动画,它能够根据剧情的需要,根据内心表达的需要,能够自主产生面部的表情。
接下来的视频是配对的视频,这个数字人它们在说同样的话。左边这个由人工智能技术算法产生的面部表情的动画;右边是由动捕产生的,左边跟右边越接近,我们认为这个技术已经让面部表情的表达已经越逼真了。大家可以感受一下他们之间的相似性和差距。
可以看到这样动画参数的生成已经非常接近了,对人类来说,一句话的时间生成动画大概只要30-50毫秒。这背后有什么意义?绝对不仅仅是把动画的生产技术的成本降低了。我认为30-50毫秒是非常重要的,也就意味着一个数字人能够进行自主的表达,不再需要时间。比如我现在在这里演讲,我只需要思考我的演讲内容,不再需要关注我的表情和肢体动作,也就为下一代的人机交互做好了准备。
除了智能的表情以外,网易伏羲的人工智能专家们也使得数字人具备了智能肢体语言表达的能力。在交流过程中,除了面部表情,还通过肢体语言来进行交流,这样一个动画展示了人工智能技术产生的肢体语言。
这个意义在哪里?比如今天发生了一个社会热点,这样一个新闻的虚拟偶像需要播报热点,但是按照传统的技术,需要靠人工制作动画,或者动捕设备去捕捉这个人体的骨骼,然后再修正。这样的动画做好大概一星期以后,经济和人力的成本不去说,关键是一星期以后这个社会热点已经没有了,但是用了人工智能的技术,能够在几分钟之内就能完成视频的制作。
除了交流、说话、表达的时候有丰富的面部表情以外,数字人也可以听到音乐以后自动编排舞蹈。
在同一个时期,高仿真的数字人也出现了,接下来展示的视频并不是大家常见用手机或者用相机拍摄的点,完全是由人工智能算法去计算而成的。
大家可以观察一下,在这个视频中,两个数字人在说话,它们的面部表情是否逼真,除了面部表情以外,轻微的头部运动、肢体的运动包括男士喉结的运动、脖子上横纹的运动甚至是衣服细微褶皱的运动,可以观察一下视觉的表象。视频中展现的是他们在学习人类说话,会听到一个旁白音说一个话,然后他们重复这个话,我们重点关注它的视觉表象。
大家可以看到在外表的表象上很多部分的细节已经跟人类非常非常逼真。但是我们不仅仅局限于外表像真人,希望我们的数字人还有大脑。那么现在的5G,将来的6G、7G进一步发展,让通讯变得更加的高效。同时,物联网时代到来,一切都是数字化,那这样一切数字化也就为数字人带来强大的大脑知识库,那一切的算力提高、通讯的快速,还有复杂数据的处理,都为我们数字人提供了智力的保障,提高了记忆力系统,提高了推理能力。在那时候,我们的数字人一切皆可计算、一切皆可画像、一切皆可推理。
除了数字人大脑这一块,数字成像技术也在迅速的发展。今天大家听到的AR、VR,将来可能还有BCDEFG各种“R”,各种“R”的技术也为虚拟人表象的生成提供无限的可能。时间再往后推50年,80年,甚至100年,当脑电技术进一步发达时,我们的人类、我们生物人与数字人的交流可能不再是视觉的方式进行交流,也不再是以听得见的语言来交流,那时候可以以脑电信号来交流。数字人和人类之间可以互相通信,通信脑电的信号。那在这个时候,我们的感知、感觉、情感、性格、爱好、习惯、记忆,这些看不见、听不见,但却真实存在的生物信号可以直接用来跟数字人进行交流。
在这样一个高效的脑电信号的交流情况下,我们数字人能够完全复刻人类。当数字人技术得到无限发展后,我想到了那个时候,人类的精神体验就能得到极大的满足。那就让我们基于今天技术,又不限于今天技术,大胆想象一下,将来数字人如何服务于人类。
当这个技术无限发展时,数字人能帮我们人类在精神体验上服务人类,包括可以帮助我们人类跨越空间、跨越时间,甚至跨越生命。有一首歌是这样子的,“我想带你去浪漫的土耳其,然后一起去东京和巴黎”。受空间的限制,今天看起来这样一个旅游线路真的是糟糕透了,费钱又费力。但是当数字人得到普及以后,这件事情就不再是这样子了,我们在一个周末可以派孪生数字人,一个去土耳其,一个去巴黎,还有一个去东京。在这个时候,“缘分”这个概念可能会被改写了。比如,我们在物理世界中的两个人,我们一辈子都可能不再有机会相遇。但恰巧在同样一个周末,我派了孪生数字人去了巴黎旅游,那另外一个朋友也派了他的数字人去巴黎旅游,两个数字人在数字世界中,在卢浮宫门前相遇了,他们发现性格、爱好、认知数据完全匹配,他们决定结伴一起渡过美好的巴黎周末。周日回来之后,我们各自的数字人通过脑电信号可以让我们立马感知到整个周末的旅游体验,那这样子我们周一还可以打个电话,在物理世界中和另外一个“朋友”聊聊周末旅游的感受。就这样,数字人和生物人能够得到无缝的连接。
好,周末的旅游已经完了,周一来了,我们来聊一点更加严肃的话题,教育资源的不平衡。
张桂梅校长被评为“时代楷模”,她用了毕生精力来扎根于乡村教育,其实就是在解决教育资源不平衡的问题。但是可以想象一下,我们还有更多的乡村,更多的地区,更多的国家,需要更多的张桂梅女士,这样对生物人来说显然是不可以解决不了的。
这时候虚拟人教师的出现可以解决这个问题。因为数字人教师它可以具备完备的知识体系,不受时间和空间的限制,可以实现个性化、一对一的教育。实际这一点,网易伏羲在2019年的暑假就领先于行业,迈出了第一步。我们给一款在线教育编程产品赋于了数字人的教师功能。
我来解释一下,它解决的痛点是什么。通过小朋友学生在前端操作电脑的时候,他所有的数据都是可以被跟踪记录下来的。其实根据这个知识库,我们可以判断出他的知识点薄弱环节,甚至可以判断出他在什么时候开始不感兴趣了,什么时候想放弃了。这样一些能够检测到的信号都没有被利用起来,但数字人、虚拟老师出现,这些数据全部可以利用起来。当我们检测到他有知识点薄弱环节时,数字人能够主动的跳出来为他讲解知识,那这样小朋友就不需要等到家长,等到老师讲解了,这样一个产品的黏性就提高了,学习效率就提高了。同时,我们数字人也是可以具备心理学的知识,当小朋友厌倦时,想放弃时,虚拟教师也可以主动鼓励他,甚至他也许有点骄傲时,可以稍稍批评他。
教育资源不平衡聊完之后,我们再来聊一下医疗资源不平衡。医疗资源不平衡一直是一个痛点,热点的话题,不同的地区无法享有同样的医疗资源,但数字人的普及,我们可能会有一个贴身的数字医生。贴身的数字医生,可以监控着我们的饮食起居,甚至对我们的DNA都是了如指掌,对我们的生活习惯实时提出各种建议,甚至对餐桌上的食物和餐桌食物制作过程都可以数字化的了如指掌,也可以提出建议,什么该多吃、什么该少吃、什么又不能吃。另外一方面,一旦医疗成果出现以后,在今天的社会一定是地区、地区传播的,不同地区在不同时间段享有最一流的医疗成果。
这样的话,其实是滞后的。但一旦有了数据的传输,贴身的医生能够及时为每一个人更新最新的医疗成果,让我们在医疗成果面前能够得到最及时、最公平的享有。有了这样贴身医生之后,我们的生物物理身体的寿命能够极大延长,我们就有机会极大限度去享用身体。
好的,教育资源、医疗资源聊完之后,我们再聊一个轻松浪漫的话题。无数的影视作品有去设想,可能会有一个虚拟的女朋友,就像电影片段里所展示的这个女孩,就是一个虚拟的。其实找对象这个话题一直以来都是人类历史永恒的话题,甚至找对象今天也成为了一个产业。其实对一个二三十岁年纪的人来说要决定一生的伴侣,是一个有挑战性的事情。
但是当数字人普及之后,这件事情就会变得美好了很多。我们可以派出孪生的数字人去数字世界与其他异性的孪生数字人一起谈恋爱,因为在数字世界中数字人不会对异性朋友本身的生活工作造成干扰,那这时候我们可以派出多个数字替身与多名异性数字替身进行谈恋爱。在数字世界中,一段时间后,数字人会告诉我们不同的体验,帮助我们得到更好的选择。又因为区块链这样的技术出现,确保了在数字世界中一切数据都是真实可靠,并且是安全的。在数字恋爱世界中,我们可以更美好的改变爱情生活。
聊完了数字人帮助我们跨越空间、跨越时间,那么再聊一个更有温度的话题,跨越生命。其实也有无数的影视作品,无数的科技工作者们提过这个话题,是否能够让我们已故的诗人得到复活,是的,这也应该是数字人将来的一个方向,我们也希望能够跟李白对饮三百杯,再跟他吟诗作赋,让已故的英雄偶像能够得到数字化的复活。甚至让已故的世人能数字化的呈现,我们依然有机会和他们交流。
这个视频中展示的就是一个年轻的妈妈,技术工作者们帮她复现了去世的小孩。
好的,那我更多想提的不是说数字化能够复现已故的世人,更多是想提出一个问题,活着的在座,今天我们还活着,但一百年以后,我们将会失去物理的生命,但我们数字化的生命还将存在在数字世界中,它还将生活着500年,生活着1000年。那他将继续如何在数字社会中存在、生活和工作呢,那就取决于我们活着这100年给他提供的初始化数据,那么也就提醒大家珍惜到今天的生活和工作。
谢谢大家!
关键词: 数字人