1. 首页 > 新鲜事

我是智能捏脸师,把人类上传到虚拟世界|新职业研究所(假如你能定制自己的脸,你会做什么样的脸?)

假如你能定制自己的脸,你会做什么样的脸?如今,在各种虚拟世界中,无论是还原自己还是创造新角色,人们都希望有一个独特的形象。提供固定面部素材组合的传统捏脸方式已经不能满足用户的差异化需求,人们不再想和别人有一张脸。特别是在创建虚拟图像需求最集中的游戏行业,随着硬件配置的不断迭代,游戏在图片精细度和角色控制自由度方面越来越强大。为了满足玩家的个性化需求,一些游戏开发者开始为玩家提供一套完整的自由度“捏脸”系统可以让玩家根据自己的审美细化设置角色外观,让游戏体验更加沉浸。然而,更复杂的捏脸系统也带来了更高的操作和审美要求。当面前有数百个滑块时,人们不知道如何调整他们想象中的图像。因此,智能捏脸系统应运而生,只需上传自己喜欢的图像照片,就生成高度还原的3D避免虚拟角色“游戏五分钟,捏脸两小时”的麻烦。捏脸技术不仅可以用于游戏,还可以用于制造虚拟人,并应用于文化旅游、医疗等行业。从元宇宙的角度来看,捏脸可能是元宇宙系统中最基本的项目,每个人都需要通过捏脸来定制自己的虚拟图像,创造虚拟分离。打造AI智能捏脸师实际上是人工智能算法工程师的一个方向,他们负责开发捏脸功能,训练捏脸系统。智能捏脸师既要会AI算法、开发工具、深度学习框架、理解艺术、心理学、面部相关知识,在工作中经常遇到意想不到的问题和细节,也会有意想不到的收获。2018年底,网易伏羲人工智能实验室智能捏脸项目在端游《逆水寒》上线。这也是世界上第一次MMORPG实现基于单张照片的智能捏脸游戏。该系统使用大量的随机参数来模拟捏脸和训练AI学习捏脸的过程。玩家上传照片后,系统会将照片拆解成AI理解形式,如五官位置、大小、妆容颜色等特征,AI这些特征将根据这些信息进行恢复。以下是三位网易伏羲智能捏脸师的自述,略经APP编辑:01除鼠标、键盘和手柄外,我们还增加了玩家与游戏互动的渠道。网易伏羲视觉计算组负责人和智能捏脸师展示了我们视觉计算组的主要研究方向是如何通过视觉和图音技术丰富游戏玩法,如捏身、动作和表情迁移以及捏脸。捏脸项目是我们的核心项目,从18年7月立项到现在,我已经参与研发三年多了。每年捏脸系统都会有版本迭代,从第一版到现在的第三版,每年都会有一些创新的技术点,发表一些论文。一开始,我们有做这个产品的想法,因为网易是一款名为逆水寒的大型端游,包括一个非常复杂的捏脸系统。每一个玩家都可以通过操控游戏里面几百个滑块来调整参数,比如调整眼睛大小、鼻子大小、人中长短等等,去得到一个自己喜欢的形象。这个形象可以参考现实人物的参考,玩家可以捏刘亦菲以捏自己。虽然功能很强大,但对于大多数普通玩家来说,完成一个满意的形象可能需要几天的时间。所以游戏方找到了我们,希望我们能通过AI根据玩家上传的照片,自动分析其面部特征,调整参数,然后生成尽可能高的三维图像。和游戏方聊天后,我们觉得这很有趣,对用户也很有帮助。当时我们发现淘宝上有很多人通过帮玩家捏脸的服务赚钱,从几十元到几百元不等,月销量很高。这表明许多玩家希望有人能帮助他们捏脸,我们可以让更多的玩家通过技术更便宜、更方便地享受这项服务,这是我们18年的初衷。我们是业内第一个提出这种智能捏脸游戏的团队,在MMORPG游戏中第一个做出这种玩法的人也发表了一些顶级会议和论文。当时没想到这个项目会持续三年,因为对我们来说,其实这只是我们很多项目中的一个,但是做了之后发现智能捏脸服务在游戏中很受欢迎,很多玩家都愿意体验。玩家还会给我们写很多评论和意见。在开发过程中,我们也感到非常兴奋,因为很多玩家喜欢我们的产品,我们的技术为他们提供服务,创造价值。游戏方也给了我们很多建议,支持我们不断迭代产品。在迭代中,我们还将参加一些学术会议并与同行分享。渐渐地,越来越多的公司开始涉及智能捏脸领域。事实上,智能捏脸也经历了迭代和成长的过程。18年12月推出的第一版是迭代神经网络优化算法。它的优点是不需要监督数据,也就是说,我们不需要收集真实的人脸照片来训练AI,我们完全使用我们的系统生成渲染的照片进行自我监督培训。与采集数据相比,我们的整个系统将更加多样化。我们可以训练任何照片,成本很低。但缺点是每张照片都需要迭代调整,所以当时的速度不是很快。为了满足游戏上线后的并发需求,我们调整了很多GPU在玩家的每张照片中,服务器最终可能会在0.5秒内稳定结果。第二年产品迭代后,我们大大优化了速度。我们将算法改为单步前向算法,在质量不变的情况下将运行速度提高2000倍左右,即达到毫秒级,可能需要几毫秒甚至不到毫秒。在第一个版本中,我们要求玩家上传正面照片,照片的光线不能变化太大。后来,我们提高了鲁棒性,使玩家的照片更自由。在第二年的第二个大版本中,我们不仅捏出了脸的形状,还恢复了脸的纹理细节。比如脸上可能有刺青、皱纹或者痘痘,我们都会恢复。从我们最新的成果来看,基本上由照片捏出来的脸,和照片已经很难分辨了。微表情也是我们进一步改进的地方,微表情其实比简单的捏脸涉及到更多,也需要艺术方的支持。我们现在使用的表达方式是基于设置的51个基础,形成各种表达方式,但这样很难让角色表达微妙的表达方式。例如,当系统检测到玩家微微抬起嘴角或微微眯起眼睛时,它无法反映角色。目前,我们正在改进这一点。为了使角色更加还原和逼真,我们不仅可以捏出外表,还可以研究如何在这个捏脸方案中基于骨骼实现微表情,从而更好地体现人的气质。通过将图像视觉算法与游戏相结合,我们可以为游戏带来很多新的东西,创造一些传统的行业游戏所没有的功能,使游戏和人之间的距离更近。捏脸、表情、动作等功能游戏有了“眼睛”,它可以观察玩家,然后通过识别玩家自身的特征在游戏中做出反馈。除了鼠标、键盘和手柄,我们还增加了一个玩家与游戏互动的渠道,那就是摄像头。玩家可以通过视觉信息与游戏进行许多神奇的互动,使视觉计算和游戏产生新的火花。在做捏脸这个项目之前当然也会有一些没想到会遇到的状况,比如之前我也很难想象我们一堆直男会去看美妆视频。一开始我们去捏脸的时候,发现很多女玩家会上传明星或者化妆美颜后的照片。大多数男孩可能会随意拍摄,所以一开始我们没有考虑口红。后来,我们也可以添加口红选项,然后我们的几个男孩开始讨论口红的颜色。你知道吗?没人知道结果。我们决定了红色、橙色和粉色三种颜色。后来被产品教育,说口红有多少颜色。因为这些事情,我们真的去了视频网站和短视频平台学化妆。然后我们知道化妆有这么多步骤,比如眼影、腮红、遮瑕膏、化妆...有很多东西。所以我们现在也学到了很多事实上,在过去,对我们来说,很多时候女孩不涂口红就是不化妆。现在我们可以看到这个人可能有什么,他可能玩什么,他知道一些知识,他不知道将来是否有用。作为演员,我们也会去录影棚录一些实验资料。我记录了我的表情、身体和动作,重建了我自己的三维数字图像。当我看到三维自己出现在屏幕上时,我觉得很神奇,然后我没有我想象的那么好。我明白绝大多数人对自己的外表水平有点误解。在拍摄过程中,我们也了解了演员拍摄背后的艰辛,所以我们也开始研究如何减少他们的工作量,以及如何帮助特效演员做一些特效来减轻他们的负担。我们的研究主要围绕人展开,为服务人提出一些解决方案。我们还将为游戏提供智能捏脸NPC的制作。原因是当我们体验自己的合作游戏时,我们发现了很多NPC除了衣服,它们看起来都一样。了解之后发现是因为做了一个NPC对一些不重要的人来说,成本相对较高NPC,游戏玩家会使用相同的脸,我们认为智能捏脸可以解决这个问题,所以提供一套算法可以自动生成面部,他们只需要通过简单的操作可以得到很多不同的面部,选择满足面部的需求。这样可以大大加速NPC生产工艺,降低成本。这种合作使我们有了进一步的想法,除了生成每一个NPC我们也希望这张独特的脸NPC我们希望的智力,我们希望这个NPC看起来像人,动起来像人,说话像人,有人类真实的情感和表达,就像电影《失控玩家》一样NPC能够真正独立地与玩家进行更深入的互动。这也是我们想要完成的工作,包括自然语言组和强化学习组,希望给玩家带来新的体验。除了游戏,我们还将尝试做一些娱乐项目、医疗项目和一些文化和旅游项目,如让游客实时体验景点或博物馆,以及一些项目,如让用户的形象穿越到某个朝代。事实上,我们正在做的一系列话题是,在缩短现实世界与虚拟世界之间的距离时,我们希望使现实世界的数字化过程越来越方便、便宜、方便,虚拟世界与现实世界的互动越来越强。我们在现实世界中所做的可以带到虚拟世界,虚拟世界的成就也可以反映在现实世界中。例如,我在虚拟世界中赚钱,在现实世界中获得回报。当我们的技术发展到一定水平时,我们希望每个人最终都能自由地穿越这两个世界,学习、工作、娱乐和突破一些现实障碍,如空间限制或疫情限制,然后让每个人更紧密地联系在一起,让人们有更多的交流和合作。我认为实现这种技术只是时间问题。就像很久以前人们说千里传音是一件很神奇的事情,但是现在打电话很方便,很快就有了视频通话。技术的发展是不断缩短人与人之间的距离。但当虚拟世界发展到一定程度时,比如元宇宙诞生时,人们会模糊虚拟世界和现实世界的界限,甚至沉迷于虚拟世界吗?我认为从技术上讲,我们希望虚拟世界更真实、更方便、更丰富。用户有自己的选择,但最终,我们真正的幸福可能是从现实世界中获得的。我们的成就感和贡献仍然来自现实世界。例如,当我做视觉计算时,我认为我的贡献是,我通过自己的工作为现实中的许多人服务,让他们快乐,让我的技术得到认可,然后我得到了很大的成就感。我不希望你沉迷于我们通过技术建立的游戏世界。我只是希望这个游戏世界能给你带来一些放松和调整。这么多年下来,我做了很多东西,也影响到了这么多用户,这份工作对我来说是非常让我开心,也很有成就感的。现在元宇宙、虚拟人等都特别需要这些技术,我也愿意不断推进。有时候看到一些微信官方账号传播一些数字人的尖端技术,我会想,我们已经在做这些事情了。02做AI捏脸本来想捏得更像人,却发现有人更喜欢捏“妖怪”我是人工智能算法工程师,你也可以叫我智能捏脸师。我们研究的AI智能捏脸就是利用高保真三维人脸重建技术,让玩家只需上传一张照片就能快速获得类似的虚拟图像。同时,生成的模型也可以根据用户的想法进行调整。AI本质是特征处理。我们的系统不需要真实照片的数据库,而是直接使用随机参数进行训练AI模拟捏脸。需要在照片中选择关键点,如眼睛的大小和面部特征的位置,然后在捏脸系统中检测这些关键点,调整参数,使两者一致,以达到恢复效果。在训练过程中,AI当匹配到一定精度时,指标将自动设置并停止。这样,我们就可以来的人脸和照片达到我们想要的相似性。训练捏脸系统有一个过程,一开始就做Demo这个系统可能是一件非常粗糙的事情,生成的模型非常丑陋,没有头发或眉毛。随着对AI训练,慢慢地会有一个从零开始的过程,从一开始不像,捏出脸都差不多,到相似度越来越高。在算 在法律优化过程中会有明显的变化。我们建立的系统也从一个非常混乱的状态,逐渐流程化,我们熟悉每个模块,注入了很多努力。每次做做一个新项目,你都应该从基础训练开始。虽然算法过程是统一的,但每个项目的艺术和风格是不同的。男性、女性、儿童和老年人不同,最终生成的算法也会有差距,所以我不会觉得无聊,但我认为这是一种新的体验。在项目对接中,我们也会遇到一些意想不到的细节。比如《永劫无间》的海外版,要考虑种族和肤色,因为以前主要面向国内市场,基本面向中国人。现在,根据不同的种族,我们需要优化模型来判断肤色。我们的沉浸式会议系统“瑶台”,在举行学术会议时,许多专家学者戴眼镜,特别增加了新的眼镜功能模块,以恢复现实。现在捏脸系统主要用于游戏。我会尝试玩我们合作开发捏脸系统的游戏,也会去论坛和贴吧看看玩家对捏脸系统的作品和评价。玩家捏脸也有不同的方向,有的玩家会上传明星的照片捏脸,或者自己捏脸。这种捏脸要考虑人物的美观。AI是无法理解“美丑”是的,它只会量化关键点,不会考虑气质。我们从几个不同的角度训练AI的“审美”。首先,我们建立了一个人脸评分数据库。我们之前有一个玩家的捏脸比赛。通过比赛,我们可以知道大多数玩家喜欢什么样的外表。其次,我们邀请了很多艺术来帮助我们标记一些AI基于这些监督数据,我们可以对捏脸照片的外观进行初步训练AI获得美丑基本评价标准。基于这个标准,我们可以驱动它,让我们的照片生成的模型看起来更好。同时,我们会要求艺术帮助我们定义很多他们认为什么样的脸会特别漂亮的模型,就像整容医院的模板一样。最后,相当于对系统产生的结果进行了微整形手术,以匹配每张脸最合适的整形手术方向。当然,我们也会调整权重,让系统在和美之间权衡。有些玩家会捏一些二维动画角色。在此之前,我们的系统仍然倾向于捏真人的照片,因此参数将受到系统设置的限制。一些奇怪的脸型和眼型无法恢复,对二维角色的支持度较低。但是当我们看玩家的评价时,我们发现捏丑也会被喜欢。有一些奇怪的作品,比如像皮卡丘、灭霸一样捏,或者整张脸变形的角色,也很受欢迎。我也试着捏一些奇怪而不同的角色,比如我捏猪八戒,这个独特的角色可以在游戏中看到,感觉很有趣。所以现在我们也会尝试恢复一些非常规的面部形状,我希望当玩家上传二维和非现实的照片时,我们也可以恢复它,更接近玩家的创作需求。除了游戏,我们的捏脸系统还可以应用到各种软件上。目前,它与虚拟音乐会、剧本杀戮、沉浸式会议系统等相结合。现阶段在应用中植入捏脸系统还是一个很大的工程,所以网上的应用类型不多,相信流程进一步简化后会更受欢迎。不仅捏脸,还有表情迁移和动作迁移的功能。玩家可以让自己的虚拟角色做出和自己一样的表情和动作。通过我们的技术,AI捏每个图像都可以支持面部和身体运动,即成为虚拟人的条件,我们伏羲内部项目组,如语音、动作、文本等已经成熟,结合每组技术做高精度的虚拟人项目,智能捏脸也会支持这样一个话题。在元宇宙中,人们也希望有一个独特的形象。事实上,我们沉浸式会议系统“瑶台”就类似一个“极简元宇宙”。瑶台建立了一个虚拟化的会议场景,人们通过自己的虚拟形象在线互动。在智能捏脸方面,与游戏中的角色相比,元宇宙的虚拟角色会近距离看到对方的脸,对捏脸的精细度和真实性会有更高的要求,我们也在朝着这个方向前进。03捏脸是网易伏羲智能捏脸产品负责人楚涵的主要工作是从如何赋能游戏和商业化能力的角度规划我们的捏脸产品,然后与需求方对接,促进产品的完成。游戏类的AI产品有很多角度,比如图形图像,我觉得我们在做的是把同样的游戏内容变成个性化的表达,让我们的游戏更生动,丰富世界。我们的最终呈现是在游戏中生成千人千面的游戏分离。根据每个人的个性,我们在虚拟世界中上传的角色可能与真实的自己不同,但这也是我们的一部分。在不同的场景中,我们可能会产生不同的形象。例如,在社交软件中,我们可能希望创建一个更好的角色;在游戏中,我们希望有一个有趣的形象;在工作场所,我们希望我们的角色能给人一个可靠和严谨的印象。因为人不是单一的,其实虚拟世界本身就是我们的另一面。这是我们在那一幕中想要表达的一面性格,一种心理诉求。与现实世界相比,虚拟世界减少了各种限制,所以我们可以释放我们真正想要表达的部分,成为我们真正想要成为的人。虚拟人物成为我们的出口。人是一种视觉动物,所以通过捏脸创造出的形象,我们可以带给别人不同的感受,留下我们想让别人对我们留下的印象,去打破我们真实长相的局限。对自己长相不自信的人,也许能通过这个功能得到心理上的满足,达到自己想要达到的状态。即使我选择丑陋的形象,也是我的视觉表达。虽然形象不同,但文字和情感还是我自己。从产品的角度来看,我认为用户最基本、最核心的智能捏脸需求实际上是“一键操作”。到底是追求好看还是特别,是真实的还是二次元的,这和客户群体有关。比如PC端游用户对高清和真实需求高于手机用户。对风格而言,没有办法一概而论。其实用户最喜欢的就是操作简单。无论是哪种形象,首先都需要简单的操作。上传照片后,我可以立即生成我想要的捏脸结果。我以前做过面部特效布局,比如美容和贴图,大部分用于短视频和直播产品。我熟悉人类的底层检测,相对智能的捏脸会更基本、更传统。而捏脸AI从识别检测到个人模型的生成,一系列的推广将非常有趣,因为它有各种各样的情况,我们需要想出各种各样的解决方案。作为智能捏脸的产品侧,我们需要不断地去收集市场方面的热点和趋势,还有用户的新需求。有时候我们捏一个很奇怪的形象,比如用脸捏一个皮卡丘,有人可能会觉得这么丑。你为什么要捏它?然而,从产品的角度来看,我们实际上需要尝试各种各样的东西,因为用户不能受到限制,他们的接受度很高。当我们的系统更开放时,用户会做出更多的解释。比如我们游戏《永劫无间》中最新的捏脸效果,从检测能力到生成能力的整合,都有了很大的提高。现在互联网上最受欢迎的一点是,永恒的灾难打破了面部模式,正在做一些开放的捏脸效果和分享,如孙悟空、伏地魔、阿凡达等非真人脸捏脸效果,在游戏玩法上取得了突破。我们经常对开发提出一些想法,他们会训练和迭代系统,这对他们来说也是一个挑战。比如给他提一些夸张的卡通形象,那么捏脸和生成的时候怎么样这个形象能不穿模,或者像肤色、胡子这种怎么能更像真人。此外,我们现在上传的图像是静态的、单帧的,我们会要求用户上传面部暴露的照片,这样捏出来的图像就不全面了。例如,也许我前鼻梁的高效果是通过我的化妆技术实现的,我的鼻子原本是相对扁平的。为了解决这个问题,我们现在所做的就是通过引入多角度序列帧图像来生成更立体的捏脸结果。其他研究还规划如何生成更自然的头发。头发也是一个很难克服的话题。如果你想重建后的头发100%相似,你需要解决很多问题,比如物理动态的问题,以及头发是成片、成缕还是成发。这些不同的生成结果对系统性能有不同的要求。生成后,它的物理动作,即如何让头发跟随你的状态你的状态,是另一个难题。目前,我们的系统仍然从材料匹配的角度重建一个面积较小的相似发型,然后去更高的精度和更好的方向迭代。我们需要明确当前产品阶段的需求和目标,制定明确的计划,推动大家朝着这个方向前进。结合我们现在的未来和未来ai、互联网、虚拟现实和区块链技术,虚拟角色如何打破现实世界的障碍,如何在虚拟世界中交流和娱乐,如何让我们感到更身临其境,这是我们需要探索的方向。我认为我们在这方面有一个自然的优势,那就是娱乐是人们自然生长的欲望,是人们自然会感兴趣和做的事情。因此,沉浸式游戏可以说是元宇宙的第一步。虽然过程中可能会出现很多难点,但我们会尽力去推进它的实现,这不仅是我们的工作,也是世界未来的一个大方向。(本文首发APP,作者|李如嘉,编辑|天鹏)

假如你可以定制自己的脸,你会制作出怎样一张脸?如今,在形形色色的虚拟世界里,人们都希望能拥有一个独特的形象,无论是将自己还原,还是创建一个新角色。传统提供固定脸部素材进行组合的捏脸方式,已经无法满足用户的差异化需求,人们不再希望和别人共有一张脸。

尤其在创建虚拟形象需求最集中的游戏业界,随着硬件配置不断迭代,游戏在画面精细度和角色操控自由度方面越发强大,为了满足玩家的个性化需求,一些游戏开发商开始为玩家提供一整套自由度极高的“捏脸”系统,可以让玩家根据自己的审美细化设定角色外观,使游戏体验更加沉浸化。

不过,更加复杂的捏脸系统也带来了更高的操作要求和审美要求,当面前摆着几百个滑块,人们却不知道如何才能调制出自己想象中的形象。于是智能捏脸系统应运而生,只需要上传你喜欢的形象的照片,就可以生成高度还原的3D虚拟角色,避免“游戏五分钟,捏脸两小时”的麻烦。

捏脸技术不仅可以用于游戏,也可以用于制造虚拟人,并应用于文旅、医疗等行业。而从元宇宙的视角来看,捏脸可能是元宇宙系统里最基础的项目,每个人都需要通过捏脸定制自己的虚拟形象,打造虚拟分身。

打造AI捏脸系统的智能捏脸师,其实是人工智能算法工程师的一个方向,他们负责开发捏脸功能、训练捏脸系统。智能捏脸师既要会AI算法、开发工具、深度学习框架,又要懂美术、心理学,面部相关的知识,在工作中常常会遇到意想不到的问题和细节,也会有出乎意料的收获。

网易伏羲人工智能实验室的智能捏脸项目,于2018年底在端游《逆水寒》中上线。这也是全球首次在MMORPG游戏中实现基于单张照片的智能捏脸玩法。系统使用大量的随机参数来模拟捏脸,训练AI学习捏脸的过程。玩家上传照片以后,系统就会把照片拆解成AI理解的形式,比如五官的位置、大小,妆容颜色等特征,AI就会根据这些信息,对这些特征做复原。

以下是三位网易伏羲智能捏脸师的自述,略经APP编辑:

01 我们在鼠标、键盘和手柄以外,增加了一个玩家和游戏交互的渠道

网易伏羲视觉计算组负责人、智能捏脸师 神秀

我们视觉计算组主要研究方向是如何通过视觉和图音学的技术去丰富游戏的玩法,比如捏身体,进行动作、表情的迁移,还有捏脸。

捏脸项目是我们的核心项目,从18年7月立项到现在,我已经参与研发三年多了。每一年捏脸系统都会有版本迭代,从最开始的第一版到现在的第三个大版本,每年都会有一些创新的技术点,发表一些论文。

最开始我们有做这个产品的想法是因为网易一款叫《逆水寒》的大型端游,其中包括一个非常复杂的捏脸系统。每一个玩家都可以通过操控游戏里面几百个滑块来调整参数,比如调整眼睛大小、鼻子大小、人中长短等等,去得到一个自己喜欢的形象。这个形象可以以现实的人物为参照,玩家可以捏出刘亦菲,也可以捏出现实中的自己。功能虽然很强大,但是对于大部分普通玩家来说,可能需要花费几天的时间才可以完成一个满意的形象。

于是游戏方就找到我们,希望我们能够通过AI的技术,根据玩家上传的照片去自动分析他的面部特征,调整参数,然后生成一个和照片相似度尽可能高的三维形象。我们和游戏方聊了之后,觉得这个很有意思,对用户也很有帮助。当时我们发现淘宝上有很多人通过帮玩家捏脸的服务来赚钱,收费在几十块钱到几百块钱不等,月销量很高。这说明很多玩家都有希望有人能帮助他实现捏脸的需求,而我们通过技术能够让更多的玩家更廉价、更便捷地享受到这种服务,这就是我们18年立项的初衷。

我们是业内首次提出这种智能捏脸玩法的团队,并且在MMORPG游戏中第一个做出了这种玩法,也发表了一些顶级会议和论文。当时做的时候也没有想过这个项目会做持续三年之久,因为对我们来说,其实这只是我们众多项目中的一个,但是做下来之后发现智能捏脸服务在游戏中非常受欢迎,有非常多的玩家愿意去体验。玩家也会给我们写很多评价和意见。我们在开发的过程中也觉得很受振奋,因为很多玩家都喜欢我们的产品,我们的技术为他们提供了服务,并且创造出了价值。游戏方也给了我们很多建议并且支持我们不断地对产品进行迭代。在迭代中我们也会去参加一些学术会议,和同行进行分享,逐渐地就有越来越多的公司开始涉及智能捏脸的领域。

其实,智能捏脸也经历了一个不断迭代和成长的过程。

在18年12月上线的第一版,是一个迭代的神经网络优化的算法。它的优势是不需要监督数据,即我们的捏脸不需要去收集真实人脸照片去训练AI,而完全是用我们的系统自己生成渲染的照片来做自监督训练,比起采集数据的方式,我们整个系统的多样性就会更丰富,任意的照片我们都可以训练,并且成本很低。但它的缺点是对每一张照片都需要去迭代地调整,所以当时的速度不是很快。为了满足游戏上线后的并发需求,我们调了非常多的GPU服务器,大概最后稳定在玩家每一张照片能够在0.5秒之内出结果。在第二年对产品的迭代之后,我们进行了速度上的一个大幅优化,我们将算法改成了一个单步的前向算法,在质量不变的情况下将运行速度提高了大概2000倍,即达到了毫秒级,可能几毫秒的时间,甚至不到毫秒的时间就能够出结果。

第一个版本我们要求玩家必须上传正面照片,照片光照不能过于变化不均,后来我们改善了鲁棒性,使玩家照片可以拍地更自由。在第二年的第二个大版本,我们不仅捏出了人脸的形状,还会还原它面部的纹理细节。比如说脸上可能有一个刺青、皱纹,或者痘痘,我们都会将它还原出来。从我们最新的成果来看,基本上由照片捏出来的脸,和照片已经很难分辨了。

微表情也是我们正在进一步改进的地方,微表情其实比起单纯捏脸涉及到更多,也是需要美术方的支持。我们现在使用的表情呈现是基于设置的51个基底组成各种表情,但是通过这种方式很难让角色表达细微的表情,比如当系统检测到玩家微微上扬嘴角或者微微眯起眼睛时,是无法反应到角色上的。目前我们正在对这点进行改进,为了使角色更加还原,更加逼真,不仅仅能够捏出长相,我们正在研究如何基于骨骼去在这个捏脸方案上实现微表情,从而能够更体现出人的气质。

通过将图像视觉算法与游戏结合,我们可以给游戏带来很多新的东西,创造一些业界传统的游戏不具备的功能,让游戏和人之间的距离更近。捏脸、表情、动作这些功能,就像是让游戏具备了“眼睛”,它可以观察玩家,然后通过识别玩家本身的特征去在游戏内部做一些反馈。相当于我们在鼠标、键盘和手柄以外增加了一个玩家和游戏交互的渠道,就是摄像头。玩家可以通过视觉信息跟游戏发生很多很神奇的交互,让视觉计算和游戏擦出新的火花。

在做捏脸这个项目之前当然也会有一些没想到会遇到的状况,比如之前我也很难想象我们一堆直男会去看美妆视频。最开始我们去做捏脸的时候,发现因为很多女玩家会上传明星或者是自己化妆后的、美颜后的照片。男生可能大多数就随便拍拍了,所以刚开始我们是没有考虑到口红这种东西的。后来说那我们也可以加个口红的选项,然后我们几个男生就开始讨论说口红有几种颜色你知道吗?结果没人知道。我们就拍板定了三种颜色,红色,橘色和粉红色。后来就被产品教育了,说口红有多少多少个颜色。因为这些闹出了很多事情,后来我们就真的去视频网站,去短视频平台上面去学习化妆。然后大家才知道,原来化妆有这么多步骤,比如说什么眼影、腮红、遮瑕、修容......有非常多的东西。所以我们现在也了解到了很多,以前其实对我们来说,可能很多时候女生不涂口红就是没化妆,现在就能看出来这个人可能是上了什么,可能打了什么,懂了一些不知道以后有没有用的知识。

我们也会为了实验,作为演员去录影棚录一些资料。我就去录了我的表情和身体以及动作,给我自己重建了一个三维数字形象。我看到那个三维的自己出现在屏幕里的时候就觉得是挺魔幻的,然后也没自己想象的好看。我就理解了确实绝大部分人对自己的颜值都有点过高的误解。在拍摄过程中,我们也了解到演员拍摄背后的辛苦,于是我们也开始研究怎么样降低他们的工作量,还有怎么去帮助特效演员去做一些特效,减轻他们的负担。我们的研究主要还是围绕人去展开,为了服务人去提出一些解决方案。

我们也会把智能捏脸提供给游戏去做一些NPC的制作。起因是我们有一次在体验自己合作的游戏的时候,发现很多NPC除了衣服以外,其实长得都是完全一样的。了解之后发现,因为制作一个NPC的成本比较高,其实对一些不重要的NPC,游戏方都会用同样一张脸,我们就想智能捏脸其实可以解决这个问题,于是向游戏方提供了一套可以自动生成人脸的算法,他们只需要通过简单的操作就可以得到非常多不同的人脸,从中选择符合需求的人脸就可以了。这样一来可以大大加速NPC的制作流程,并且降低成本。

这次合作又使我们产生了进一步的想法,除了生成每个NPC独有的脸,我们还希望这个NPC能够具备一定的智能,我们希望这个NPC长得像人,动起来也像人,说起话来也像人,有人类真实的情绪和表达,就像《失控玩家》那部电影一样,让NPC能真的自主和玩家进行更深度的交互。这也是我们联合包括自然语言组、强化学习组等一起想要完成的一个工作,希望为玩家带来一个全新的体验。

除了游戏以外,我们现在也会尝试去做一些直播之类的娱乐项目、医疗项目、还有一些文旅项目,比如让游客都能够实时实景地体验景区或者博物馆,也会有一些穿越的项目,比如让用户的形象穿越到某个朝代。

我们正在做的一系列课题实际上就是,在缩短现实世界和虚拟世界的距离,我们希望能让现实世界数字化的过程越来越便捷、越来越廉价、越来越方便,希望虚拟世界和现实世界的交互越来越强。我们在现实世界中做的事情,可以带到虚拟世界,而在虚拟世界的成就也可以反应到现实世界里。比如我在虚拟世界里赚到了钱,在现实世界也能获得回报。当我们的技术发展到一定水平,我们希望最后大家都能够自由地在这两个世界穿越,去学习、去工作、去娱乐、去突破现实的一些壁垒,比如空间上的限制,或者疫情的限制,然后让大家更加紧密地联系在一起,让人和人之间有更多的交流和合作。这样的技术的实现,我想也只是时间问题了。就像人们很久以前说千里传音是一件很神奇的事情,但现在有了电话就很方便,而很快,我们又有了视频通话。技术的发展,就是在不断地拉近人与人之间的距离。

但是至于当虚拟世界发展到一定地步,比如当元宇宙诞生,人会不会去模糊虚拟世界和现实世界的界限,甚至沉溺于虚拟世界?我想从技术上来说我们希望虚拟世界能更加真实、更加方便、更加丰富,用户们有自己的选择,但最终我们真正的快乐可能还是要从现实世界中得到。我们的成就感也好、贡献也好,都还是要来源于现实世界的。就比如我做视觉计算,我觉得我的贡献就是我通过自己的工作服务了很多现实中的人,让他们获得了快乐,让我的技术被人认可,那我就从中得到了很大的成就感。我不希望大家沉迷在我们通过技术搭建的这个游戏世界里,我只是希望这个游戏世界能给大家在繁忙的工作之余带来一些放松,带来一些调剂。

这么多年下来,我做了很多东西,也影响到了这么多用户,这份工作对我来说是非常让我开心,也很有成就感的。现在元宇宙,虚拟人等等其实都特别需要这些技术,我也愿意把这个技术不断地往后推进。有时候看到一些公众号传播一些数字人的前沿科技的时候,我就会想,这些东西我们已经在做了。

02 做AI捏脸原本是想捏得更像人,却发现有人更喜欢捏“妖怪”

网易伏羲智能捏脸师 晚丰

我是人工智能算法工程师,你也可以叫我智能捏脸师。

我们所研究的AI智能捏脸,就是利用高保真三维人脸重建技术,使玩家仅需上传一张照片,就可以快速获得与之相像的虚拟形象。同时,还能根据用户的想法对生成的模型进行调整。

AI的本质是特征处理的工作,我们的系统不需要真实照片的数据库,而是直接利用随机参数去训练AI模拟捏脸。需要在照片上选取关键点,比如眼睛大小和五官的位置,然后在捏脸系统中也去检测这些关键点,调整参数让两者一致,就可以做到复原的效果。在训练过程中,AI会自动设置指标,当匹配到一定精度时就会停止。这样就可以保证捏出来的人脸和照片达到我们想要的相似度。

训练捏脸系统有一个过程,最开始做Demo的时候这个系统可能就是很粗糙的一个东西,生成出的模型很丑,没有头发也没有眉毛。随着对AI的训练,慢慢地会有一个从无到有的过程,从刚开始不像,捏出来脸都差不多,到相似度越来越高。在算法优化的过程中会有明显的变化。我们搭建的系统也是从一个很杂乱的状态,到逐渐流程化,我们对每一个模块都很熟悉,都在其中注入了很多心血。

每次做一个新的项目都要从基本训练开始,虽然算法流程是统一的,但是每一个项目的美术和风格是不一样的,男性、女性、小孩、老人都各有不同,最后生成的算法也会有有差距,所以我不会觉得枯燥,反而认为都是一种新的体验。

在项目对接的时候,我们也会遇到一些之前想不到的细节问题。比如《永劫无间》的海外版本,就要考虑人种和肤色的问题,因为之前主要面向国内市场,面向的基本都是国人。现在根据不同人种,我们就需要优化模型,去做一个肤色上的判断。还有我们的沉浸式会议系统“瑶台”,在举办学术会议的时候因为专家学者很多都戴眼镜,为了更还原现实特地增加新的眼镜功能模块。

现在捏脸系统主要应用在游戏中,我们合作开发捏脸系统的游戏我都会去尝试游玩,也会去论坛和贴吧看看玩家对捏脸系统的作品和评价。玩家捏脸也有不同的取向,有的玩家会上传明星的照片捏脸,或者本人的捏脸。这种类型的捏脸就要考虑人物的美观性。AI是无法理解“美丑”的,它只会把关键点量化,不会考虑气质上的东西。

我们通过几个不同的角度去训练AI的“审美”。首先我们建立了一个人脸打分的数据库。我们之前有一个玩家的捏脸大赛,通过大赛我们其实可以知道大部分玩家喜欢什么样的长相。其次我们请了很多美术帮我们去标了一些AI生成的捏脸照片的颜值,基于这些监督数据,我们可以初步训练AI得出一个美丑的基本评价标准。基于这个标准,我们可以驱动它,让我们的照片生成的模型变得相对好看一点,同时我们还会请美术帮我们定义很多他们认为在什么样的脸型上会特别美的范本,就像整容医院的模板一样。最后相当于系统给生成的结果做了一个微整形,对每一张脸去匹配一个它最合适的整形的方向。当然我们也会调节权重,让系统在像和美之间进行一个权衡。

还有一些玩家会捏一些二次元的动漫角色。之前我们系统还是倾向于捏真人的照片,所以在系统设置上会限制参数,像一些奇怪的脸型和眼型之类的就无法还原,对二次元角色的支持度较低。但是在看玩家评价的时候我们发现,其实捏得丑也会被人喜欢。有一些奇形怪状的作品,比如捏得像皮卡丘、像灭霸一样的,或者整个脸都变形的那种角色也很受欢迎。我也尝试过捏一些奇怪的、和别人不一样的角色,比如我捏过猪八戒,这种有特点的角色在游戏里隔很远就能被看到,感觉也挺有意思的。所以现在我们也会尝试去复原一些不常规的脸型,希望当玩家在上传二次元的、非现实的照片的时候,我们也能够将它还原出来,去更加贴近玩家的创作需求。

除了游戏之外,我们的捏脸系统还可以应用到各种软件上,目前有在做和虚拟演唱会、剧本杀、沉浸式会议系统等等的结合。现阶段在应用内植入捏脸系统还是个很大的工程,所以上线的应用类型并不多,等流程进一步简化之后相信就会更加普及。

不仅是捏脸,表情迁移、动作迁移的功能也已经在游戏中落地,玩家可以让自己的虚拟角色做出和自己一样的表情、一样的动作。通过我们的这些技术,AI捏出的每一个形象都可以支持面部和身体的运动,即具备成为一个虚拟人的条件,目前我们伏羲内部的各个项目组,比如语音,动作,文字等都已经发展成熟,正在结合各组的技术去做一个高精度的虚拟人项目,智能捏脸之后也会去支持这样的一个课题。

在元宇宙中,人们也会希望自己拥有一个独特的形象,其实我们的沉浸式会议系统“瑶台”就类似一个“极简元宇宙”。瑶台搭建了一个虚拟化的会议场景,人们在线上通过自己的虚拟形象进行交互。在智能捏脸方面,比起游戏里的角色,由于元宇宙的虚拟角色会近距离看到彼此的脸,对捏脸的精细度和真实度的要求会更高,我们也在向着这个方向去推进。

03 捏脸是把千篇一律的游戏内容,变成了个性化的一种表达

网易伏羲智能捏脸产品负责人 楚涵

我的主要工作是站在怎么为游戏和商业化能力赋能这个角度,去规划我们的捏脸产品,然后和需求方去对接,推进产品的完成。

游戏类的AI产品有图形图像等多个方面的角度,而我认为我们在做的捏脸是把千篇一律的游戏内容,变成了个性化的一种表达,让我们的游戏更加得生动,这个世界更加得丰富。我们最终的呈现是在游戏里生成了千人千面的游戏分身。

根据每个人的个性,我们在虚拟世界上传的角色有可能和现实中真实的自己不一样,但其实这也是我们的一部分。而在不同的场景下,我们生成的形象可能也会不一样,比如在社交软件,可能大家就会希望生成一个好看一点的角色;在游戏里,会希望拥有一个有趣的形象;在工作场景下,就会希望自己的角色给人一个可靠、严谨的印象。

因为人本来就不是单一的,实际上虚拟世界的自己就是我们的另一面。它是我们在那个场景中想表达的一面性格,一种心理诉求。而因为比起现实世界,虚拟世界减少了种种限制,所以我们能去释放那个真正想表达的部分,去成为我们真正想成为的人。虚拟角色成为了我们的出口。

人是一种视觉动物,所以通过捏脸创造出的形象,我们可以带给别人不同的感受,留下我们想让别人对我们留下的印象,去打破我们真实长相的局限。对自己长相不自信的人,也许可以通过这个功能得到心理层面的一种满足,去达到自己希望达到的状态。就算我选择丑的形象,也是我的一种视觉表达。虽然形象不同,但是其中的文字和情绪等等还是我自己。

而站在产品的角度,我认为用户对于智能捏脸的最基础、最核心诉求其实是“一键操作”。到底是追求好看还是特别,是真实的还是二次元的,这和客户群体有关。比如PC端游的用户对高清和真实的需求就高于手机端用户。对于风格来说,更是没有办法一概而论。用户最喜欢的其实是操作简易化,不管是哪种形象,首先就需要操作简单,上传照片之后马上就能生成出我想要的捏脸结果。

我之前是做人脸特效版面,比如美颜美型还有贴图,大多用于短视频和直播产品,对人类底层检测这一块是比较熟悉的,相对智能捏脸会比较基础和常规。而捏脸AI从识别检测深入到个人模型的生成,一系列推进都会非常的有趣,因为它的情况多种多样,需要我们想出各种解决方案。

作为智能捏脸的产品侧,我们需要不断地去收集市场方面的热点和趋势,还有用户的新需求。有时候我们去捏了一个很奇怪的形象,比如用人脸捏了一个皮卡丘,就有人可能会觉得这么丑你们为什么要去捏?但是从产品的角度其实是要去尝试这种五花八门的东西,因为用户是不能局限的,他们的接受度是很高的,我们的系统开放性大了,用户也会去做更多的阐释。

比如说现在,我们《永劫无间》这款游戏中最新的捏脸效果从检测能力到生成能力一体化都有很大的提高。现在网上最热门一个点就是说《永劫无间》有打破人脸格局,在做一些开放式的捏脸效果和分享,比如说孙悟空,伏地魔,阿凡达这类非真人人脸的捏脸的效果,达成了玩法上的突破。

我们经常会给开发提一些想法,他们会根据这些对系统做训练和迭代,其实这对于他们来说也是一种挑战。比如给他提一些夸张的卡通形象,那么捏脸和生成的时候怎么样这个形象能不穿模,或者像肤色、胡子这种怎么能更像真人。

除此之外,我们现在上传的图像是静态的、单帧的,我们会要求用户上传正面的人脸外露的照片,那这样捏出的形象是不全面的。比如也许我正面鼻梁高的效果是通过我的化妆技术达成的,我的鼻子原本是比较扁平的。为了解决这个问题,我们现在在做的是通过导入多角度的序列帧图像,去生成一个更立体的捏脸结果。其他研究还有关于如何生成更自然的头发方面的策划。

头发也是一个比较难攻克的课题,想要重建后的头发做到百分百相似,需要解决很多问题,比如物理动效的问题,还有头发构建出来是成片,成缕还是成发丝,这些不同的生成结果对于系统性能的要求也是不一样的。在生成之后,它的物理动效,即如何让头发跟随你的状态自然带动,又是一个难题。目前我们的系统对于生成头发还是以素材匹配的角度,去重构一个面数较少的相似发型,之后会再去向精度更高,跟随效果更好的方向迭代。我们需要明确现在产品阶段的诉求和目标,去做一个清晰的规划,带动大家都往这个方向走。

未来,结合我们现在的ai、互联网、虚拟现实和区块链的技术,虚拟角色怎么样打破真实世界的隔阂,在虚拟世界中怎么样进行交流娱乐,如何让我们更有沉浸感,这都是我们需要去探索的方向。我觉得我们在这方面有一个天然的优势,就是娱乐是人们自然生发的欲望,是人们天然就会感兴趣的、会去做的事情,所以沉浸式游戏,可以说是元宇宙的第一步。虽然过程中可能会出现很多难点,但我们会尽力去推进它的实现,这不仅是我们的工作,也是世界未来的一个大方向。

(本文首发APP,作者|李如嘉,编辑|天鹏)

本文由早VC·元宇宙世界为您分享,内容源于网络搜集整理,版权归原作者所有,,转载联系作者并注明出处:http://www.zaovc.com/news/920.html

联系我们

在线咨询:点击这里给我发消息

微信号:qq12345678

工作日:9:30-18:30,节假日休息