CVPR(Conference on Computer Vision and Pattern Recognition)即国际计算机视觉和模式识别会议,是IEEE主办的全世界最大的,也是最权威的计算机视觉领域会议,在国际上享有盛誉并具有广泛的学术影响力。 网易互娱AI Lab针对实际业务中的视频动作捕捉需求,提出了一套创新、高效的产品级手部动作捕捉方案并整理成论文《Spatial-Temporal Parallel Transformer for Arm-Hand Dynamic Estimation》,被CVPR 2022接收。
图(左和中)为双视角拍摄的图,图(右)为游戏实际角色效果
动作捕捉技术在影视和游戏行业已得到广泛的应用,其中最常用的技术方案是光学动作捕捉。光学动捕需要演员穿着紧身动捕服,并且在身上粘贴光学标记点,在配置好光学动捕设备的场地进行表演和动作录制。光学动捕设备通常价格不菲,同时还需要固定的室内场地,使用成本和门槛较高,很多小型动画工作室只能望而却步。如果可以从手机拍摄的视频中高精度地捕捉人物动作,那将是动画师的福音。
网易互娱AI Lab针对这个需求开发了iCap —— 一款产品级的视觉动作捕捉工具,只需用手机从两个视角拍摄同一组人物动作,便可快速高质量地捕捉到人物的动作,得到骨骼动画数据。
相比于传统光学动作捕捉流程,iCap有以下优势:
1.快速产出:能够快速产出动作数据,更适用于敏捷开发,方便前期试错;
2.随时随地:只需光照条件足够让拍摄清晰,便可随时随地拍摄视频,产出结果;
3.节约人力,节约成本;
值得一提的是,iCap不仅支持身体关节数据捕捉,也支持手部数据捕捉,CVPR被录用的论文,就是iCap中的手部动作捕捉方案。
现有的手部动作捕捉方法大部分是将手部信息和身体信息分开考虑的,即这些方案的输入是单纯的手部视觉信息。这样做的问题是,捕捉到的手部动作可能会和手臂动作存在不匹配,不协调的情况,在整合进全身动作捕捉数据时容易产生不合理的姿态。另外,现有的手部动作捕捉方法大多都只考虑了当前帧的信息,未能考虑帧间连续性,输出的动作容易出现抖动,也难以应对复杂的手部动作捕捉场景(模糊、遮挡等)。这些问题都导致现有方案比较难以推向实际应用。
为解决现有方案的痛点,网易互娱AI Lab提出了解决方案,该方案的主要贡献点如下:
1.考虑到手臂动作和手部动作之间的相关性,设计模型同时预测手臂和手部动作;通过利用此相关性,输出的手臂和手部姿态会更加合理;
2.通过两个transformer模型分别在时间和空间维度上提取相关性信息,使得手臂和手部的相关性能够更好地被利用,与此同时也能输出帧间连续的结果;另外,论文还定制了合适的目标函数以获得准确而稳定的输出序列;
下图展示了iCap中手部动作捕捉算法的整体框架及整体的效果,目前该算法已接入视觉动作捕捉产品iCap中,并持续帮助多个游戏工作室进行动作资源辅助生产。
整体框架
部分实验效果
关键词: