人工智能微软新 AI 框架或成游戏业福音

作者:Adios更新于： 2020-03-08 16:33:13

2D 图像变 3D，微软新 AI 框架或成游戏业福音。人工智能是计算机学科的一个分支，二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能）。也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。这是因为近三十年来它获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。

已经有不少机构在将 2D 图像转换为 3D 形式的方面进行了尝试，包括 Facebook、Nvidia 等公司的 AI 研究实验室，或是类似 Threedy.AI 这样的初创公司。

雷锋网注：上图为微软模型生成的 3D 沙发，椅子和浴缸图像

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

已经有不少机构在将 2D 图像转换为 3D 形式的方面进行了尝试，包括 Facebook、Nvidia 等公司的 AI 研究实验室，或是类似 Threedy.AI 这样的初创公司。近日，来自微软的研究团队也发表了一篇预印论文，展示了其在非结构化 2D 图像的基础上生成 3D 形状图像的能力。

通常来说，训练这样的框架需要通过栅格化处理来进行微分步骤渲染，因此，过去研究人员在该领域的努力都专注于开发定制渲染模型。然而，通过此类模型处理的图像会显得不够真实自然，也不适合用于生成游戏以及图形产业的工业效果图。

微软的研究人员这一次做了新的突破——他们在论文中详细介绍了一个框架，该框架采用的“可缩放”训练技术是第一次被用于这一领域。研究人员提到，在使用 2D 图像进行训练时，该框架始终可以比现有的模型生成效果更好的 3D 形状，这对于视频游戏开发人员、电子商务公司，以及缺乏创建 3D 模型经验的动画公司来说，称得上是“福音”。

具体来说，研究人员试图利用功能齐全的工业渲染器，该渲染器可以根据显示数据来生成图像。为此，研究人员训练了 3D 形状的生成模型，以便渲染形状并生成与 2D 数据集分布相匹配的图像。生成器模型采用随机输入向量（代表数据集特征的值）并生成 3D 对象的连续体素表示（3D 空间中网格上的值），然后将体素输入到不可微分的渲染过程中，并在使用现有渲染器进行渲染之前将其阈值降低为离散值。

也就是说，这是一种新颖的代理神经渲染器直接渲染由 3D 形状生成模型生成的连续体素网格的方式。正如研究人员所解释的那样，在给定 3D 网格输入的情况下，需要对其进行训练以匹配现成渲染器的渲染输出。

生成式对抗网络（GANS）在产生 2D 图像数据方面的成果令人印象深刻，许多视觉应用，比如游戏，都需要 3D 模型作为输入，而不仅仅是图像。但是，直接将现有的 GAN 模型扩展到 3D，需要获取 3D 训练数据。

雷锋网注：上图为微软模型生成的 3D 蘑菇图像

在实验过程中，研究团队为上述生成器采用了 3D 卷积 GAN 架构（GAN 是一个由两部分组成的 AI 模型，其中包括生成器，这些生成器使用分布式采样从随机噪声中生成合成示例，并将这些示例与训练数据集中的真实示例一起馈入鉴别器中，以尝试区分两者）。基于 3D 模型生成的数据集和真实的数据集可以合成来自不同对象类别的图像，并在整个训练过程中从不同角度进行渲染。

研究人员还表示，他们的框架还会从图像中提取照明和阴影信息，使其能够从每个训练样本中提取更多有意义的数据，并在此基础上产生更好的结果。在对自然图像的数据集进行训练之后，该框架可以生成逼真的样本。此外，该框架还可以利用表面之间的曝光差异来成功检测出凹形物体的内部结构，从而使准确地捕获凹形程度和中空空间。

将颜色，材料和照明等信息合并到系统中，未来，这些信息就可以与更多“常规”实际数据集一起使用。

著名的美国斯坦福大学人工智能研究中心尼尔逊教授对人工智能下了这样一个定义：“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为：“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

标签：人工智能计算机尖端技术

上一篇：人工智能会抢走我们的工作吗

下一篇：VMware虚拟显卡的发展历程

人工智能微软新 AI 框架或成游戏业福音

作者:Adios更新于： 2020-03-08 16:33:13

课课家教育