人工智能是如何实现图像版GPT-3的？

作者:机器之心更新于： 2021-03-31 12:33:22

官方论文代码放出，OpenAI是如何实现图像版GPT-3的？2018年4月3日，中国高校人工智能人才国际培养计划启动仪式在北京大学举行。教育部国际合作与交流司司长许涛透露，教育部将进一步完善中国高校人工智能学科体系，在研究设立人工智能专业，推动人工智能一级学科建设。教育部在研究制定《高等学校引领人工智能创新行动计划》，通过科教融合、学科交叉、进一步提升高校人工智能科技创新能力和人才培养能力。

OpenAI 放出 DALL-E 的部分论文与实现代码。

今年年初，OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区，这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像，效果十分惊艳。

如输入「牛油果形状的椅子」，就可以获得绿油油、形态各异的牛油果椅子图像。

如果 GPT-3 一样，大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。

经过近两个月的等待，DALL-E 的论文和代码终于新鲜出炉！

不过此项目正在更新，截止发稿时 DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分，而 Transformer 代码部分还没有公开。除此以外数据集也不能使用。而论文也是公布了 d-VAE 的论文。

项目地址：httPS://github.com/openai/DALL-E

论文地址：https://arxiv.org/abs/2102.12092

只能期待后续 OpenAI 公开更多的技术细节。

DALL-E 部分代码已开源

这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前，需要先安装软件包，代码如下：

pip install git+https://github.com/openai/DALL-E.git

解码器、编码器代码

d-VAE 论文

年初在论文还没有公开的情况下，就有人开始复现，他们复现的依据来自某博主制作的油管视频，在视频中，对 DALL·E 的原理结构进行了猜测。那么，现在论文已公开，是否颠覆了他的预想。

传统上，文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息，例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法，将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下，当以 zero-shot 方式评估时，该研究提出的方法与以前的领域特定模型具有相当的竞争力。

中国人工智能发展迅猛，中国政府也高度重视人工智能领域的发展。预计到2020年，中国人工智能产业规模将超过1500亿元，带动相关产业规模超过1万亿元。2017年全球新兴人工智能项目中，中国占据51%，数量上已经超越美国。但全球人工智能人才储备，中国却只有5%左右，人工智能的人才缺口超过500万。

标签：信息安全软件开发计算机网络

上一篇：人工智能数据科学制胜之道

下一篇：人工智能集成工作场所管理系统迎来新功能升级

人工智能是如何实现图像版GPT-3的？

作者:机器之心更新于： 2021-03-31 12:33:22

课课家教育