Google Imagen AI创建的图像示例 成像/Google
ntext="Article" data-image-id="2322059" data-caption="Examples of images created by Google’s Imagen AI" data-credit="Imagen/Google" />
科技公司正在竞争创建人工智能算法,这些算法可以从文本提示中产生高质量的图像,而技术似乎如此迅速地进步,以至于有些人预测人类插画家和股票摄影师很快就会失业。实际上,这些AI系统的限制意味着可能需要一段时间才能被公众使用。
近年来,使用神经网络的文本到图像发生器取得了显着进展。Google的最新成像是在Dall-E 2的高跟鞋之后,由Openai于4月宣布。
两种模型都使用了在大量示例中训练的神经网络,以对图像与文本描述的关系进行分类。当给出新的文本描述时,神经网络会反复生成图像,更改图像,直到根据所学的文本最与文本匹配。
尽管两家公司提出的图像令人印象深刻,但研究人员质疑结果是否正在挑选樱桃以最佳的方式显示系统。“您需要提出最佳效果,”英国De Montfort大学的Hossein Malekmohamadi说。
判断这些AI创作的一个问题是,这两家公司都拒绝发布公共演示,从而使研究人员和其他人能够使他们得以通过。造成这种情况的部分原因是担心AI可以用于创建误导图像,或者仅仅是因为它可以产生有害结果。
这些模型依赖于从互联网的大型,未修改的部分刮除的数据集,例如Laion-400m数据集,Google称其包含“色情图像,种族主义诽谤和有害的社交刻板印象”。Imagen背后的研究人员说,由于无法保证它不会继承一些有问题的内容,因此他们无法将其发布给公众。
Openai声称通过“完善文本过滤器并调整自动检测和响应系统违反内容政策”,可以改善DALL-E 2的“安全系统”,而Google则试图通过开发“潜在危害的词汇”来应对挑战。没有公司都不能与 新科学家 在发表本文之前。
除非可以解决这些问题,否则似乎不太可能提供Google或OpenAI等大型研究团队提供其文本到图像系统供一般使用。较小的团队可能会选择发布类似的技术,但是在巨大的数据集上训练这些模型所需的庞大计算能力往往会将其限制在大型玩家身上。
尽管如此,大型公司之间的友好竞争可能意味着该技术仍在迅速发展,因为一个组开发的工具可以将其纳入另一组的未来模型中。例如,扩散模型(神经网络学习如何扭转向图像添加随机像素的过程以改善它们的过程)在过去一年中在机器学习模型中表现出了希望。在该技术在功能较小的模型(例如OpenAI的Glide Image Generator)中有效后,DALL-E 2和Imagen都取决于扩散模型。
“对于这些类型的算法,当您拥有非常强大的竞争对手时,这意味着它比其他模型更好地帮助您建立模型,” Malekmohamadi说。“例如,Google有多个在相同类型的[AI]平台上工作的团队。”

