ChatGPT之后,AIGC将如何创新内容创作?_币百科_转赚网

ChatGPT之后,AIGC将如何创新内容创作?

surge 0 0

欧易okx交易所下载

欧易交易所又称欧易OKX,是世界领先的数字资产交易所,主要面向全球用户提供比特币、莱特币、以太币等数字资产的现货和衍生品交易服务,通过使用区块链技术为全球交易者提供高级金融服务。

APP下载   官网注册

作者:胡璇腾讯研究院高级研究员;胡孟晓,研究员,腾讯研究院博士后

图片来源:由无界版图AI工具生成

内容生产,尤其是创造性的工作,一直被认为是人类排他性和智能的体现。《人工智能全传》由牛津大学计算机学院院长MichaelWooldridge于2019年撰写。"写有趣的故事"被列为人工智能的任务之一"远远没有实现"。

今天,AI正在大步进入数字内容制作领域。。AIGC(人工智能生成的内容)不仅实现了"类似人类的"写作、绘画、作曲等多个领域的表现,同时也展现出基于大数据学习的非凡创作潜力。2023年3月15日多模态信息处理基准GPT-4模型正式发布,进一步提高了生成内容的准确性和合规性。数字内容生产的人机合作新范式正在形成,创作者和更多普通人可以超越"技术"和"效率>;享受他们的内容创意。

也有人担心AI会不会让创作者集体"失业"或者甚至做出"创作"本身的衰落,正如艺术作品在机械复制时代可能会失去它的"魅力"。换句话说AIGC的走红让我们有机会重新审视什么"创作"是否是人类独有的。

本文将分析AIGC在改变数字内容创作方面的现状、关键突破和挑战,并尝试对上述问题进行探讨。

AIGC正在成为互联网内容生产的基础设施

数字内容正在进入需求旺盛、视频化、创意化的升级周期,AIGC恰逢其会。网络生活已经成为常态。一方面,用户创造的内容极大地解放了生产力。比如短视频,就是把原本需要长制作周期、高关注度的视频变成"工业产品"和"快速消费品"可以连续生产的;另一方面,作为核心的创意仍然匮乏,需要新的模型来辅助创作者不断产生、迭代、验证创意。各种因素它们都需要成本更低、效率更高的新工具和新方法。

AIGC正在越来越多地参与数字内容的创造性生成,以人机协作的方式释放价值,成为未来互联网的内容生产基础设施。就范围而言,

AIGC逐渐深度融入文字、代码、音乐、图片、视频、3D的制作,可以作为新闻、论文、小说的写作者,音乐的作曲、编曲者,风格多元化的画家,长短视频的编辑者,后期处理工程师。3Dmodeler等多种辅助角色,在人类的指导下完成指定主题内容的创作、编辑和风格转移。

从效果来看,AIGC在基于自然语言的文本、语音、图片生成领域,尤其是知识型短文本方面,初步令人满意。、插画等高度程式化的画面创作,创作效果可以媲美中级经验的创作者;在视频、3D等高媒体复杂度领域处于探索阶段。尽管AIGC在处理极端情况、控制细节和成品的准确性方面还有很大的提升空间。,但势在意料之中。

模式方面,AIGC跨文字、图像、视频、3D的多模态处理是热点。吴恩达认为,多模态是2021年人工智能最重要的趋势。人工智能模型在发现文本和图像之间的关系方面取得了显著进展。比如OPENAI的剪辑,可以做到图文匹配。DallE产生对应于输入文本的图像;DeepMind的感知者IO可以对文本、图像、视频和点云进行分类。。典型的应用包括文本到语音(TTS)和文本到图像生成。从广义上讲,人工智能翻译和图像风格化也可以看作是两种不同"模式"。

上图:原图、AIGC典型场景及发展趋势,摘自红杉资本

下图:用道之云AI翻译的结果

关键突破:自然语言技术解放创造力

AIGC解放创作者如下:"只要你能说话,,您可以创建",你不';你不需要知道原理。不需要学习代码,或者像Photoshop这样的专业工具。在创作者用自然语言(术语是"提示"),AI可以生成相应的结果。。这是人机交互从穿孔纸带到编程语言和图形界面之后的又一次飞跃。

自然语言是不同数字内容类型之间的根信息和链接。例如,单词"猫"是加菲尔德';s图,音乐剧《猫》和无数内容的索引。这些不同的内容类型可以称为"多式联运"。

AIGC在这波行情中最大的底部演变在于AI'的能力"理解"和"使用"自然语言,这与谷歌2017年发布的Transformer密不可分。它开启了大语言模型(LLM)的时代。有了这个强大的特征提取器,后续的GPT、伯特等语言模型突飞猛进,不仅质量高,效率高。以大数据预训练、小数据微调的方式,摆脱对大量人工参数的依赖,在手写、语音和图像识别、语言理解等方面都有很大突破,生成的内容越来越准确、自然。

但是大的模型意味着研究和使用的门槛非常高。比如GPT-3有1750亿个参数,需要大计算能力集群,不开放给普通用户。2022年,midjourney部署在Discordforum中,并作为聊天机器人提供,成为第一个用户友好的AIGC应用程序。,带来了AI绘画热潮,一位设计师甚至用他生成的图片在线下比赛中获奖。

使用简单文字即可交流的低门槛类似于搜索引擎的使用,一下子点燃了普通用户对AI的使用热情。然后,基于扩散模型的一系列文本,生成文本到图像的产品。,如稳定扩散,将AI绘画从设计圈带到大众面前。开源稳定扩散只需要一台计算机就可以运行。到2022年10月,已有超过20万开发者下载。,累计日活用户超过1000万;面向消费者的DreamStudio已经获得了超过150万用户,并生成了超过1.7亿张图片。其令人惊叹的艺术风格,以及图像所涉及的版权和法律问题,也引发了诸多争议。

扩散的冲击还没有消散,ChatGPT已经出现,真的"像小溪一样回答问题"和人类在一起,并且能理解各种需求,写答案,写散文和诗歌创作,写代码,数学和逻辑计算。不仅如此;不人类反馈强化学习(RLHF)技术使ChatGPT能够不断学习人类对答案的建议和评论,并朝着更正确的方向前进,因此它以GPT3不到1%的参数取得了优异的结果。虽然ChatGPT还是有一些缺陷。比如引用不存在的论文和书籍,缺乏数据的答题质量差等等。但它仍然是人工智能史上的里程碑,推出两个月后用户数量就突破了1亿,成为历史上增长最快的消费应用。

下一个挑战:向存在的3D互联网进军

继文本、图片和视频之后,数字技术演进的重要方向是从"在线"到"存在",AIGC将成为构建3D互联网的基石。人们将在虚拟空间中建立一个模拟世界。,在现实世界中"叠加"虚拟增强,达到真实的临场感。随着XR、游戏引擎、云游戏等交互、模拟、传输技术的突破,信息传输越来越无损,数字模拟能力难辨真假,人类的交互和体验将达到一个新的阶段。

目前,AIGC在三维模型领域仍处于探索阶段。一条路径基于扩散模型分为两步:首先用文本生成图片,然后生成有深度的3D数据。谷歌和英伟达在这一领域处于领先地位,并发布了自己的文本来生成3DAI模型。。但从生成效果来看,距离人工制作的3D内容的平均质量还有一段距离。生成速度不尽如人意。

2022年10月,谷歌率先发布了DreamFusion,但缺点也很明显。首先,扩散模型仅适用于6464图像,这导致3D生成的质量较低。其次,场景渲染模型不仅需要大量的样本,而且计算耗时费力,导致生成速度较慢。随后,英伟达发布了Magic3D。面对提示"一只蓝色有毒的箭毒蛙坐在睡莲上",生成一个有纹理的3D模型大约需要40分钟。与Google相比,Magic3D速度更快,效果更好,可以在不断生成的过程中保持相同的主题,也可以将样式迁移到3D模型中。

Magic3D(第1列和第3列)与DreamFusion(第2列和第4列)之间的比较

第二条途径是"合成"在AI的帮助下从不同视角拍摄同一物体的照片,从而直接生成3D。。英伟达在2022年12月的NeurIPS上展示了生成式AI模型——get3d(GeneratedExplicitTextured3D的缩写)。,它可以根据建筑物、汽车、动物等2D图像类别即时合成3D模型。与上述文章中的输出相比,模型和纹理更加详细,并采用了通用3D工具的通用格式。,可直接用于构建游戏、机器人、建筑、社交媒体等行业设计的数字空间,如建筑、户外空间或整个城市的3D表达。GET3D是在NVIDIAA100GPU上训练的。,使用从不同角度拍摄的大约100万张照片,每秒可以生成大约20个对象。结合团队的另一项技术,AI生成的模型可以区分物体的几何形状、光照信息和材质信息,大大增强了可编辑性。

NVIDIA基于AI生成的get3d模型示例

可行路径:结合游戏中的编程生成技术

尽管如此,AIGC在3d端的能力距离构建3D互联网还有很大差距。。游戏中相对成熟的PCG(程序化内容生成)技术,可能对AIGC穿越深水区有很大帮助。

从技术路径来看,AI很难按照"努力创造奇迹",也就是简单的给AI喂海量输入来提升效果。首先,信息量不同,一张图片与3D模型相差一个维度,体现在存储的数据层次不同。然后图片和3D的存储和显示原理是不同的。如果说2D是显示器上像素点阵的客观显示,3D则是实时、快速、海量的矩阵运算,就像一秒钟拍几十张模型的照片。为了精确计算每个像素点,它"呈现"在显示器上。要考虑的因素至少是(1)模型的几何特征,通常用成千上万个三角面来表示(2)材质特征,模型本身的颜色,是强反射金属还是漫反射布(3)光线,光源是否为点状,颜色和强度如何。最后原生3D模型的数据比较少,在游戏、电影、数字双胞胎等领域只有少量的积累,远远少于已经存在了几千年,可以以非数字形式存在的图像。例如,ImageNet包含超过1400万张图片。

四十多年来,游戏行业一直在探索使用计算机来帮助创作者。算法生成的游戏内容最早出现在1981年的游戏Rogue(Toy和Wichman)中,有随机地图和不同的游戏。3D时代程序化生成技术被广泛应用于美术制作中,因为它需要巨大的时间和人力成本。以2018年发布的游戏《荒野大镖客2》为例,600多位美工参与其中,历时8年完成了约60平方公里的虚拟场景。

程序化生成在效率和可控性上介于纯手工和AIGC之间。例如,没有男人';2016年发布的独立游戏《sSky》聚焦太空探索,利用PCG构建了一系列生成规则和参数。,声称要创造1840亿个不同的星球,每个星球都有不同形式的环境和生命。

游戏《无人深空》使用编程生成的海洋生物为例

Epic在2022年创作的互动内容《黑客帝国:觉醒》,在最新的虚幻引擎和编程生成的加持下,创造出一个生动且高度复杂的未来城市。,包括700万艺术资产,包括7000座建筑,38000辆可驾驶的汽车和260多公里的道路,每一条道路都由数百万个多边形组成。

Epic使用虚幻5引擎和编程生成技术高效制作《黑客帝国:觉醒》年的巨大城市。程序生成与人工智能的结合已经成为一个热门的学术领域。每年人工智能和游戏顶级学会《——IEEETransactionsonGames》都会为程序化生成开设专门的讨论版块。剧情、关卡、场景、角色,每个板块都有大量的研究和实践成果在推广。

什么是创造?

关于创造有一句经典的话,——天的天才是99%的汗水和1%的灵感。爱迪生认为1%的灵感是最重要的。AIGC向我们证明,99%的汗水都能产生质变。善用AI的创作者也许是"完整的身体。"

首先,AI和自然人的创作过程并没有那么大的不同:一部作品的诞生,一个作者的成长,都是建立在大量观察、借鉴、模仿、提炼经典的基础上的,并不是一蹴而就的。而创新往往有迹可循。,或是对主流的扬弃甚至反叛,或是对各种元素的添加与整合。所以如知识产权制度,在鼓励创造的基础上,也给予贡献者同等的回报,而不是一刀切的拒绝模仿。第二,作为创造的核心,人没有变:AI是任务导向的,人类是创造的。一方面,人类的信息系统是复杂的,远远不是几个"提示"投入。正如一位网友所说,艾灿';don’不要取代我,因为它不能。我不理解老板';的需求。。乙方无五年';体验,可以';不要解释甲方所说的"想要气氛"。另一方面,对艾';的增长仍然是由人提供的,而艾';的可靠性和可信度也取决于人';的使用和反馈。2021年断奶的ChatGPT没有';我不知道2022年世界杯的结果。

从实用的角度来看,AIGC会给普通用户更多的创作动力和自由。从PGC、UGC到AIGC的发展路径可以看出,普通人越来越多地参与创作,数字内容不仅在数量上呈现指数级增长。类型和风格也走向了更加包容多元的生态。未来,用户可以使用手机拍摄的一系列照片,通过AIGC工具生成可用的3D效果图。用这种方式创造内容我们可以想象,未来的数字空间将不再完全由开发者构建,而是响应用户的需求而产生';AIGC的投入。

AIGC工具的杠杆效应对于专业人士来说更显著:如果对于普通人来说收益是从0到1对于专业人士来说,可能是从1到10,这样可以集中精力做更高层次、更有价值的东西,比如构思、风格、构图、元素组合、后期处理,或者前期如何做尽可能多的demo,找到更好的解决方案。使用AI也正在成为一种新的职业能力。擅长"施法"纷纷开发出AI近乎无限的潜力,在社交平台上留下了让人唏嘘的作品。

从更长远来看,创作和艺术的历史是一部螺旋上升的历史。它是某种风格在数量上极其丰富、质量上达到巅峰后的突破、突变和跨界,也是一个时代精神感受的凝结。我们有理由相信,创新在AIGC改革下依然存在,甚至加速了它的发展。

参考来源:

[1。

[2.

[3.

[4.

相关内容

标签: 生成内容 数字内容 游戏中

ChatGPT之后,AIGC将如何创新内容创作?文档下载: PDF DOC TXT