文生视频大模型Sora的问世,引起了科技界、产业界和公众的广泛关注。传播学专家如何看待Sora?它根据提示词生成的视频是否将开启一个新的传媒时代?解放日报·上观新闻记者近日采访了复旦大学新闻学院传播学系教授邓建国。在他看来,这个人工智能大模型将开启“世界建模UGC(用户生产内容)”时代。
过去,用计算机技术为外部世界建立虚拟模型,只能由专业技术人员完成。Sora问世意味着,大众只需输入一些提示词、几句话,就能由大模型生成符合物理规律、展示外部世界动态变化的视频,即完成“世界建模”。虽然它生成的视频还有不少瑕疵,如动物数量忽多忽少、椅子等固体会柔软变形,但随着技术迭代,人工智能的建模能力将日益提升,使虚拟视频“假作真时真亦假”。
大众未来可自制“3D视频体验包”
记者:不少计算机科学家把Sora看作“世界模型”,因为它生成的视频符合这个世界的部分物理规律。您觉得“世界模型”作为媒体,未来将给我们的生活带来什么变化?
邓建国:“世界模型”可以创造源于现实世界、高于现实世界的“平行世界”。它们是fantasyland(梦幻世界),是wonderland(仙境),迪士尼乐园就属于这类世界。
从古至今,给人带来沉浸感体验的“平行世界”有很多形式。比如,当我们走进敦煌洞窟,看到美轮美奂的壁画,会感觉进入了另一个世界;走出洞窟后,我们会有一种眩晕感,这是从“平行世界”回到现实世界的生理反应。优秀的小说也能创造“平行世界”,让读者沉浸其中,比如《红楼梦》和《指环王》。电影诞生后,影院成为“平行世界”,观众看完一部精彩影片走出影院后,也会产生一种眩晕感,不知今夕何夕。对很多游戏玩家来说,《反恐精英》《魔兽世界》《元神》就是他们的“平行世界”。
人类历史上,创造“平行世界”往往需要投入很多智力、人力和财力。第三次工业革命后,计算机建模技术开始用于创造“平行世界”,但成本投入方面并没有降低,这是一个资金、技术和劳动力密集型行业。然而Sora发布后,历史将要改写,因为世界建模技术实现了傻瓜化——人人都可以通过输入提示词,构建梦幻世界。
从Sora生成的视频质量来看,今后大模型不仅能生成逼真的2D视频,也能生成更具有沉浸感的3D视频。未来,大众可以自制“3D视频体验包”,发送给朋友,或发布在网络平台上进行销售,邀请他们进入自己创造的梦幻世界。
由此可见,我们将迎来“世界建模UGC”时代。这个时代会夷平技术鸿沟,用户只要发挥想象力,就能便捷地创造出一个个“世界模型”。2002年前后,集中涌现的社交媒体使2D内容生产从PGC(专业生产内容)走向了UGC(用户生产内容);2022年前后,集中涌现的人工智能将使3D内容的生产从PGC走向UGC。
人工智能向虚向实的两个发展趋势
记者:您说的“平行世界”让我想到了“元宇宙”这个词,随着Sora和苹果头显设备Vision Pro的问世,一度被业界看好的“元宇宙”产业是否会兴起?邓建国:这是有可能的,因为Sora可以高效地生成“元宇宙”产业的内容产品,而苹果头显设备是消费者体验这些内容产品的硬件终端。苹果首席执行官蒂姆·库克说的“空间计算时代”,凸显了二维互联网的局限性,有了Vision Pro这类MR(混合现实)头显设备后,三维互联网呼之欲出。它更有沉浸感,可以让网民进入“元宇宙”,获得身临其境的体验,并进行各种交互活动。
AIGC(生成式人工智能)是人工智能发展的一个趋势,包括文生文字、文生音频、文生图和文生视频。这一趋势正引导我们建构与现实世界共存和交互的虚拟世界,即“元宇宙”。人工智能发展的另一个趋势是实体机器人,即具身智能。这体现为各种可穿戴式设备、自动驾驶、文生动作。
前一个趋势是向虚拟发展,打造强大的人工大脑;后一个趋势是向现实发展,让人工大脑拥有能实时学习的硅基身体。两者如双螺旋一般相互促进,最终发展出与人类智能相似的人工智能,更好地满足人类的各种需求。
新闻工作者对Sora应用要审慎
记者:请预测一下,文生视频大模型将对新闻传播、影视等行业产生什么影响?
邓建国:不妨把新闻传播分开来看,在新闻行业中,我觉得Sora的应用前景不会很广,而且对行业发展弊大于利,建议新闻工作者对文生视频大模型保持审慎态度。这是因为,新闻工作的使命是通过采访调查逼近真相,而Sora生成的视频以假乱真,是对真相的干扰。我现在所能想到的它在新闻行业中的应用,是记者基于新闻事实再现没有拍摄到的新闻现场。
人工智能目前对新闻行业只能起到辅助作用,例如记者利用ChatGPT收集相关材料。人工智能在快速发展,对新闻业的价值还有待观察。新闻工作者应保持好奇心,不断探索尝试,争取在明确事实与虚拟边界的前提下,把AI调教成得力的助手。
而在传播业中,例如广告、营销、影视等行业,Sora预计会带来冲击性影响。这些行业分工精细,包含舞美、化妆、道具、动画特效等众多环节。文生视频大模型出现后,虽然无法完全替代真人表演和实景拍摄,但有望大幅精简视频制作环节。
以科幻电影为例,它包含两大要素:一是宏大的景观特效,二是富有想象力的故事。Sora用于景观特效制作后,预计会节省大量时间、人力和资金成本。而在讲好故事方面,仍然需要人类的想象力和创造力。
给文生视频大模型设提示词禁区
记者:文生视频大模型在给传播业带来重要影响的同时,也给人工智能“深度伪造”(Deepfake)提供了先进工具。近年来,利用AI技术伪造的照片和视频在网络上流传。Sora问世后,相关机构可采取什么应对措施?
邓建国:如果一种媒介技术被大量用于违背公序良俗的用途,那么这种技术和技术背后的公司很难活得长久,所以“技术向善”不仅仅是公众和政府对科技企业的要求,也是科技企业为了长远发展的内在需求。正因为认识到这一点,大型科技企业都会宣称并采取一些措施,对自己研发的技术抑恶扬善。例如,OpenAI对其图像生成模型DALL-E采取的限制措施包括:禁止生成暴力、色情内容,禁止采用真人形象和已知艺术家的创作风格;在生成的图片中嵌入代码,将它们与人工创作或拍摄的图片区别开来。Sora向公众开放后,估计OpenAI也会采取类似举措。
政府部门在人工智能治理方面则要注意平衡,既不能让新技术无规制地应用落地,也要避免过严的监管限制技术发展。在“风险偏好型”和“风险厌恶型”两类技术治理政策间,我倾向于“风险偏好型”,人工智能治理要有一定的容错空间。