请回答2023:从文本到视频生成的大模型进阶之路

2024-01-10 17:57:15     来源:

站在2024年的起点回望2023,AI是所有人都无法回避的年度词汇之一。从AIGC、大模型、ChatGPT,再到多模态、AI应用,短短一年内AI已经衍生出无数的“变体”,也逐渐从年初的“学术专用”到“红遍大江南北”。

抛开大火之时的盲目乐观,一年时间内,人们开始从热度里抽身出来,用更加冷静的视角评判这个新兴行业,而行业内部也逐渐从年初以ChatGPT、百度文心一言为代表的文本生成,转向了以Runway、Pika以及万兴“天幕”多媒体大模型为代表的更加复杂、要求更加高的视频生成,大语言模型的热度渐消之后,新的机遇仍在生成。

ChatGPT引爆大语言模型热潮

一切故事都开始于2022年11月30日。彼时,远在大洋彼岸的OpenAI推出了搭载GPT3.5的大模型ChatGPT,短短5天之内就吸粉百万,并且在2023年1月底一举引爆国内资本市场,彻底将“AI”这个一直以来代表着高门槛、高科技的词汇带到了所有普通人的面前,并在行业内引爆“百模大战”。

回望2023年,全球各大科技巨头大模型之间的竞争进入白热化。OpenAI继“开疆功臣”ChatGPT之后,高速迭代至GPT-4,并直接开启“GPT版小程序”时代;微软借助对OpenAI的投资与合作,将旗下Office办公产品全线整合,5月宣布Win11接入GPT-4,到了年底又推出了自家定制的人工智能芯片、新平台Copilot Studio;为了和OpenAI与微软合体展开竞争,微软的直接竞争对手谷歌今年果断地决定从PaLM 2切换到新一代的原生多模态大模型Gemini上……

国内的科技巨头也不甘人后。百度今年3月率先落地推出文心一言大模型,目前已经迭代到文心大模型4.0;阿里云4月发布首个超大规模语言模型通义千问,12月对外宣布开源720亿参数模型Qwen-72B;腾讯则在6月以行业大模型先行入局之后,9月份混元大模型正式亮相;紧接着,字节跳动、商汤科技、科大讯飞、浪潮信息、昆仑万维、360等一众互联网企业都在大模型领域进行了布局。“百模大战”正式拉开序幕,但显然,大多数厂商主要发力方向还是在文字生成上。

AI视频“大器晚成”

实际上,AI视频几乎与文生图同一时期进入到人们视野中,但是在发展速度方面显然远逊于后者。

2023年初,以“瞬息元宇宙背后的公司”为噱头的Runway激起了“人人制作电影大片”的无限遐想。2月,Runway发布视频模型Gen-1,功能类似于AI版的PS,可通过文字输入进行视频的风格转化和修改;3月,Runway发布Gen-2,支持文生视频、文本+图像生成视频,打响了AI视频的“第一枪”,一时间风光无两。但这份话题度却并未像ChatGPT一样持续下去。随着Gen-2的根本性突破迟迟未到来,AI视频着实沉寂了一段时间。

直到去年12月,就在大家快要失去对AI视频耐心的时候,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字节Magic Animate、万兴“天幕”,踏着希望之光来了。

在Pika的官方宣传片中,仅需一句话,就生成了动画版的马斯克,不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人得完美。

而作为深耕AIGC软件领域的上市公司,万兴科技(300624.SZ)的“天幕”多媒体大模型也在年末密集发布《女孩的一生》《人生四季》《百变girl》《让AI来装修你的家》《名画秘境》等多个短片,展示了大模型从AI文生视频、AI视频生视频、AI扩图等多样化的AI视频类能力,高质量的视频内容也让其进入了更多人的视野。

作为国内首个专注于以视频创意应用为核心的多媒体大模型,万兴“天幕”由视频大模型、音频大模型、图片大模型、语言大模型组成,涵盖当前市面上语言、音频、图像的大模型能力,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力,并在视觉、听觉等多模态关键能力上持续迭代。

AI视频有望来到爆发前夜

一直以来,AI视频生成因其准入门槛较高,被视作是少数专业玩家的主场。首先是从数据层来看,AI视频训练所需要的数据集的规模越来越大,种类也越来越丰富。这意味着,只有有能力获得足够多视频数据的厂家才能拥有AI视频大模型的准入资格。除TikTok等主流视频平台、万兴科技等以视频创作工具出名的工具厂商、一直发力视频生成赛道的部分独角兽之外,想要后来居上,显然具备一定的难度。

此外,视频生成在技术难度与算力需求上也远超文本与图片生成。与文生文、文生图的直接生成即可使用不同,视频的底层原理是多帧图像的组合,文生视频/图生视频需要在文生图的基础上增加时间维度,这意味着计算成本高昂——一个短视频每秒包含大约30帧图像,单个视频片段有数百数千帧,为确保每一帧之间空间和时间的一致性,需要大量的计算资源。

去年底Pika的出现,为AI视频行业带来了一丝曙光。不少产业人士已经感知到了市场的风向。中信证券研报指出:“参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本、创作门槛,促使AIGC技术产业化进程加速。我们认为从能力的角度出发,文生视频有望率先在短视频和动漫两个领域落地。”至于具体何时落地、效果如何,还有待时间证明。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

LCOUNCIL理购第十七期名企走访——协鑫集团圆满结束!
丝域养发加盟荣登商业特许经营Top榜单,连续两年上榜!
三水华厦眼科卢敏任组长!广东基层医药学会眼科专委会白内障学组成立
三盘联动战略下华侨凤凰集团再次定义产程精品
LCOUNCIL理购第十六期名企走访——博杰股份圆满结束
海平创新公司发布“中国供应链神图7.0”,探索供应链创新之路
盗龄医生:数智新零售上线启动仪式圆满成功
食品行业劲吹低碳风
驿通科技荣膺“2023中国智能交通技术创新奖”
​2023全年合作超1个亿!华厦眼科&爱尔康携手迈进新里程
千尺学堂在线站桩课 让银发一族拥有科学健身新选择
如何科学管理房租发票?票E助手提供创新解决方案
诺特健康以强化生活方式干预应对慢病管理挑战
再获嘉奖!海尔保理“供应链科技金融”服务方案受重要肯定
内在价值持续释放!中远海控发布2023业绩预告预计实现归母净利润238.59亿元
优联云购年货节,有滋有味过龙年
2024天狮集团全球业务启动大会即将盛大开启
水评测:引领家长走出“神童”迷思,专注孩子学习力的培养
立马|路人王2023年度总决赛,尼文·哈特勇夺冠军
致敬人民警察,鼎桥助力“红墙卫士”
保乐力加中国首届SIP超新星调酒大奖赛圆满收官
行致远向新生 悍高独家冠名中国西部定制家居产业峰会
戴德梁行荣膺第六届进博会服务贸易展区“传播影响力十强展商”
盛业旗下无锡国金荣获第八届CNABS“金桂奖” 最受欢迎原始权益人奖
为何上汽大通MAXUS位居中国汽车品牌排行皮卡榜单前列?为你详细解析
围观刘潇的医药投资之道!
同方全球人寿2023年第三季度获“风险综合评级AAA”
年均收入最高达31万 谁说同城货运司机不赚钱?
鹏华固收专家最新观点:转债具备一定价值,权益市场逐步蓄势
全球首款阿尔茨海默病靶向药乐意保®(仑卡奈单抗)在中国获批