AI感知视听技术正在以人脑的方式“变态”进化

2024-06-22 20:40:20     来源:

2024年6月22日,在华为开发者大会2024(HDC 2024)上,天图万境与华为云携手推出了“视频声效大模型”解决方案,乍一看,不就又是一个音视频大模型嘛,可听完天图万境创始人图拉古的讲述,我们看到跨行业的人做AI进入了“变态”的地步,准确的讲,这种方法正在启迪AI超越人类。

按照通常的理解,大家修改架构,不管是大热的transformer,还是sora的dit,大家都在用大力出奇迹的方法,体现自家优势。

图拉古的研发似乎为行业找到了新的思路,人类的大脑可以处理非常复杂的事情,但是功耗峰值也就45瓦,如何让AI按照这样的方式进化,是全球科学家正在研究的方向。

大会上,图拉古谈到一种“联级神经元”的方法。他表示,人们通常讲到多模态,就好像是让一个人学会这个世界上所有的技能,顶级的手术医学技能,顶级的音乐演奏技能,顶级的积分计算,顶级的赛车手等等,这显然是一件超级难的事情。但在事情期初,人们往往会过于乐观或者过度自信,比如当你的孩子刚出生,你也许就会幻想他聪明优秀,万人追捧,学会琴棋书画,舞得剑戟,可随着孩子慢慢长大,你也许会看到孩子另一面的特长,而不是面面俱到。

天图万境创始人 图拉古

图拉古说,“我们看到,国外的顶级研究机构已经在研究这种‘联级神经元’的架构设计,把专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。

2019年时,世界上迎来了一十分特殊的手术,整个手术室充满了浪漫古典的旋律,这正是当法国的医生给一位著名音乐家做手术时,为了保证他的小提琴技能不受影响,从而在手术过程中让他保持头脑清醒地拉了几个小时的小提琴。

还有一些事情,比如我们喝酒喝醉后,小脑会受到影响,所以人们走起路来左右摇摆,但是语言区还可以让你思维活跃的表达,这样的例子数不胜数。

仿照这样的大脑构架,我们可以把每个专用AI模型当做一个“神经元”来看待,让其中一个充当调度的AI,负责实现生物电的调度中心,让它通知其他对应的“AI神经元”,执行对应任务。多个“AI”神经元之间通过调度AI来通讯,形成了类人脑的“联级神经元”,每次行动能量消耗极低、算力极少,但是却可以完美准确的完成任务。

剩下的问题就是,如何教会AI进行学和判断了。人类大脑获得的大部分信息,都是通过听觉和视觉来感知认识世界的,那我们也必须按照这样的方式去训练 AI,因为生命体已经用了5亿4000年来证明这种方式是最优解。

人类看到的世界是立体的,通常人们会用激光雷达来测量立体世界,这显然不是人类的进化方式。后来,人们用多目组成类人左右眼的形式,计算视差,获得立体世界。可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的深度,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。

天图万境紧接着推出了认识物体,认识世界的AI分割模型,这个模型最早用在电影抠像里,天图万境并没有过早地披露这一信息,直到今年,天图万境才告知大家,他们的抠像技术实际上是在训练AI认识世界,而并非在抠绿。他们在已有的图像上做分割,让机器知道画面里的物体都是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。

确实,如果说训练认识世界的数据,没什么比电影数据更具有想象力了,上天遁地,无所不能。而天图万境已经拥有了全亚洲最大的物理数据集和分割数据集,并正在提供给华为盘古大模型做专业训练。

除了通过眼睛认识世界,理解世界,听觉也是人类感知世界的重要方式。人类闭上眼睛,就可以知道是鸟叫还是虫鸣,可以听呼啸而过的车声,判断车辆的远距离,甚至通过听到熟人的音色,还可以在众多朋友中判断这个人是谁。图拉古希望机器也有这样的能力。

现在,天图万境利用自己的AI感知视听技术,正在实现这一远大愿景。他们与华为云携手推出了“视频声效大模型”解决方案,正在向我们证明这一前沿技术的可行。

该技术支持用户仅需上传一个视频,不需要输入任何提示词,就可以获得连续的音频,这个音频包含了音色、声场、动态数量等等。比如一辆火车从远及开来,你就可以获得一个小到大的声音;一个石头落入水中,你就可以听到石头落水的声音,甚至还包含那种不同物质传输的不同声音效果。更离谱的是,你可以听到泛起涟漪后的弱声音,还有火箭发射巨大引擎的轰鸣声。

乍一看,这似乎没有什么了不起。可这正是图拉古之前所描述的愿景,让我们重新审视这个空间智能AI。

首先,这种复杂的处理运算,竟然是运行在一个本地消费级显卡上,更离谱的是,几乎是实时运行。

为什么说更离谱呢?首先,AI要识别这是什么,是火箭还是雷电,这群鸟是乌鸦还是海鸥,这辆车是火车还是汽车,如果是火车,那是蒸汽火车,还是电动火车等等。其次,AI还要知道火车的声音是什么样,火箭的声音是什么样,打雷闪电又是什么样,大的雷电和小的雷电声音有何不同,海鸥怎么叫等等。紧接着,AI要知道这里边的空间关系是什么,比如会不会有吸音,有没有混响,伪音。最难的在于,AI还要知道这个声源的运动关系,依托于运动关系做出即刻的声场效果,产生动态声音。对于成片画面而言,就是每一个声音都要跟画面完全匹配,出现闪电就要响,还要计算声音和光速的传播关系,看到闪电多久后才能有声音传播起来。当汽车急刹车的时候,还要出现刹车的声音等等;还要知道每一组不同的材质组合会发出什么样的声音。

在“视频声效大模型”解决方案发布之前,人们认识图拉古和天图万境,以为这是一家电影技术公司。是的,他们在电影技术领域有着远超同行的技术和绝对领先研究,但是人们不知道,他们的抠绿不是抠绿,而是在分割画面;他们的还原不是还原,而是在计算空间,他们的音频也不只是音频,他们让AI理解世界。

所以,图拉古和他团队此次发布的大模型也不是大模型,是AI时代的一股清流,是一种真正经过了人脑深度思考的结果,不是跟风和恐惧前进。

最后,引用图拉古的话作为结束语:

“一个伟大的时代,会在一种良循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来。”

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

深中通道打造发展坦途,中山完美金鹰广场助力品质生活
中国银行河南省分行:相伴“银发”客户,畅通适老金融渠道
大张伟演唱会抖音独家直播!与抖音城市生活节一起躁动深圳~
云行 | 天翼云中国行走进甘肃,智绘数字陇原新图景!
KTC随心屏Pro携手海思鸿鹄亮相华为 HDC 2024——探索未来家居娱乐新境界
共建共享 | 青城合作片区管委会与策源资本联合举办合作共建产业生态交流活动
潘渡携手招商证券资管开启战略合作潘渡携手招商证券资管开启战略合作,旗下主题ETF累计收益突破100%
咻电智能快充共享充电宝震撼上市,颠覆行业格局
塑造共享充电宝快充2.0未来,咻电引领行业发展新趋势
小天鹅原创蓝氧科技领跑行业,赋能家电品质发展
白酒冰饮风潮席卷阿那亚戏剧节,国窖1573冰·JOYS灵感驿站现身“候鸟300”
热度爆表!仰韶彩陶坊总冠名,“张学友60+巡回演唱会郑州站”震撼开唱
赋能实体助力新质生产力 广东华兴银行亮相第十三届金交会
尚高公司与美通科技达成投资合作,应对中国老龄化问题
款款深情演绎经典!仰韶彩陶坊携手张学友演唱会郑州站,开启六场连开的音乐盛宴!
培育壮大智能产业 加快发展新质生产力
简化使用NetSuite支票打印流程
第五代咖啡机器人COFE+亮相华为HDC2024开发者大会
慧择创业18年:从0到956万+客户 保险电商逐渐走向成熟
太力集团主导制定的国家标准顺利通过审查
“中国天气”品牌赋能乡村振兴发展行动计划《夏至名录》今日发布
“云平台+核心硬件”动物医疗新时代,上海辰瞻医疗科技有限公司总经理林海洋专访
芯联集成:资本市场助推科创新范例 晶圆代工巨头整合SiC资产
芯联集成:资本市场助推科创新范例 晶圆代工巨头整合SiC资产
2024年韩束六度蝉联抖音美妆TOP1!国货美妆头部效应尽显
贝因美聚焦亲子大健康,618创新直播销售额同期增长
持续领跑精准养肤赛道,蜜思肤经典大单品革新升级
飞猪618参与消费者数量接近翻倍 部分酒店套餐预约进程过半
华为云重磅发布盘古大模型5.0 解难题做难事 重塑千行万业
渝丰科技产品远销“一带一路”市场