7月6日,2024世界人工智能大会“语料筑基 智生时代”主题论坛上,大模型语料数据联盟发布了“2024语料风云榜”,经过两个多月的征集和严格评选,天娱数科成功上榜,入选“2024语料风云榜”TOP10。
天娱数科子公司智境云创创始人&CEO王智武受邀出席本次论坛并参与“共话未来——我们需要怎样的语料供给”圆桌讨论。
语料数据是大模型训练的重要“燃料”,需要怎样的语料供给取决于大模型的发展应用方向。王智武表示,相较传统2D大模型,3D大模型在“理解真实世界”这个维度上,能提供更准确和全面的重构、计算与决策能力,拥有更强的泛化能力和涌现特性,成为下一代大模型科研重点。3D数据能够捕捉深度信息,将现实世界的物体、场景和人物,转化为虚拟空间中的三维模型。这些模型不仅能展示细节和结构,还能记录空间位置和动态,为元宇宙的互动体验提供丰富资源。
王智武指出,随着元宇宙的普及和相关技术的成熟,3D数据的应用场景正在迅速扩展。从游戏和娱乐到教育和医疗,再到建筑设计和城市规划......3D数据的需求呈现量级增长趋势。他强调:“构建大规模且高质量的3D数据集,是实现3D大模型和人工智能应用的关键基础。”
作为企业级AI应用开拓者,天娱数科在元宇宙、数字营销、数字园区等领域有着丰富实践,通过与产业应用的深度融合,不仅为3D大模型的开发和应用提供了必要的数据支持和应用场景,也为现实世界的智能化进程注入了更深层次的动力。
然而,3D数据需求的量级增长,也带来了巨大的技术挑战。海量3D数据的高效采集、处理和存储,以及如何降低数据采集和处理的成本,都是当前亟待解决的问题。
王智武认为,合成数据的出现为AI应用提供了新的可能性。通过计算机生成的方式,合成数据可以快速产生大量数据,有效解决传统的数据采集、标注过程耗时耗力和成本高昂的问题。此外,合成数据不仅可以模拟真实世界的复杂场景,还能在一定程度上保证数据的多样性和质量。此外,王智武还强调道:“尽管合成数据具有诸多优势,但在医疗、安全等对数据真实性要求极高的场景,合成数据的使用需要谨慎。”
为了应对3D数据采集的挑战,许多企业和研究机构正在构建自己的合成数据能力。例如,天娱数科自研的“MetaSurfing-元享智能云平台”,可以高效生成各种3D场景和对象,不仅提高了数据的可用性,也为AI模型的训练提供了丰富的素材。
我们正站在迈入智能元宇宙时代的门槛上,3D数据不仅让物理世界更加智能,也为人类社会的发展带来了无限可能。随着人工智能、物联网等技术的融合,3D数据的应用将更加广泛和深入,我们将迎来一个更加智能、互联和创新的未来。