NVIDIA GTC 2024大会于2024年3月18-21日, 在美国圣何塞盛大举办。作为 AI 与元宇宙时代的年度开发者大会,GTC汇聚了来自全球的开发者、研究人员、创作者、IT 决策者、企业领袖和各行业专家。出门问问以其领先的AI技术实力及前瞻的产品布局受邀出席演讲,赢得全球与会者的诸多关注。
出门问问声音大模型:AIGC与LLM深度结合
本次大会上,出门问问副总裁李维与NVIDIA解决方案架构师张伟华共同发表技术演讲。李维首先介绍了AIGC和LLM的前沿技术进展,并指出它们在新互动世界构建中的核心作用。他表示:“语言大模型LLM赋能AIGC的语言理解和人机交互,使得我们能够创造出更加丰富、真实和个性化的数字人互动体验。这不仅仅是技术的革新,更是对人类与机器、现实与虚拟世界互动方式的一次深刻变革。”
出门问问的自研大模型「序列猴子」取得显著突破,其以语言为核心的能力体系,涵盖“知识、对话、数学、逻辑、推理、规划”六个维度。特别的是,该模型拥有优秀的跨模态知识迁移能力,能够将语言模型所涵盖的常识知识有效转化应用于其他非语言模态的模型当中——出门问问的声音大模型具备强大的声音克隆、迁移和情感配音能力,能够为虚拟角色赋予生动的声音表现,可实现个性化的语音交互。
基于此技术,开发团队利用前沿的文本大模型技术构建了一套先进的语音合成系统——MeetVoice Pro,即出门问问第六代TTS引擎。该系统基于「序列猴子」的文本模型能力,通过对海量语音样本的深度学习训练,能够产生极富自然感和表现力的合成声音,使AI配音的效果已然接近真实人声的水准。
「魔音工坊」,是出门问问在声音大模型、数字人以及3D技术方面的重点产品。「魔音工坊」的声音克隆技术结合新一代TTS引擎 MeetHiFiVoice,仅需录制20-500句话即可定制完成高度媲美真人的AI声音,同时还可以做到情感迁移、跨语言迁移,让克隆用户具备多情感、多语言的AI声音,支持英语、法语、日语、西班牙语、葡萄牙语、泰语声音克隆。基于「序列猴子」大语言模型,「魔音工坊」已实现通过更少的样本量,快速地实现声音克隆,并支持跨语言迁移、情感语气生成。
截至目前,「魔音工坊」的注册用户数量超 800万,其中付费的用户数量超 60 万,其Web端访问量位列《AI产品榜·国内总榜》第五名。
深耕多模态:从数字人到AI视频生成
基于多模态数字人的创新成果,出门问问推出「魔音工坊」海外版「DupDub」,其Talking Photo 2D版技术,能够将静态照片转化为会说话的动态肖像动画,为数字人赋予更加逼真的表现力。
作为国内最早布局数字人的AI公司之一,出门问问已推出多款倍受好评的AIGC数字人产品,打造可轻松创建内容的一体化工具,展现公司在该领域的领先地位。
其中「奇妙元」作为一站式数字人视频制作和直播平台,打通从“AI写作”、“AI绘画”、“AI配音”到“数字人视频制作”内容创作全流程;「奇妙元」已为等数百家行业客户提供数字形象定制服务,提供包括“一张照片驱动”,“2.5D真人克隆”,“3D定制及IP活化”等多种数字形象克隆方案;告别真人录制,使用一站式数字形象编辑器,轻松制作数字人视频和直播。
交互型数字人并非新的概念,基于FAQ的问答数字人很早即出现在各种服务场景中。随着大模型的快速发展,更聪明、更自然、更个性化的交互型数字人成了如今的趋势。「奇妙问」顺应这一趋势而生,更能满足服务型企业的需求,「奇妙问」依托自研大模型「序列猴子」,面向政企、文旅等行业,打造数字接待、数字客服、数字销售等交互型数字员工,为客户提供一站式互动数字人的制作、生产、发布服务。
结合NVIDIA Avatar Cloud Engine+序列猴子大模型,
丰富3D数字人创作体验
本次大会展示了出门问问与NVIDIA解决方案技术团队在3D/2.5D数字人项目的合作成果。双方团队合作开发的数字人技术,结合NVIDIA Avatar Cloud Engine(NVIDIA ACE)与出门问问「序列猴子」大模型,依托于Unreal Engine 5,以文字作为输入,即可驱动生成具有动感的数字人视频、数字人交互应用等多种形式的服务。
【以上数字人来自《少年歌行 海外仙山篇》,一部由中影年年(北京)科技有限公司、优酷、哔哩哔哩联合出品的新派武侠类型网络动画片】
这些视频不仅包括单人Avatar的演讲,还能实现多人Avatar的演绎,为虚拟世界的互动体验增添了更多可能性。同时,该技术还可应用于游戏、影视制作、动漫创作等多种领域场景,解锁创意潜能,为用户带来更加丰富多样的娱乐体验。
出门问问一直致力于通过AI技术为人们创造更智能、更便捷的生活方式,与NVIDIA的合作将进一步提升AI在虚拟世界中的表现力和互动性,为用户带来更加沉浸式的体验,为构建全新的互动世界贡献力量。
作为一家以生成式AI与语音交互为核心的人工智能公司,出门问问拥有自研大模型「序列猴子」,并已构建丰富的AIGC CoPilot产品矩阵,包括AI配音助理「魔音工坊」及海外版「DupDub」、AI数字分身「奇妙元」等,打造一站式内容创作平台,赋能创作者实现高效内容生成。据灼识咨询行业报告,出门问问是亚洲起步最早、收入规模最大的专注于生成式 AI 的人工智能公司。
见证AI的变革时刻——黄仁勋在本次GTC的主题演讲中总结,通往下一波AI创新的大门正式开启。出门问问作为坚实力量躬身践行于这场变革,未来将以创新实力和前瞻视野为用户提供更加智能、便捷的产品和服务,开放综合的合作生态,推动 AI 技术在全球范围内的应用与发展。