近期,多家上市公司披露在多模态大模型技术上的布局进展。当前,人工智能逐步突破文本处理的边界,多模态大模型通过整合文本、图像、视频、音频等多维数据,集成了多种不同类型数据处理能力,在统一架构下实现跨模态理解与生成,成为AI技术演进的新焦点,已布局多模态大模型的A股上市公司将直接受益,如A股“字库第一股”汉仪股份(301270),通过多模态大模型的应用研究,探索各种大模型在文字、图像、视频等设计领域的应用创新落地。
据了解,自2024年5月14日OpenAI发布多模态AI大模型GPT-4o以来,多模态大模型兴起,成为多模态人工智能发展的新方向。多模态大模型建立在大语言模型LLM和大型视觉模型LVM以及其他模态模型(如语音模型)的基础上,借助大模型的强大计算能力,实现更加复杂和智能任务的处理,例如总结图片/视频内容,根据文字描述生成图片/视频等。未来,多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。
AI应用分析师表示,多模态大模型的出现如阿里万象开源后下载量超百万,千问衍生模型下载量超10万,开源后会催生更多应用,如图像相关应用成本降低,电商商品展示等会更多基于AI生产,直播领域大量使用AI且能提高转化率,广告营销、云、电商、搜索等互联网相关领域都有较大提升。数据预测,预计至2025年,中国多模态内容市场规模将达到832.7亿美元,2018-2025年复合增长率达65.02%。
作为A股“字库第一股”,汉仪股份不仅在主业上全面系统地布局了B端和C端业务,更是在新兴业务领域上进行了积极探索。目前,人工智能应用是汉仪股份战略布局的重点方向,其通过自研和战略合作,布局人工智能领域的创新产品,尤其是多模态大模型的应用研究方面,探索各种大模型在文字、图像、视频等设计领域的应用创新落地,并取得了突破性进展。
汉仪股份此前接受机构调研时表示,结合文本、图像和视频的等多模态内容生成技术,公司布局开展了营销海报生成、虚拟换装、图生视频、视频混剪等方面的产品规划和研发工作,例如针对服饰类电商客户,研发AI模特商拍和商品图合成技术,替代传统拍摄方式,为品牌营销图智能换脸、智能合成商品背景图等功能,降低客户商品拍摄与处理成本,提升商品上架速度和展示效果;针对视频电商客户,研发AI视频剪辑解决方案,替代传统人力剪辑方式,可大大降低剪辑处理的成本,提升营销内容生产和投放效率,上述应用已在公司kreatr 工具平台上线,并已和外部企业展开商业合作。
值得一提的是,汉仪股份在人工智能领域的布局不仅限于技术研发,更在于如何将技术与市场紧密结合,实现商业价值的最大化。公司通过一系列战略合作和投资并购,不断拓宽业务范围,公司投资的赛博爱思和工作魔法(WorkMagic)等公司也都具备较好的AI技术优势。其中,WorkMagic已推出WorkMagic Copilot营销助手,功能涵盖创意内容生成和营销自动化两大模块。具体而言,在创意生成方面,WorkMagic Copilot已上线AI文案、图片生成功能,支持场景图、模特图,以及博客、邮件内容生成,后续还将上线3D视频生成功能。而从客户群体来看,汉仪股份在字库产品的互联授权领域占据领先地位。在互联网授权领域,公司主要合作伙伴为腾讯QQ、华为、OPPO、VIVO等互联网厂商和手机厂商,并与上述主要客户保持稳定合作关系,来自华为、OPPO等智能手机平台的收入及占比呈上升趋势。未来有望与各大主要合作伙伴在多模态大模型的应用上展开全面合作,抢占市场先机。
分析人士认为,大模型行业已呈现蓬勃发展态势,面对这一蓝海市场,A股公司纷纷加大投入,争相涌入大模型行业。多模态大模型能够处理多种模态的数据,实现更加复杂的智能任务,抓住应用需求则是相关企业能够实现突围的关键。