捷报!诺谛开源行业顶尖中文RAG场景向量模型 荣获C-MTEB榜单第一

2024-06-11 13:31:48     来源:

近日,诺谛智能“支点”向量模型凭借多样化困难样本采样策略以及基于“支点”大模型的数据合成,超越众多开源模型,获得C-MTEB榜单排名第一。

作为大模型的最主要应用场景之一,RAG技术需要配合大模型和向量模型来落地,而诺谛“支点”向量模型目前在中文C-MTEB排行榜中排名第一,这也是诺谛智能在制造业场景化实践中深厚的数据积累以及训练算法持续创新的体现。

C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。

此次获得C-MTEB榜单排名第一的诺谛“支点”向量模型,采用了多样化困难样本采样策略,其针对分类和聚类、检索、排序以及句对匹配任务设计了不同的困难样本选择策略。同时该模型还采用了基于诺谛“支点”行业大模型的数据合成,通过多样化的数据合成策略对分类、聚类、句对匹配样本进行重写,为每个样本构造出多个合成样本,并针对检索和排序任务对问题和文章同时进行增强,可生成多个检索问题。此外,对于不同场景的检索任务,“支点”向量模型还设计了多样化损失函数,结合梯度累积策略以及数据调度策略,最终使诺谛“支点”向量模型在分类、聚类、句对匹配、检索、排序任务上的性能大幅提升。

在实际应用中,“支点”向量模型为了满足不同业务实际场景对向量的差异化需求,在训练过程中引入了MRL技术,可根据指定维度的向量计算多个附加损失,使其可以输出不同维度的向量用于下游任务,进一步提升实际业务场景下分类、聚类、检索、排序、文本相似度等任务的AI能力。

未来,随着“支点”向量模型的持续创新和迭代,将进一步减少数据的复杂性和计算资源的需求,在推动AI行业技术持续创新的同时,助力诺谛为更多制造企业交付高效高质量的场景化AI解决方案,实现智能化升级。

标签:

猜你喜欢

华熙生物健康食品总部正式落户杭州医药港
沪上学校以“中国核·世界流”理念培养学生“未来力”
太美医疗科技入选“2024年度SaaS企业TOP100”
鸿博股份回复问询函:AI算力是公司战略方向 相关合同正常推进中
科丝美诗前瞻五大防晒科学研究方向,引领未来防晒新潮流
ETA早期矫治创新技术论坛在京举办,“3D打印硅胶牙齿矫治器”正式发布
促进大学生高质量就业 菜鸟无忧专属就业服务护航
天合光能SNEC大会:揭秘光储领域的“秘密武器”
寿险承保选平安保险靠谱,投保需趁早不要错过标准体承保机会
全球5大加密货币交易所之一,KuCoin再登胡润独角兽榜TOP50
今秋开学!学大教育与岳阳现代服务职业学院签署战略合作协议
我的赛博格朋友丨新华社
塔斯汀民族味新品惊喜上市 持续探寻国味融合边界
信息科技ETF(512330.SH)涨1.10%,唯捷创芯涨4.73%
科创芯片ETF南方(588890.SH)涨0.77%,翱捷科技涨5.07%
方舟云康通过港交所聆讯,为我国慢病管理带来新风口
火热报名中 | 杭州湾会计学苑&财能书院2024财务数智化峰会,即将盛大召开!
中国职业拳击创下历史 单场赛事观看超过1亿人次
佩信集团发布PHP新质人才典范模型产研成果
涵盖购车购房住宿餐饮等多领域 广西南宁市青秀区开展商文旅联动惠民促消费活动
“2024产业数字金融暨数据资产高峰论坛”即将召开.doc
创业50指数进欧洲,“三创四新”受国际投资者关注
紧跟国家新型电力系统建设发展战略,煜邦电力实现持续成长
亚洲音乐盛典新人海选—武汉百联奥特莱斯专场
以“数”赋新,以“智”提质 | 格尔软件量子安全一体化网络解决方案亮相第十届上交会
中国企业出海:机遇与挑战 ——岭鹏研究院沙龙会(第二期)成功举行
投资热土、价值高地,九江经济技术开发区蓄势待发
贝昂X3 Pet——这款新品竟然放弃了90%的家庭,只为那个养宠的你。
高领碳信金融碳核算系统通过国际权威机构审验认证
石头科技:技术迭代构筑品牌壁垒 持续领先扫地机器人市场