今年开了个好头!哪吒2点燃中国票房市场创造新记录,DeepSeek火爆全球正在重塑AI大模型产业发展新格局。有人开玩笑说,现在每天只关注2个话题:哪吒2的票房多少了?哪些企业在DeepSeek模型上又有新进展了?
2月4日,中关村科金得助大模型平台已率先全面支持DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Ditill系列、DeepSeek-Janus 的API 接入及企业私有化部署,第一时间加速企业智能化升级。
今天继续带来好消息,我们的智能客服全系产品已完成DeepSeek的全面接入!并对DeepSeek+智能客服在不同行业,超过30个大模型应用场景进行全面评测。结果显示超过90%的场景,通过切换DeepSeek V3或R1模型,平均带来了5%-20%的效果提升。 在全媒体呼叫中心、智能工作台、语音机器人、文本机器人、智能陪练等企业连接客户的核心场景持续推进智能化的提效。同时,我们把评测结果整理成 5 条要点,方便你快速了解核心内容。
要点1:DeepSeek有效提升复杂文本问答的准确率
场景:银行、财富、保险等金融行业,由于金融产品的复杂性,如金融产品、金融条款、技术支持等内容往往特别复杂,而且内容很长。基于小模型的传统机器人在处理类似问题时,准确率一直无法突破。直到大模型的到来,该场景的准确率快速逼近80%,使得该场景正式达到了商用要求。
实测:当前通用开源大模型准确率普遍为79.8%左右,我们在真实的金融业务场景中进行实测,其中DeepSeek-V3(通用型)准确率为95.1%,DeepSeek-R1(推理型)的准确率为94.9%。整体准确率提升了15%,极大的提升了复杂文本问答场景的商用价值。同时,V3版本比R1版本效果更好,也充分体现了两个版本的特性区别。V3更擅长处理标准化任务,结果稳定但缺少创新。而R1版本更擅长复杂推理任务,通过推理能力生成更具创新的结果。
价值:可以进一步降低金融行业客户咨询场景中的复杂咨询转人工率,从而让AI客服可自主完成更多的咨询任务,降低人工客服的压力。
要点2:DeepSeek用思维链重构客服质量体系
场景:过往,客服与客户的对话内容质量较难评价,多数情况下只能做简单的质检,只对客服话术的合规性进行检查。而针对话术的效果一般通过有经验的业务专家人工进行评价,导致后期的话术优化、运营成本长期居高不下。
实测:我们在真实的机器人营销场景中,对DeepSeek的话术质量评价能力进行了评测,评测结果令人惊喜:DeepSeek在回复时,是非常清晰且有结构的。逻辑清晰且结构严谨。首先,它能给出明确的结论,判断话术是否合理;接着,展示清晰的合理性评价标准,并精准归类;最后,阐述具体原因。
经过客户侧业务专家评价,DeepSeek 给出的原因分析高度契合业务部门的评价标准。甚至在总结原因方面,DeepSeek 比业务专家做得更加简洁清晰。
价值:在未来的客服对话场景中,无论是人工客服还是机器人客服,每一次对话内容都将能得到精准且清晰的定性评价。这为企业持续优化自身话术、客服人员持续提升自身能力,提供了强有力的支持。
要点3:DeepSeek推理框架,大幅提升陪练剧本生成效果
场景:在金融领域,理财顾问的营销效率一直受限于金融产品的复杂性与专业性。行业目前标准的解决方案是引入智能陪练系统,通过AI机器人对销售顾问进行持续的营销陪练,机器人模仿目标客户,销售顾问通过多轮对话持续与机器人沟通,来快速提升营销能力以及增加对产品的熟练程度。从而快速提升金融机构整体营销效率。在AI陪练机器人创建时,陪练系统需要根据客户的业务背景知识、营销目标、产品信息、陪练计划等多维度的信息,人工编写对练脚本,极大占用人力资源,且对人的业务能力有极高的要求。
实测:我们在证券行业场景中进行实测,使用DeepSeek自动生成对练脚本,整个效果提升非常明显。目前,开源大模型生成的脚本准确率普遍在80%左右,DeepSeek V3(通用型)准确率为85%,而DeepSeek R1版本(推理型)表现更为突出,准确率高达95%,相比之下提升了 15%,创历史新高。
价值:DeepSeek 强大的推理框架,极大地拓展了有效陪练内容的深度与广度。更精准的陪练脚本,能让员工获得更好的陪练效果,提升专业素养。同时,高准确率减少了培训导师手动优化脚本的精力投入,全面提升陪练系统的质量,为企业在激烈的市场竞争中赢得优势,创造更大的价值。
要点4:DeepSeek思维链模式,学员对练效果评价更精准
场景:在陪练系统中,每一次陪练结束,系统都需要根据该员工的实际表现,给出明确的评分以及评价,以此来量化学员的实际表现。以便后续为学员提供更加个性化、更有针对性的提升建议,帮助学员针对不足进行优化,持续提升培训效果。
实测:通过在证券业、制造业场景中进行实测,当前市场上的开源大模型,评价的准确率一般在77%左右,效果很难进一步提升。经过实测发现,DeepSeek V3的学员评价准确率为77.5%,与当前其他开源大模型平均水平保持一致。而DeepSeek R1的准确率却高达92.5%,非常惊艳!我们做一组对比:在多维度语义能力评价场景,使用传统小模型或基于规则对学员进行评价时,准确率一直很难超过60%;23年底,我们通过大模型将准确率提升到70%,达到商用标准;令人惊喜的是,DeepSeek R1直接将这一数值拉升到了92.5%,大幅促进了多维度对话效果评价场景的商用化进程。
价值:DeepSeek R1 的高准确率意义重大,直接推动了金融、制造、零售、教育等需高频培训大量销售人员的行业发展,让 AI 陪练质效实现飞跃,开启千人千面的个性化陪练新时代。它还将促使传统人工培训模式加速变革,有效解决 “只训不练” 的难题,让培训不再纸上谈兵,真正做到学以致用,为行业培养出更多专业能力强、实战经验丰富的销售人才,提升行业整体竞争力。
要点5:DeepSeek有效提升智能填单的准确率
场景:在人工坐席为客户服务的过程中,填写客户信息、工单信息以及业务记录是一项极为繁琐且耗费精力的工作。一旦出现填写错误,不仅会增加客户运营成本,严重时甚至可能引发客诉。智能填单作为解决这一难题的核心方案,借助平台的语义识别和会话洞察技术,能够自动从客户与坐席的交互内容里提取相关信息,并辅助坐席进行自动填写,从而有效减轻客服压力,提升坐席的工作体验。
实测:对比多行业场景实测效果,传统通用开源大模型在智能填单方面的平均准确率约为 85%;而引入 DeepSeek 模型后,智能填单的平均准确率提升了 8 个百分点,达到 93%。在特定客户的场景下,这一准确率更是能飙升至 98%。同时,对比原模型,由 DeepSeek 生成的工单小结内容更加精简、完整。
价值:在坐席填单场景中,DeepSeek拥有极高的准确率,极大地减少了客服手工填单的工作量。人工填单时普遍存在格式不标准、内容不准确以及漏填、错填等问题,而 DeepSeek 却能始终保持超高的填单水准,大幅提升填单的准确性与时效性。这不仅有助于坐席人员更高效地完成工作,还能为客户带来更优质的服务体验,进一步提升企业的服务质量和客户满意度。
此外,中关村科金研发团队还在客户意图识别、多语言对话、问答对抽取、长文本问答、工单自动回复等等超过30个以上的智能客服大模型应用场景进行了评测,结果令人欣喜。
中关村科金聚焦企业客户连接领域,坚持用最先进的技术,为客户提供最优秀的产品和应用,是唯一凭借领域大模型优势登上《2024胡润中国人工智能企业50强》的企业。智能客服场景作为企业与客户连接的中枢纽带,是企业撬动商业增长、赢得客户信任的关键战场。基于DeepSeek的智能客服将成为企业连接客户智能化升级的重要引擎。