超越ChatGPT?讯飞星火3.0上手实测,整体实力碾压!

2023-10-27 17:14:16     来源:

10 月 24 日,在 1024 全球开发者节上,科大讯飞如期发布了讯飞星火大模型 V3.0,用科大讯飞董事长刘庆峰的话说,讯飞星火 3.0 七大能力持续提升,整体超越ChatGPT,医疗领域超越GPT-4。

讯飞星火可以说是一众国产大模型中的另类。它不是最早发布的那个,但却是唯一一家给出明确的升级节点的大模型产品,迭代时间甚至精确到了日期。从 5 月 6 日发布星火 V1.0,到8 月 15 日迭代2.0、10 月 24 日如期更新星火 V3.0 ,用短短 5 个月时间完成了对 ChatGPT 的超越。

国务院发展研究中心国研经济研究院用星火 V3.0 和其他大模型产品进行了对比横评,给出了“星火大模型综合能力超越 ChatGPT,国内领先、国际一流”的评价。

星火 V3.0 这么厉害?

话不多说,是骡子是马拉出来溜溜,今天我们就来上手实测下讯飞星火 V3.0 的能力如何。

科大讯飞在发布会中着重强调了讯飞星火 V3.0 在代码能力上的提升,在刘庆峰看来,在产业数字化和数字产业化的过程中,软件是定义一切的。作为数字世界的基石,讯飞星火 V3.0 的代码能力进一步提升。在“智慧课堂”产品的跨平台改造中,涉及到从 Windows 平台到 Linux 平台的迁移,代码量高达 20 万,按照传统的开发方式,需要三个月的时间,但是在星火赋能下,1 个月就完成了迁移工作。

先来个简单的小游戏,用 Python 语言生成一个贪吃蛇游戏的代码。

讯飞星火 V3.0

ChatGPT:

二者都能够在极短时间内就生成一段可用的 Python 代码,差异较小。

再来一道代码的问答题:

ChatGPT:

讯飞星火 V3.0

讯飞星火和 ChatGPT 都正确地回答了这一考验代码与自然语言转换的问题,并且都给出了逐行解释。ChatGPT 解释了代码的用途,但讯飞星火对待代码更为严谨,指出这段代码缺少了函数定义的结束括号。

发布会上,科大讯飞还发布了以讯飞星火 V3.0 为基础的智能编程助手 iFlyCode2.0,据刘庆峰介绍,iFlyCode2.0 在编程的设计阶段提效50%、开发阶段提效37%、测试阶段提效44%,大幅提升软件从业人员效率。

代码能力的提升只是讯飞星火 V3.0 升级的一部分能力之一。讯飞星火 3.0 在中文能力上实现了对 ChatGPT 的超越,我们来比较下二者在中文内容生产上的区别。

比如,我们让二者都分别拟定一个近期对马斯克的采访提纲。

ChatGPT:

讯飞星火 V3.0:

对比来看,讯飞星火的提纲更为充实,在一些重点问题上比如特斯拉及电动汽车产业上给出更专业、更细致的提问,比如提到充电设施的建设问题,采访提纲的深度和广度均有所保证,而不是像 ChatGPT 只是单纯地列出了一些访谈可能涉及的方向,显得有些泛泛而谈。

按照科大讯飞的理解,大模型不仅要能回答问题,还要能够提出问题,不仅是回答,还要能像人一样主动提出问题。

这就要说到讯飞星火 V3.0 在主动式交互上的进步了。刘庆峰介绍说,他们在讯飞星火的 3.0 版本上进一步提升了多轮对话能力,让大模型不再只是简单的信息咨询,而是多轮问话中能把问题问得更清楚。

这一特点运用得更为深入的是科大讯飞最新发布的讯飞星火医疗大模型。事实上,早在 2017 年,讯飞智医助理就已经通过国家执业医师资格考试,排名超过 96.3% 的人类考生,已经为基层医院及等级医院的医师提供服务。但是由于医疗场景的特殊性,科大讯飞在面向大众提供这一服务时十分谨慎。

现在,得益于讯飞星火 3.0 主动式交互的进步,讯飞星火 3.0 在医疗领域已经超越 GPT-4,磅发布了讯飞晓医生 App。在发布会中演示中,科大讯飞研究院院长刘聪专门实机演示了讯飞晓医的使用,它可以主动发问,主动丰富患者背景信息,通过多轮对话判断患者病情,科大讯飞将其称之为每个人的 AI 健康助手。

一切拿实测说话,我们用一个最简单的“肚子疼”的问题来分别提问 ChatGPT 和讯飞晓医。

ChatGPT:

ChatGPT 的回答虽然列出了许多建议,但其实并不能给出特别有效的就医信息。

讯飞晓医:

讯飞晓医在这方面要领先得多。首先它有针对性地先了解了患者的个人基本信息,然后再主动提问患者疼痛的特征、持续时间以及是否还有其他不良症状。在经过了多轮对话之后,讯飞晓医才给出了一份十分详尽的建议,包括可能的病情、需要医院的什么科室等等事无巨细都考虑到了。

这感觉,就像是在和医生面对面实际交流一样。对于平常去医院一向摸不着头脑、不知道该挂什么科室的人来说,这个 AI 健康助手实在是强大!

此外星火3.0还带来另一项重磅升级,个性化助手功能。简单理解,就是你可以赋予讯飞星火 V3.0 任何一个你可以想象到的人格,让它具有个性化的表达风格、情绪。你甚至还可以随时随地导入特定的知识以及历史的聊天记录,来让大模型形成个性化的记忆。

可以说,这基本上已经是个人 AI 助手的完全体了。

刘庆峰介绍,讯飞友伴推出 48 小时内后,首批用户就已经捏出了 3000 多个人设,大家对个性化 Ai 助手的追捧可见一斑。

不得不惊叹讯飞用户千奇百怪的想象力,比如你在这里可以和《变形金刚》中的“话痨威震弟”聊一聊汽车人与霸天虎的恩怨。

还可以和林黛玉共品《葬花吟》。

一句话总结:讯飞星火 V3.0 不愧是国产大模型的第一梯队,超越 ChatGPT 不是口头说说,而是实实在在地达到了领先和超越。

但我们也不能骄傲自满。科大讯飞的发布会上,刘庆峰也提到,国产大模型必须正视和GPT-4的差距。“国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上距GPT4还有差距。”他表示,唯有实事求是的科学精神,才能真正实现超越。

可喜的是,对标 GPT-4 的更大规模参数的星火大模型训练已正式启动训练,科大讯飞计划在 2024 年上半年实现对标 GPT-4 。

让我们拭目以待!

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

复旦金融EMBA学术主任施东辉:股市“四炒”缘何频发不绝
扬州博恒项目开工仪式圆满举行
脑白金生产基地无锡健特药业,获“创新领航企业”殊荣
海信家电荣登“广东制造业百强”榜
艾迪康控股股价涨超,获五大行“增持”评级
相约沪上!这场推介会,东亭加“数”奔跑
天港医诺TGI-6临床试验申请获得中国NMPA批准
八大处整形落户深圳,助力湾区医美行业高质量发展
骏丰频谱特约新华网直播,见证神十七发射任务圆满成功
科技让“无碍”更有爱 坤元资产FOF伙伴再次助阵亚残运会
AILIAI以27年鞋业经验强势回归,国产运动品牌再添一员!
第16届全国石油和化工企业管理创新大会强调——以管理创新加速推动世界一流企业创建
三大百亿级客户青睐,东极定位更懂打造民族品牌
希望学联手北大数院启动“希望在线基础数学青年人才支持计划” 助力培养未来数学家
全能空间站都在这一站!添可“站”在天地间致敬航天精神
安徽省立医院推出新型CAR-T细胞治疗技术,助力癌症患者重返生机
九方金融研究所:本轮库存周期底部或已确认——2023年9月工业企业利润数据点评
科技领航,智胜未来,寻找零售新篇章丨第二届零售银行峰会圆满落幕
万物智联:亿达科创智慧驱动多领域转型升级
秋冬季老年人健康需关注 昆仑健康保险客服节冬季活动即将启动
中国中免三季度毛利率回升 持续引入重奢
创维数字三季报出炉 宽带连接及汽车显示业务增量空间显著
张小泉:前三季度实现营收5.66亿元 品类拓展、技术升级助力未来成长
创维数字产业布局多元,中长期潜力实足
祺鲲科技以I-REC国际绿证助力永新股份实现绿电使用 践行可持续发展理念
数智融合 价值共创丨2023三维天地数据资产高峰论坛圆满落幕
御湘湖国际健康城获评国家心血管病中心生活方式医学联盟建设中心
百度智能云数据标注基地,助力创业者在人工智能行业乘风破浪
聚划算汇聚新疆好物,带你身临其境寻宝喀什
迎接超3000W宾客 |希尔顿欢朋再迎品牌发展新里程碑